你花錢想消除的 AI 水印，其實也是虛假內容的剋星

5c84b6ebe5b01db9c3fe95fd5f95a64a05574a3a

近幾個月來，我們看到了多起關於「深度偽造 (deepfakes)」或人工智慧生成內容的新聞報道：從泰勒絲的圖片、湯姆·漢克斯的視訊到美國總統喬·拜登的錄音。這些深度偽造內容被用於各種目的，如銷售產品、未經授權操縱人物形象、釣漁獲取私人資訊，甚至製作誤導選民的虛假資料，它們在社交媒體平臺的迅速傳播，使其具有更廣泛的影響力，從而可能造成持久的傷害。

在本篇博文中，我們將介紹 AI 生成內容加水印的方法，討論其優缺點，並展示 Hugging Face Hub 上一些可用於添加/檢測水印的工具。

什麼是水印，他是如何工作的？

圖 1: OpenAI 的 Dall-E 2 在右下角加入了由 5 塊不同顏色組成的可見水印。來源: instagram.com/dailydall.e

水印是一種標記內容以傳遞額外資訊（如內容的真實性）的方法。在 AI 生成的內容中，水印既可以是完全可見的（如圖 1 所示），也可以是完全不可見的（如圖 2 所示）。具體來說，在 AI 領域，水印指的是在數字內容（例如圖片）中加入特定模式，用以標示內容的來源；這些模式之後可以被人類或通過演算法識別。

b7805676a43f28b2d73f6a2beaaa7db32c5ac34b

圖 2: 例如 Imatag 和 Truepic 等公司已開發出將不可察覺的水印嵌入 AI 生成圖像的技術。

AI 生成內容的水印主要有兩種方法：第一種是在內容創作過程中加入，這需要訪問模型本身，但因為它是生成過程的一部分，所以更為穩固。第二種方法是在內容生成後應用，可以用於閉源和專有模型生成的內容，但可能不適用於所有類型的內容（如文字）。

資料投毒與簽名技術

除了水印，還有幾種相關技術可以限制未經同意的圖像操縱。有些技術通過微妙地改變線上分享的圖像來防止 AI 演算法正確處理這些圖像。儘管人類可以正常查看這些圖像，但 AI 演算法則無法訪問類似內容，從而無法創建新圖像。這類技術包括 Glaze 和 Photoguard。還有一些工具通過「投毒」圖像來破壞 AI 演算法訓練中的固有假設，使得 AI 系統無法根據線上分享的圖像學習人們的外貌——這讓這些系統更難以生成假人物圖像。這類工具包括 Nightshade 和 Fawkes。

通過使用「簽名」技術，也可以維護內容的真實性和可靠性，這些技術將內容與其來源的元資料連結起來，如 Truepic 的工作，它嵌入了遵循 C2PA 標準的元資料。圖像簽名有助於了解圖像的來源。雖然元資料可以被編輯，但像 Truepic 這樣的系統通過 1) 提供認證以確保可以驗證元資料的有效性；以及 2) 與水印技術整合，使得刪除資訊更加困難，來克服這一限制。

開放與封閉的水印

為公眾提供對水印器和檢測器不同級別的訪問權有其優點和缺點。開放性有助於促進創新，開發者可以在關鍵思想上進行迭代，創造出越來越好的系統。然而，這需要與防止惡意使用進行權衡。如果 AI 流程中的開放程式碼調用了水印器，去除水印步驟變得很簡單。即使水印部分是封閉的，如果水印已知且水印程式碼開放，惡意行為者可能會閱讀程式碼找到方法編輯生成的內容，使水印失效。如果還可以訪問檢測器，就可能繼續編輯合成內容，直到檢測器顯示低置信度，從而無效化水印。存在一些直接解決這些問題的混合開放-封閉方法。例如，Truepic 的水印程式碼是封閉的，但他們提供了一個可以驗證內容憑證的公共 JavaScript 庫。IMATAG 的調用水印器程式碼是開放的，但實際的水印器和檢測器是私有的。

對不同資料類型進行水印

雖然水印是跨多種模態（音訊、圖像、文字等）的重要工具，但每種模態都帶來其獨特的挑戰和考量。水印的意圖也不盡相同，無論是為了防止訓練資料被用於訓練模型、防止內容被操縱、標記模型的輸出，還是檢測 AI 生成的資料。在本節中，我們將探討不同的資料模態、它們在水印方面的挑戰，以及 Hugging Face Hub 上存在的用於實施不同類型水印的開源工具。

圖像水印

可能最為人熟知的水印類型（無論是人類創作還是 AI 生成的內容）是對圖像的水印。已經提出了不同的方法來標記訓練資料，以影響基於它訓練的模型的輸出：這種「圖像隱身」方法最著名的是「Nightshade」，它對圖像進行微小的修改，這些修改對人眼來說幾乎不可察覺，但會影響基於被汙染資料訓練的模型的質量。Hub 上也有類似的圖像隱身工具——例如，由開發 Nightshade 的相同實驗室開發的 Fawkes，專門針對人物圖像，目的是阻撓面部識別系統。同樣，還有 Photoguard，旨在保護圖像不被用於生成 AI 工具（例如，基於它們創建深度偽造）的操縱。

關於水印輸出圖像，Hub 上提供了兩種互補的方法：IMATAG（見圖 2），它通過利用修改過的流行模型（如 Stable Diffusion XL Turbo）在內容生成過程中實施水印；以及 Truepic，它在圖像生成後添加不可見的內容憑證。

TruePic 還將 C2PA 內容憑證嵌入圖像中，允許在圖像本身中儲存有關圖像來源和生成的元資料。IMATAG 和 TruePic Spaces 還允許檢測由它們系統水印的圖像。這兩種檢測工具都是方法特定的。Hub 上已有一個現有的通用深度偽造檢測的 Space 應用，但根據我們的經驗，這些解決方案的性能取決於圖像的質量和使用的模型。

文字水印

雖然給 AI 生成的圖像加水印似乎更直觀——考慮到這種內容的強烈視覺特性——但文字是另一個完全不同的故事……你如何在文字和數字（令牌）中添加水印呢？當前的水印方法依賴於基於之前文字推廣子詞彙表。讓我們深入了解這對於 LLM 生成的文字來說意味著什麼。

在生成過程中，LLM 在執行取樣或貪婪解碼之前輸出下一個令牌的 logits 列表。基於之前生成的文字，大多數方法將所有候選令牌分為兩組——稱它們為「紅色」和「綠色」。「紅色」令牌將被限制，而「綠色」組將被推廣。這可以通過完全禁止紅色組令牌（硬水印）或通過增加綠色組的概率（軟水印）來實現。我們對原始概率的更改越多，我們的水印強度就越高。WaterBench 創建了一個基準資料集，以便在控制水印強度進行蘋果與蘋果的比較時，促進跨水印演算法的性能比較。

檢測工作通過確定每個令牌的「顏色」，然後計算輸入文字來自於討論的模型的概率。值得注意的是，較短的文字因為令牌較少，因此置信度較低。

f31f91e5b122bd0de5748362e5db8cdf246d007d

圖片來源: https://huggingface.co/spaces/tomg-group-umd/lm-watermarking

你可以在 Hugging Face Hub 上輕鬆實現 LLM 的水印。LLM 水印 Space（見圖 3）演示了這一點，使用了 LLM 水印方法對模型如 OPT 和 Flan-T5 進行了應用。對於生產級工作負載，你可以使用我們的文字生成推理工具包，它實現了相同的水印演算法，並設置了相應的參數，可以與最新模型一起使用！

與 AI 生成圖像的通用水印類似，是否可以普遍水印文字尚未得到證明。諸如 GLTR 之類的方法旨在對任何可訪問的語言模型（鑑於它們依賴於將生成文字的 logits 與不同模型的 logits 進行比較）都具有魯棒性。在沒有訪問該模型（無論是因為它是閉源的還是因為你不知道哪個模型被用來生成文字）的情況下，檢測給定文字是否使用語言模型生成目前是不可能的。

正如我們上面討論的，檢測生成文字的方法需要大量文字才能可靠。即使如此，檢測器也可能有高誤報率，錯誤地將人們寫的文字標記為合成。實際上，OpenAI 在 2023 年因低準確率而悄悄關閉了他們的內部檢測工具，這在教師用它來判斷學生提交的作業是否使用 ChatGPT 生成時帶來了意想不到的後果。

音訊水印

從個人聲音中提取的資料（聲紋）通常被用作生物安全認證機制來識別個體。雖然通常與 PIN 或密碼等其他安全因素結合使用，但這種生物識別資料的洩露仍然存在風險，可以被用來獲得訪問許可權，例如銀行賬戶，鑑於許多銀行使用聲音識別技術通過電話驗證客戶。隨著聲音變得更容易用 AI 複製，我們也必須改進驗證聲音音訊真實性的技術。水印音訊內容類似於水印圖像，因為它有一個多維輸出空間，可以用來注入有關來源的元資料。在音訊的情況下，水印通常在人耳無法察覺的頻率上進行（低於約 20 或高於約 20,000 Hz），然後可以使用 AI 驅動的方法進行檢測。

鑑於音訊輸出的高風險性質，水印音訊內容是一個活躍的研究領域，過去幾年提出了多種方法（例如，WaveFuzz，Venomave）。

ecdbcc0de5de6dc45caeed4ec2124094f5c4591a

圖片來源：https://github.com/facebookresearch/audioseal

AudioSeal 也被用於發佈 SeamlessExpressive 和 SeamlessStreaming 演示，帶有安全機制。

結論

面對虛假資訊、被錯誤地指控生產合成內容，以及未經本人同意就使用其形象，都是既困難又耗時的問題；在可以進行更正和澄清之前，大部分損害已經造成。

因此，作為我們使好的機器學習普惠化的使命的一部分，我們相信，擁有快速和系統地識別 AI 生成內容的機制是至關重要的。AI 水印雖不是萬能的，但在對抗惡意和誤導性 AI 使用方面，它是一個強有力的工具。

相關新聞報道

It Doesn’t End With Taylor Swift: How to Protect Against AI Deepfakes and Sexual Harassment | PopSugar (@meg)
Three ways we can fight deepfake porn | MIT Technology Review (@sasha)
Gun violence killed them. Now, their voices will lobby Congress to do more using AI | NPR (@irenesolaiman)
Google DeepMind has launched a watermarking tool for AI-generated images | MIT Technology Review (@sasha)
Invisible AI watermarks won’t stop bad actors. But they are a ‘really big deal’ for good ones | VentureBeat (@meg)
A watermark for chatbots can expose text written by an AI | MIT Technology Review (@irenesolaiman)
Hugging Face empowers users with deepfake detection tools | Mashable (@meg)

歡迎加入這個星球，見證矽基時代發展↓

點個「」，再走吧👀

你花錢想消除的 AI 水印，其實也是虛假內容的剋星

資料投毒與簽名技術

開放與封閉的水印

圖像水印

文字水印

音訊水印

You missed

核问题仍是美伊谈判死结，特朗普希望更多国家护航霍尔木兹

一个人跑通一家公司，上海模速空间里的AI新物种

33万进口商共可获1660亿美元，美国关税退款5月11日左右开始发放

【深度】大主播离职，东方甄选逃不出的困局