
近幾個月來,我們看到了多起關於「深度偽造 (deepfakes)」或人工智慧生成內容的新聞報道:從 泰勒絲的圖片、湯姆·漢克斯的視訊 到 美國總統喬·拜登的錄音。這些深度偽造內容被用於各種目的,如銷售產品、未經授權操縱人物形象、釣漁獲取私人資訊,甚至製作誤導選民的虛假資料,它們在社交媒體平臺的迅速傳播,使其具有更廣泛的影響力,從而可能造成持久的傷害。
在本篇博文中,我們將介紹 AI 生成內容加水印的方法,討論其優缺點,並展示 Hugging Face Hub 上一些可用於添加/檢測水印的工具。
什麼是水印,他是如何工作的?

圖 1: OpenAI 的 Dall-E 2 在右下角加入了由 5 塊不同顏色組成的可見水印。來源: instagram.com/dailydall.e
水印是一種標記內容以傳遞額外資訊(如內容的真實性)的方法。在 AI 生成的內容中,水印既可以是完全可見的(如圖 1 所示),也可以是完全不可見的(如圖 2 所示)。具體來說,在 AI 領域,水印指的是在數字內容(例如圖片)中加入特定模式,用以標示內容的來源;這些模式之後可以被人類或通過演算法識別。

圖 2: 例如 Imatag 和 Truepic 等公司已開發出將不可察覺的水印嵌入 AI 生成圖像的技術。
AI 生成內容的水印主要有兩種方法:第一種是在內容創作過程中加入,這需要訪問模型本身,但因為它是生成過程的一部分,所以 更為穩固。第二種方法是在內容生成後應用,可以用於閉源和專有模型生成的內容,但可能不適用於所有類型的內容(如文字)。
資料投毒與簽名技術
除了水印,還有幾種相關技術可以限制未經同意的圖像操縱。有些技術通過微妙地改變線上分享的圖像來防止 AI 演算法正確處理這些圖像。儘管人類可以正常查看這些圖像,但 AI 演算法則無法訪問類似內容,從而無法創建新圖像。這類技術包括 Glaze 和 Photoguard。還有一些工具通過「投毒」圖像來破壞 AI 演算法訓練中的固有假設,使得 AI 系統無法根據線上分享的圖像學習人們的外貌——這讓這些系統更難以生成假人物圖像。這類工具包括 Nightshade 和 Fawkes。
通過使用「簽名」技術,也可以維護內容的真實性和可靠性,這些技術將內容與其來源的元資料連結起來,如 Truepic 的工作,它嵌入了 遵循 C2PA 標準的元資料。圖像簽名有助於了解圖像的來源。雖然元資料可以被編輯,但像 Truepic 這樣的系統通過 1) 提供認證以確保可以驗證元資料的有效性;以及 2) 與水印技術整合,使得刪除資訊更加困難,來克服這一限制。
開放與封閉的水印
為公眾提供對水印器和檢測器不同級別的訪問權有其優點和缺點。開放性有助於促進創新,開發者可以在關鍵思想上進行迭代,創造出越來越好的系統。然而,這需要與防止惡意使用進行權衡。如果 AI 流程中的開放程式碼調用了水印器,去除水印步驟變得很簡單。即使水印部分是封閉的,如果水印已知且水印程式碼開放,惡意行為者可能會閱讀程式碼找到方法編輯生成的內容,使水印失效。如果還可以訪問檢測器,就可能繼續編輯合成內容,直到檢測器顯示低置信度,從而無效化水印。存在一些直接解決這些問題的混合開放-封閉方法。例如,Truepic 的水印程式碼是封閉的,但他們提供了一個可以驗證內容憑證的公共 JavaScript 庫。IMATAG 的調用水印器程式碼是開放的,但實際的水印器和檢測器是私有的。
對不同資料類型進行水印
雖然水印是跨多種模態(音訊、圖像、文字等)的重要工具,但每種模態都帶來其獨特的挑戰和考量。水印的意圖也不盡相同,無論是為了防止 訓練資料 被用於訓練模型、防止內容被操縱、標記模型的 輸出,還是 檢測 AI 生成的資料。在本節中,我們將探討不同的資料模態、它們在水印方面的挑戰,以及 Hugging Face Hub 上存在的用於實施不同類型水印的開源工具。
圖像水印
可能最為人熟知的水印類型(無論是人類創作還是 AI 生成的內容)是對圖像的水印。已經提出了不同的方法來標記訓練資料,以影響基於它訓練的模型的輸出:這種「圖像隱身」方法最著名的是 「Nightshade」,它對圖像進行微小的修改,這些修改對人眼來說幾乎不可察覺,但會影響基於被汙染資料訓練的模型的質量。Hub 上也有類似的圖像隱身工具——例如,由開發 Nightshade 的相同實驗室開發的 Fawkes,專門針對人物圖像,目的是阻撓面部識別系統。同樣,還有 Photoguard,旨在保護圖像不被用於生成 AI 工具(例如,基於它們創建深度偽造)的操縱。
關於水印輸出圖像,Hub 上提供了兩種互補的方法:IMATAG(見圖 2),它通過利用修改過的流行模型(如 Stable Diffusion XL Turbo)在內容生成過程中實施水印;以及 Truepic,它在圖像生成後添加不可見的內容憑證。
TruePic 還將 C2PA 內容憑證嵌入圖像中,允許在圖像本身中儲存有關圖像來源和生成的元資料。IMATAG 和 TruePic Spaces 還允許檢測由它們系統水印的圖像。這兩種檢測工具都是方法特定的。Hub 上已有一個現有的通用 深度偽造檢測的 Space 應用 ,但根據我們的經驗,這些解決方案的性能取決於圖像的質量和使用的模型。
文字水印
雖然給 AI 生成的圖像加水印似乎更直觀——考慮到這種內容的強烈視覺特性——但文字是另一個完全不同的故事……你如何在文字和數字(令牌)中添加水印呢?當前的水印方法依賴於基於之前文字推廣子詞彙表。讓我們深入了解這對於 LLM 生成的文字來說意味著什麼。
在生成過程中,LLM 在執行取樣或貪婪解碼之前輸出下一個令牌的 logits 列表。基於之前生成的文字,大多數方法將所有候選令牌分為兩組——稱它們為「紅色」和「綠色」。「紅色」令牌將被限制,而「綠色」組將被推廣。這可以通過完全禁止紅色組令牌(硬水印)或通過增加綠色組的概率(軟水印)來實現。我們對原始概率的更改越多,我們的水印強度就越高。WaterBench 創建了一個基準資料集,以便在控制水印強度進行蘋果與蘋果的比較時,促進跨水印演算法的性能比較。
檢測工作通過確定每個令牌的「顏色」,然後計算輸入文字來自於討論的模型的概率。值得注意的是,較短的文字因為令牌較少,因此置信度較低。

圖片來源: https://huggingface.co/spaces/tomg-group-umd/lm-watermarking
你可以在 Hugging Face Hub 上輕鬆實現 LLM 的水印。LLM 水印 Space(見圖 3)演示了這一點,使用了 LLM 水印方法 對模型如 OPT 和 Flan-T5 進行了應用。對於生產級工作負載,你可以使用我們的 文字生成推理工具包,它實現了相同的水印演算法,並設置了 相應的參數,可以與最新模型一起使用!
與 AI 生成圖像的通用水印類似,是否可以普遍水印文字尚未得到證明。諸如 GLTR 之類的方法旨在對任何可訪問的語言模型(鑑於它們依賴於將生成文字的 logits 與不同模型的 logits 進行比較)都具有魯棒性。在沒有訪問該模型(無論是因為它是閉源的還是因為你不知道哪個模型被用來生成文字)的情況下,檢測給定文字是否使用語言模型生成目前是不可能的。
正如我們上面討論的,檢測生成文字的方法需要大量文字才能可靠。即使如此,檢測器也可能有高誤報率,錯誤地將人們寫的文字標記為合成。實際上,OpenAI 在 2023 年因低準確率而悄悄關閉了他們的內部檢測工具,這在教師用它來判斷學生提交的作業是否使用 ChatGPT 生成時帶來了 意想不到的後果。
音訊水印
從個人聲音中提取的資料(聲紋)通常被用作生物安全認證機制來識別個體。雖然通常與 PIN 或密碼等其他安全因素結合使用,但這種生物識別資料的洩露仍然存在風險,可以被用來獲得訪問許可權,例如銀行賬戶,鑑於許多銀行使用聲音識別技術通過電話驗證客戶。隨著聲音變得更容易用 AI 複製,我們也必須改進驗證聲音音訊真實性的技術。水印音訊內容類似於水印圖像,因為它有一個多維輸出空間,可以用來注入有關來源的元資料。在音訊的情況下,水印通常在人耳無法察覺的頻率上進行(低於約 20 或高於約 20,000 Hz),然後可以使用 AI 驅動的方法進行檢測。
鑑於音訊輸出的高風險性質,水印音訊內容是一個活躍的研究領域,過去幾年提出了多種方法(例如,WaveFuzz,Venomave)。

圖片來源:https://github.com/facebookresearch/audioseal
AudioSeal 也被用於發佈 SeamlessExpressive 和 SeamlessStreaming 演示,帶有安全機制。
結論
面對虛假資訊、被錯誤地指控生產合成內容,以及未經本人同意就使用其形象,都是既困難又耗時的問題;在可以進行更正和澄清之前,大部分損害已經造成。
因此,作為我們使好的機器學習普惠化的使命的一部分,我們相信,擁有快速和系統地識別 AI 生成內容的機制是至關重要的。AI 水印雖不是萬能的,但在對抗惡意和誤導性 AI 使用方面,它是一個強有力的工具。
相關新聞報道
-
It Doesn’t End With Taylor Swift: How to Protect Against AI Deepfakes and Sexual Harassment | PopSugar (@meg)
-
Three ways we can fight deepfake porn | MIT Technology Review (@sasha)
-
Gun violence killed them. Now, their voices will lobby Congress to do more using AI | NPR (@irenesolaiman)
-
Google DeepMind has launched a watermarking tool for AI-generated images | MIT Technology Review (@sasha)
-
Invisible AI watermarks won’t stop bad actors. But they are a ‘really big deal’ for good ones | VentureBeat (@meg)
-
A watermark for chatbots can expose text written by an AI | MIT Technology Review (@irenesolaiman)
-
Hugging Face empowers users with deepfake detection tools | Mashable (@meg)

歡迎加入這個星球,見證矽基時代發展↓
點個「」,再走吧👀