

網際網路時代,隱私洩露嚴重,每個人都有可能成為某個小黃片的主角。退一步說,哪怕只是一張私密照被他人傳播,也絕對會令人極其不爽。
為了保護使用者隱私,巨頭們(嘴上)下了不少功夫。最近Facebook就想出了一個狠招:建議使用者將裸照上傳到平臺,平臺就能幫忙檢索,預防洩露風險。
臉書這是打算「以毒攻毒」?
作者 | 世超
來源 | 差評(ID:chaping321)
金錯刀(ijincuodao)授權轉載
前幾天, Meta 公司推出了一個據說開發了4年的鑑黃工具,為了阻止別人在社交網路上傳你的私密照。
功能簡單來講是這樣:
使用者需要先通過第三方運營的網站上傳照片給工具,提取照片的數字指紋,之後這個數字指紋會共享到社交平臺,用於檢測是否有人分享這些照片。
聽起來是不是挺厲害?但這裡面有個前提條件,就是得先把自己的裸照上傳給這個工具。

不是,你們搞了 4 年,就搞出了這麼個玩意?
要說這個項目,還得追溯到 2017 年。
當時還叫 Facebook 的 Meta 公司,為了幫助身陷色情報復的受害者,開始研究起了網路鑑黃,這一項目還獲得了社會各界的認同。
最初版本的工具於 2018 年推出,需要使用者通過郵件上傳自己的私密照片,由工作人員審核,進行照片的數字指紋提取,用於檢測平臺上是否存在相似圖片。

徵集也就算了,還打算依靠人工審核,這波操作當時就收穫了一大片問號。
過了一年, Facebook 打了一個補丁。這一次,後續檢測平臺圖片的任務,交到了 AI 手上。
然而,前期蒐集照片數字指紋的步驟,還是得依靠人工審核。。。

前前後後四年過去了, Meta 公司終於憋出了工具的新版本。
審核人員終於下崗了,提取照片數字指紋的工作,總算交給了 AI 。
為了挽救一下被搞臭的名聲, Meta 公司還把提取數字指紋的工具搭建在了第三方網站上,只共享包含數字指紋的資料庫。

這個怎麼都繞不開的數字指紋,其實就是哈希值,也相當於一張圖片獨一無二的數字資訊。兩組圖片哈希值差異越小,圖片的相似度就越高。
搞出這麼一套東西的原因,也是因為單張圖片資訊量太大了,直接拿來比對非常困難,所以需要一個更簡單的方式。

想要把資料量壓縮下來,就得抓取出來圖片的關鍵特徵,用特徵點來代表這張圖。
而對於圖片而言,最關鍵的特徵,就是線條。
之所以選擇線條,原因也很簡單。以下面這張圖為例,去掉顏色和明暗細節,只保留線條,我們就可以得到第二張圖。


看到沒有?只要保留線條,就算是簡單的黑白線條,查重率還是 100% 。而且線條的資料量一看就比顏色小得多,處理起來更容易。
所以說,哈希值的核心,就是通過「 線條 」這一關鍵特徵來識別圖片。
知道要提取哪方面的特徵之後,我們還得把特徵量化成數字。咱們再來看看下面這張圖,系統會先砍掉大部分色彩及尺寸資料,得到 32 * 32 像素的灰度圖。

接下來,對這張黑白馬賽克的線條特徵進行一次資訊提取。

可以看出來,線條部分像素灰度變化大( 紅圈內 ),相同灰度像素點出現的頻次較低。
而大面積著色部分像素灰度變化小( 綠圈內 ),相同灰度像素點出現頻次較多。
根據這個特徵,我們就可以對像素點進行一次重排,把出現頻次低的像素點扔到左上角的位置。

這樣一來,我們就可以用左上角的這些像素來表示這張圖片的線條,這一下子又省事了不少。
但這還不夠,還得想辦法把它變成一個字串。
處理辦法也不難,系統會在這一步計算出這堆像素點的平均灰度值。
像素點灰度低於這個平均值的計為 0 ,高於平均值的計為 1 ,之後我們就會得到一串字串,它就是圖像的二進位制哈希值代表,當然,實際運用中還會繼續換算成十六進位制哈希值。

從圖片變成一小段字符,資料比對的工作效率一下子就高多了。
這項技術最早由微軟與 Hany Farid 教授共同開發,如今已經發展得非常成熟,特別是在打擊違法檔案傳播的工作中應用十分廣泛。
沒錯,如果有人用網盤傳給你的遠古色圖被夾了,那一定就是這項技術的功勞。
幾個月前,蘋果為了打擊兒童色情犯罪行為,掃描使用者相簿使用的也是哈希技術。只要通過對比 CSAM ( 兒童性虐待材料 )資料庫中已存在的哈希值序列,就可以檢測使用者手機中是否存在違規照片。

但它只能在廣泛流傳的檔案中奏效,如果想用同樣的方法斃掉網上的私密照片,不好意思,伺服器上沒有你裸照對應的哈希值。
這也就意味著要用這招,你要麼給他們送一份裸照的哈希值,要麼就得往伺服器上送一份自己的裸照,讓他們幫你把哈希值算出來。
很不幸的是,Meta 這次用的就是後面這招,也就是說,雖然後臺沒有審核人員了,但你依舊需要往伺服器上發一張裸照。
這波啊,以毒攻毒了屬於是。

而且雖然他們保證自己不會保存照片,但是中間萬一被駭客給截了呢?只要聯了網,沒有人能保證中間的任何一個步驟,不會被人攔截竊取。
與 StopNCII.org 和合作的技術平臺
僅共享哈希值,而不是圖像本身 ▼

而且我就想不明白了,線上算是算,到本地算不也是算嘛?幹嘛不直接搞個離線工具包,讓使用者自己提取哈希值上傳呢?
看不懂。
況且就算在本地計算哈希值,這套方案的破解方法,也簡單到令人髮指。
因為哈希值檢測的技術核心是提取圖片輪廓資訊,所以只需要在線條上做點手腳,數字指紋分分鐘比對失敗。
比如,簡簡單單給圖片加個塗鴉,立刻「 查無此圖 」,想要對你展開色情報復的人,隨手就能繞過這一道坎。

Meta 公司四年時間搞出來這麼一份形同虛設的工具,說真的,實在有點說不過去。
以至於網友們直接提議,乾脆一刀切算了,全網禁止色圖上傳絕對保險。
再不濟, Facebook 的臉部辨識玩得那麼溜,直接比對臉部特徵也比拿裸照搭建資料庫強啊。
圖片資料來源:
Google圖片、
https://about.fb.com/news/2021/12/strengthening-efforts-against-spread-of-non-consensual-intimate-images/、
https://www.cnblogs.com/Kalafinaian/p/11260808.html