AI通過鍵盤竊取密碼，人類還有秘密可言嗎？

誰能想到，膝上型電腦敲個鍵盤也能洩露自己的密碼，而且準確率高達95%！

近日，來自英國杜倫大學等3所高校學者發表的一篇論文指出，最先進的人工智慧模型，僅憑膝上型電腦的按鍵聲音，就可以還原使用者輸入的密碼和敏感資訊。若使用線上會議工具（Zoom）記錄的聲音進行分析的話，該模型準確率達到了93%；而如果換成智慧手機錄音，準確率則高達95%。簡直防不勝防！

圖片來源：Piqsels相簿

Part.1

被低估的鍵盤聲攻擊

在日常生活和工作中，當人們在設備上鍵入密碼時，有些謹慎的朋友可能會注意隱藏螢幕，比如用手遮擋等，但很少會有人去掩蓋鍵盤的聲音。未來，這一現狀可能會有一些改變——事情還得從英國杜倫大學等發表的這篇題為「基於深度學習的鍵盤聲學側頻道攻擊實用技術」的論文說起。

隨著深度學習技術的最新發展，以及微型手機等智慧設備的普及，來自英國幾所大學的研究人員發現，聲學側頻道攻擊對鍵盤的威脅比以往任何時候都要大。

圖片來源：Piqsels相簿

一方面，儘管已有多篇論文研究了這一問題，並建立了數學模型，能從鍵盤聲音資料中推斷正確按鍵，但那些鍵盤大都來自桌上型電腦，比現代鍵盤，尤其是膝上型電腦鍵盤聲音明顯太多。而且相同型號的膝上型電腦通常都有一樣的鍵盤，鍵盤聲音也是相似的，也就是說，如果一款流行的膝上型電腦被證明易受聲學側頻道攻擊影響，那麼大部分消費者可能都處於隱私洩露的威脅中。

並且，現在獲取聲音的麥克風設備也較以往有了顯著提高。過去基本依靠外接話筒，而現在手機、智慧手錶包括Zoom等線上會議軟體都可以用來收集鍵盤聲音。這也意味著，即使不攻擊膝上型電腦，某些防禦系統比較低級的智慧穿戴或智慧家居設備遭到侵入，同樣會有隱私洩露的危險。

圖片來源：Piqsels相簿

最重要的是，隨著深度學習等人工智慧技術的飛速發展，現在用來處理和分析資料的計算模型已有了極大提高。

過去，人們在研究聲學側頻道攻擊時廣泛使用的是機器學習方法，常見的一種方法是利用隱馬爾可夫模型（HMM），即一種在文字語料庫中訓練出來的模型，主要用於預測序列中最有可能出現的單詞或字符。

比如，當分類器中輸出「Hwllo」時，HMM可用來推斷單詞中的「w」實際上是被錯誤分類的「e」。該方法儘管在很多文字處理類的場景中比較有效，但一個最大的缺點就是輸出了很強的獨立性假設，不能考慮上下文的特徵，使得對真實情況的建模能力變弱了，尤其在面臨無序的密碼場景中比較受限，這也可能是HMM近來不受歡迎的原因之一。

圖片來源：Piqsels相簿

在這篇論文中，研究人員首次提出了一種新技術，將具有自我注意層的深度學習模型用於鍵盤聲學側頻道攻擊，並首次在鍵盤攻擊中使用了自注意力變換層（基於transformer網路），同時在真實世界的攻擊場景中進行了多次針對性實驗和評估，結果顯示，當前膝上型電腦的鍵盤洩密風險比以往任何時候都要大。

Part.2

讓我們還原一下「案發現場」

在本次實驗中，研究人員首先選取了一臺配備16GB記憶體和蘋果M1 Pro處理器的MacBook Pro16英寸（2021年）膝上型電腦作為攻擊對象。該電腦的鍵盤開關設計與過去兩年的機型及未來可能推出的機型完全相同，且同期可用的型號很少，鍵盤也基本相同。

06a0eb9895533a94f7722ba831a4294f11bcbd39

用於記錄按鍵的Desk設置（圖片來源：原論文）

而在收集聲音資料方面，研究人員也選擇了當前比較常見的兩種模式進行收集：一是通過與膝上型電腦同處一地的手機進行錄音；第二就是通過線上會議工具（Zoom）進行遠端攻擊錄音。

準備工作就緒後，接下來讓我們簡單還原一下「案發現場」。

第一步，收集資料：在兩組不同模式（手機和Zoom）的實驗中，研究人員通過按壓膝上型電腦的36個按鍵（0-9、a-z）來進行；在用不同角度和力度對每個按鍵分別按壓25次後，一個記錄聲音的資料檔案就產生了。

第二步，擊鍵隔離：所有按鍵資料都被記錄後，研究人員就用當前信號分析的一種最基本方法——快速傅立葉變換（FFT），對按鍵聲音進行了提取，並對不同頻率的係數求和以獲取能量；之後再定義一個能量閾值，當信號超過閾值時則標記為按鍵。

值得注意的是，由於Zoom在錄音過程中存在噪聲抑制，很難設定能量閾值，研究人員採取了一種不斷調整閾值的循環方法來解決，直到找到正確的按鍵次數。

按鍵隔離過程（圖片來源：原論文）

第三步，特徵提取：這一步，研究人員採用了梅爾頻譜圖方法將聲音特徵提取出來，讓每個按鍵的差異可識別。

5246c77280d698e55a7e9c9d4c5465d75961f425

波形和相應的旋律譜圖，左為手機、右為Zoom錄音（圖片來源：原論文）

第四步，資料增強：為了促進模型的泛化，即提高機器學習模型對新的、未見過的資料的適應能力，避免過度擬合訓練資料，研究人員同時使用了遮蔽法進行資料增強，即通過隨機抽取時間軸和頻率軸的部分資料，並將這些範圍內的所有值設置為頻譜圖的平均值，從而「遮蔽」部分圖像。

第五步，建立模型：這也是本次實驗中最為關鍵的一步。研究人員選擇了圖像識別領域最先進的CoAtNet模型，這是一種完美結合卷積神經網路（CNN）和Transformer（基於自注意力機制的深度學習模型）強大優勢的模型進行訓練。CoAtNet模型訓練時間短，可以快速處理資料中的模式，同時降低取樣大小（卷積），之後通過計算注意分數（自我注意）來確定這些模式之間的相關性，從而能夠在相對較小的模型中也獲得了很好的分類結果。

在此過程中，研究人員在CoAtNet的基礎上添加了平均池化層，即計算圖像區域的平均值作為該區域池化後的值，用以緩解卷積層對位置的敏感性、減少參數量；然後再是一個全連接的線性層（神經網路的基本元件之一），主要作用就是將輸入的資料通過系列複雜計算得到輸出結果。這樣一來，CoAtNet的輸出結果就可以被縮減為與每個鍵相關的百分比。

圖片來源：Piqsels相簿

最終，研究人員的實驗結果顯示：通過手機錄音的按鍵分類準確率達到了95%，而在Zoom錄製的資料集中，分類準確率則達到了93%。簡單來說，一個8位數的密碼可能其中7個都可以被正確識別，而剩下的那一個被錯誤識別的也被證明往往集中在正確按鍵周圍的位置！

Part.3

人類還有秘密可言嗎？

在最新的AI模型面前，人類看起來好像已經沒有秘密可言。除了通過鍵盤聲音來獲取密碼，還有哪些我們不知道的攻擊方式？

這裡首先得科普一下本篇論文提到的側頻道攻擊的概念。所謂的側頻道攻擊，也叫邊頻道攻擊，其核心就是通過加密軟體或硬體在運行時產生的各種洩露資訊來間接獲取密文資訊。簡單來講，任何不通過正面對抗的、「旁門左道」的方法都屬於邊頻道攻擊的範疇。正所謂，大門不走走偏門、偏門走不了翻窗戶，五花八門的方式只有想不到，沒有駭客們做不到！

圖片來源：Piqsels相簿

按照側資訊的種類，除了聲音之外，常見的攻擊方式還有計時攻擊、功耗攻擊以及電磁攻擊等。

比如計時攻擊，計算機中的每一個程序操作都需要時間來執行，通過精確測量每個操作的時間，攻擊者不僅可以推斷運算的程序，還可以加快金鑰的破解。舉個簡單例子，假設有一串6位數字組成的密碼654321，當駭客通過計時攻擊的方式來破解密碼時，他們會通過不斷地列舉「第一位」數字來加快進程。當第一位數字輸入錯誤時驗證程序很快就返回了，而當輸入正確數字「6」時會發現用時比其他密碼時間長，因為驗證程序進入了第二位。後面以此類推，通過這一方法只需少數幾次實驗就可以很快實現密碼破解了。

圖片來源：Piqsels相簿

還有功耗攻擊，當人類使用計算機時，輸入的字符或資訊都會被轉化為0或者1的編碼組合，然後通過無數電晶體的開或者關來表示並運算不同的程序。不同的指令觸發的電晶體開關數量不一樣，所產生的功耗也不一樣。通過精確的功耗變化圖分析，駭客們也可以找到其中隱藏的關鍵資訊。

圖片來源：Piqsels相簿

最後比較常見的還有電磁攻擊，根據法拉第定律，電流的運動會產生磁場，不同程序在操作過程中產生的電磁輻射也不同。通過獲取設備在運行過程中輻射出來的電磁信號，並使用相應的分析方法及洩露模型，很多關鍵資訊也就無處可藏了。

此外，基於光學、溫度、震動等信號的攻擊方式也在與日俱增。2018年，美國加州大學爾灣分校的研究人員就發現了一種熱成像攻擊方法，即通過熱感攝像機測量使用者在鍵盤上留下的餘熱，就可以還原鍵入的文字資訊；2020年，以色列的研究人員發現，通過計算機洩露的風扇轉速也可以竊取到關鍵資料……

簡而言之一句話，只要設備有信號洩露，有心人就可以通過資料收集、處理、分析及建模等一套完整的組合拳實現邊頻道攻擊的目的。

既然如此，人類還有應對的辦法嗎？

答案當然是肯定的，不過是一時東風壓倒西風、一時西風壓倒東風。比如硬體層面，使用能減少向外部傳遞信號的部件或者對信號製造干擾；軟體層面，升級安全防禦軟體或定期更新；還有使用者層面，儘量使用複雜組合的密碼並且經常更換……

不過，在這信號無處不在的世界，防止資訊洩露的工作還是任重道遠啊！

來源：科學大院

AI通過鍵盤竊取密碼，人類還有秘密可言嗎？

You missed

核问题仍是美伊谈判死结，特朗普希望更多国家护航霍尔木兹

一个人跑通一家公司，上海模速空间里的AI新物种

33万进口商共可获1660亿美元，美国关税退款5月11日左右开始发放

【深度】大主播离职，东方甄选逃不出的困局