DeepMind 利用無監督學習開發 AlphaMissense,預測 7100 萬種基因突變
點選上方藍字,關注我們!

人類基因組共有 31.6 億個鹼基對,無時無刻不在經歷複製、轉錄和翻譯,也隨時有著出錯突變的風險。
錯義突變是基因突變中的一種常見形式,然而人類目前只觀察到了其中的一小部分,能夠解讀的更是只有 0.1%。
準確預測錯義突變的作用,對於罕見病、遺傳病的研究和防治有著重要作用。這次,DeepMind 又出手了。
作者 | 雪菜
編輯 | 三羊、鐵塔
人類基因組共有 31.6 億個鹼基對。這些鹼基對每天會經歷複製、轉錄、翻譯,最終表達成為蛋白質,調控人類日常生理活動。
在如此龐大的工作量下,即使是精細的人體也很難做到毫無差錯。稍有不慎,鹼基對就可能配位錯誤,導致基因突變,日積月累甚至引發癌症。
錯義突變 (Missense Mutation) 是一種常見的基因突變形式。由於 DNA 中鹼基突變,翻譯得到的氨基酸發生了變化,最終導致整個蛋白質功能被破壞。

圖 1:錯義突變示意圖
由於 DNA 中腺嘌呤核苷酸突變為鳥嘌呤核苷酸
翻譯得到的氨基酸由谷氨醯胺變為絲氨酸
目前人類觀察到了 400 多萬種錯義突變,但僅能將 2% 的錯義突變歸類為致病突變或是良性突變。
準確預測錯義突變的作用能夠加深人類對於罕見病的理解,並針對潛在的遺傳病進行預防和治療。雖然變異效應多重分析 (MAVEs) 可以對蛋白質的突變進行系統的分析,並準確預測其臨床效果,但這一方法需要大量的人力物力,難以對所有錯義突變可能進行全面的分析。
為此,DeepMind 通過 AlphaFold 分析了蛋白質的整體結構,並結合弱標籤學習和無監督學習開發了 AlphaMissense,對錯義突變的後果進行了系統的分析。AlphaMissense 利用 ClinVar 資料集進行了驗證,預測正確率達到 90%。
隨後,AlphaMissense 對人類可能出現的 7,100 萬種錯義突變進行了預測,其中 32% 可能為致病性突變,57% 可能為良性突變。這些結果將極大促進分子生物學、基因組學、臨床醫學等學科的發展。這一成果已發表於「Science」。

圖 2:AlphaMissense 對 7,100 萬種錯義突變的預測結果(上)及人類目前觀察到和確認的結果(下)

相關成果已發表於「Science」
論文連結:
https://www.science.org/doi/10.1126/science.adg7492

實驗過程
AlphaMissense
AlphaFold + 微調
將一串氨基酸序列輸入 AlphaMissense 後,它會對序列中任一氨基酸變化的致病性進行預測。AlphaMissense 的實現和 AlphaFold 非常相似,只在架構上做了細微的調整。

圖 3:AlphaMissense 的結構示意圖
AlphaMissense 的訓練集來源廣泛,但主要來自於人類和非人靈長類。其中,來源於人類的良性錯義突變有 1,248,533 個,致病錯義突變則從可能出現但尚未被觀察到的 65,314,044 個突變中抽取。
AlphaMissense 的訓練包括兩步。首先,同 AlphaFold 一樣,AlphaMissense 需要預測多序列對比 (Multiple Sequence Alignments) 中被隨機掩碼的氨基酸,進而預測單鏈蛋白質的結構,並進行蛋白質語言建模。
隨後,研究人員利用人類蛋白質對 AlphaMissense 進行微調 (fine-tuning),並設定了模型的輸出目標,即錯義突變的致病性。
由於未被觀察到的錯義突變中存在相當數量的良性突變,但在訓練過程中都將其歸為了致病突變,因此 AlphaMissense 訓練集的噪音很大。為了提升訓練集的數量和質量,研究人員使用自蒸餾 (self-distillation) 的方式對資料進行了過濾。
臨床資料驗證
不同資料集中的表現
訓練完成後,利用標註後的臨床資料 (ClinVar 資料集)、罕見發育障礙患者中的新發突變 (de novo variants) 和 ProteinGym 中的 MAVE 結果對 AlphaMissense 進行驗證。
首先,研究人員對 AlphaMissense 在 ClinVar 資料集中的表現進行了評價。在對 18,924 個突變位點進行分析後,AlphaMissense 的 auROC 為 0.940,較之前最先進的進化模型 (EVE) 有所提升 (0.911)。
在對錯義突變進行臨床評價時,人們一般會關注特定疾病相關的基因。因此,分辨出這些基因中良性和致病的錯義突變尤為重要。研究人員利用 AlphaMissense 對 ClinVar 中的 612 個基因進行分析,其 auROC 為 0.950,優於 EVE 的 0.921。
最後,研究人員分析了 AlphaMissense 在解密發育障礙 (DDD, Deciphering Developmental Disorders) 資料集中的預測結果。AlphaMissense 的 auROC 為0.809,與 PrimateAI 的 0.797 相當。

圖 4:AlphaMissense 和其他模型在不同資料集中性能對比
A:對 ClinVar 中突變位點的分析;
B:對 ClinVar 中基因的分析;
C:對 DDD 資料集的分析。
同時,AlphaMissense 對 Cancer Hotspots、ACMG (American College of Medical Genetics) 和其他 MAVE 資料的預測結果也較其他模型更為優異。上述結果說明,AlphaMissense 在多個資料集中表現優於現有模型。
總體預測性能
反映蛋白質突變趨勢
用臨床資料對 AlphaMissense 進行驗證之後,研究人員利用 AlphaMissense 對 2.16 億個氨基酸在人類常見的 19,233 個蛋白質中可能發生的突變進行了預測,最終得到了 7,100 萬種錯義突變的預測結果。
AlphaMissense 的致病性預測結果在 0-1 之間,越接近 1 說明致病可能性越高。由於絕大多數預測結果接近 0 和 1,因此 0.2 至 0.8 之間的資料可能不太準確。最終,他們將預測結果分為三類:可能致病、可能良性和無法確定。
為對 AlphaMissense 的預測性能進行整體評價,研究人員計算了所有蛋白質的單個氨基酸致病性。結果顯示,芳香族氨基酸和半胱氨酸的突變更容易引發疾病,與實際結果一致,因為這兩種氨基酸起到了維持蛋白質結構的作用。

圖 5:AlphaMissense 的預測結果熱圖
色塊代表 2.16 億個氨基酸變化在蛋白質組中的平均致病性
將 AlphaMissense 的預測結果和 AlphaFold 預測的蛋白質結構視覺化之後,我們可以看到這些蛋白質的突變趨勢。比如,蛋白質結構紊亂的區域與良性突變的發生區域相對應,這與蛋白質組學的預測結果也是一致的。

圖 6:ACMG 和 MAVE 資料集中部分蛋白質的視覺化結果
左側為 AlphaMissense 預測的致病性,可能致病的錯義突變為紅色,可能良性的錯義突變為藍色,已被收錄於 ClinVar 資料集的突變以實心圓標註。右側為 AlphaFold 預測的蛋白質結構,不同顏色表示這一區域突變致病性,與 AlphaMissense 相對應。
預測準確率
與 MAVE 結果一致性
為調查 AlphaMissense 和 MAVE 結果之間的一致性,研究人員利用 AlphaMissense 對兩組 MAVE 資料進行了分析。與其他預測方法相比,AlphaMissense 與 MAVE 資料最為接近。

圖 7:AlphaMissense 和其他模型與 MAVE 預測結果的斯皮爾曼相關係數
其中AlphaMissense 結果最好
隨後,他們又將 AlphaMissense 的預測資料和實驗驗證過的錯義突變致病性進行了對比。SHOC2 蛋白可以與 MRAS 和 PP1C 蛋白形成複合物,激活 Ras-MAPK 癌症通路。AlphaMissense 與 MAVE 對這一突變和 Ras 癌症細胞的相關性進行了預測,得到的斯皮爾曼相關係數為 0.47,優於其他模型(ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。

圖 8:不同模型對 MAVE 資料集中錯義突變的預測結果
進一步的,研究人員探究了 AlphaMissense 對 SHOC2 蛋白不同區域氨基酸錯義突變致病性的預測結果。在 SHOC2 的前 80 個氨基酸中,MAVE 預測第 63-74 號氨基酸突變是致病的,因為這一區域會通過 RVxF 與 PP1C 蛋白結合。AlphaMissense 是唯一一個識別出這一重要區域的模型。

圖 9:AlphaMissense 對 SHOC2 蛋白的預測結果
A:不同模型對 SHOC2 蛋白前 200 氨基酸突變致病性的預測結果。自上而下分別為實際情況 (MAVE)、AlphaMissense 和 EVE;
B:SHOC2 蛋白(紅色和藍色)和 MRAS(黃色)、PP1C(金色)蛋白組成的複合體結構圖。
而且,AlphaMissense 能夠反映出不同種類氨基酸錯義突變後的結果。對於 SHOC2 蛋白而言,AlphaMissense 的預測結果與實際結果最為接近。

圖 10:不同模型對 SHOC2 中氨基酸突變致病性預測與 MAVE 結果的相關性
上述結果共同說明,AlphaMissense 的預測結果與 MAVE 相當,能夠對基因錯義突變的結果進行準確的預測。
最後,Deepmind 將這一模型和預測結果都開源公佈在了社區中,希望這種結論能夠為其他學科的研究提供幫助。
模型連結:
https://github.com/deepmind/alphamissense

基因突變:遙不可及又如影隨形
提到基因突變,我們很容易想到 X 光、核輻射、亞硝酸鹽等危險元素,或者是電影生化危機、綠巨人之中的橋段,覺得這些離我們過於遙遠。誠然,我們在生活中接觸到的輻射非常少,但基因突變還是發生在生活中的每時每刻,也切實地改變了我們的生活。
在生活中,我們不可避免地會接觸到輻射源,比如太陽光。太陽光中 6% 的輻射來源於紫外線,而紫外線就是致癌因素之一,因此長時間暴晒會增加皮膚癌的危險。
即使不接觸輻射源,DNA 在複製、轉錄、翻譯的時候也不可避免地犯一些錯誤,引起基因突變,只是這些突變可能是良性的,或是被免疫機制及時清除了。
但同時,基因突變也為我們的生活提供了便利,尤其是在農業生產中。農作物突變體能夠提高作物的產量,提升作物耐鹽鹼的能力,甚至幫助防治蟲害。對這些突變體進行繁育篩選後,這些優良的特性就能保留下來,提升糧食產量。

圖 11:不同品種的玉米突變體
然而,人體基因突變的可能性太多,我們目前了解到的不過滄海一粟。藉助 AlphaMissense,我們能夠對基因突變的結果進行相對可靠的預測,再加以反推,也許就能找到遺傳病、罕見病背後的機制,為疾病的防治提供新方法。
同時,AlphaMissense 還為其他領域的研究提供了素材。也許不久之後,我們就能看到 AlphaMissense 對其他物種基因突變的解讀,進而合理利用基因突變,讓基因工程為我們的生活帶來更多福祉。
參考連結:
[1]https://www.science.org/doi/10.1126/science.abj6987 [2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/