DeepMind 利用無監督學習開發 AlphaMissense，預測 7100 萬種基因突變

點選上方藍字，關注我們！

63726fdf5e3bf33318b5b6412a5a1b98fe0daf58

人類基因組共有 31.6 億個鹼基對，無時無刻不在經歷複製、轉錄和翻譯，也隨時有著出錯突變的風險。

錯義突變是基因突變中的一種常見形式，然而人類目前只觀察到了其中的一小部分，能夠解讀的更是只有 0.1%。

準確預測錯義突變的作用，對於罕見病、遺傳病的研究和防治有著重要作用。這次，DeepMind 又出手了。

作者 | 雪菜

編輯 | 三羊、鐵塔

人類基因組共有 31.6 億個鹼基對。這些鹼基對每天會經歷複製、轉錄、翻譯，最終表達成為蛋白質，調控人類日常生理活動。

在如此龐大的工作量下，即使是精細的人體也很難做到毫無差錯。稍有不慎，鹼基對就可能配位錯誤，導致基因突變，日積月累甚至引發癌症。

錯義突變 (Missense Mutation) 是一種常見的基因突變形式。由於 DNA 中鹼基突變，翻譯得到的氨基酸發生了變化，最終導致整個蛋白質功能被破壞。

圖 1：錯義突變示意圖

由於 DNA 中腺嘌呤核苷酸突變為鳥嘌呤核苷酸

翻譯得到的氨基酸由谷氨醯胺變為絲氨酸

目前人類觀察到了 400 多萬種錯義突變，但僅能將 2% 的錯義突變歸類為致病突變或是良性突變。

準確預測錯義突變的作用能夠加深人類對於罕見病的理解，並針對潛在的遺傳病進行預防和治療。雖然變異效應多重分析 (MAVEs) 可以對蛋白質的突變進行系統的分析，並準確預測其臨床效果，但這一方法需要大量的人力物力，難以對所有錯義突變可能進行全面的分析。

為此，DeepMind 通過 AlphaFold 分析了蛋白質的整體結構，並結合弱標籤學習和無監督學習開發了 AlphaMissense，對錯義突變的後果進行了系統的分析。AlphaMissense 利用 ClinVar 資料集進行了驗證，預測正確率達到 90%。

隨後，AlphaMissense 對人類可能出現的 7,100 萬種錯義突變進行了預測，其中 32% 可能為致病性突變，57% 可能為良性突變。這些結果將極大促進分子生物學、基因組學、臨床醫學等學科的發展。這一成果已發表於「Science」。

圖 2：AlphaMissense 對 7,100 萬種錯義突變的預測結果（上）及人類目前觀察到和確認的結果（下）

相關成果已發表於「Science」

論文連結：

https://www.science.org/doi/10.1126/science.adg7492

實驗過程

AlphaMissense

AlphaFold + 微調

將一串氨基酸序列輸入 AlphaMissense 後，它會對序列中任一氨基酸變化的致病性進行預測。AlphaMissense 的實現和 AlphaFold 非常相似，只在架構上做了細微的調整。

8352747663eb3470e4bcfb4da34a9e40bbe6af87

圖 3：AlphaMissense 的結構示意圖

AlphaMissense 的訓練集來源廣泛，但主要來自於人類和非人靈長類。其中，來源於人類的良性錯義突變有 1,248,533 個，致病錯義突變則從可能出現但尚未被觀察到的 65,314,044 個突變中抽取。

AlphaMissense 的訓練包括兩步。首先，同 AlphaFold 一樣，AlphaMissense 需要預測多序列對比 (Multiple Sequence Alignments) 中被隨機掩碼的氨基酸，進而預測單鏈蛋白質的結構，並進行蛋白質語言建模。

隨後，研究人員利用人類蛋白質對 AlphaMissense 進行微調 (fine-tuning)，並設定了模型的輸出目標，即錯義突變的致病性。

由於未被觀察到的錯義突變中存在相當數量的良性突變，但在訓練過程中都將其歸為了致病突變，因此 AlphaMissense 訓練集的噪音很大。為了提升訓練集的數量和質量，研究人員使用自蒸餾 (self-distillation) 的方式對資料進行了過濾。

臨床資料驗證

不同資料集中的表現

訓練完成後，利用標註後的臨床資料 (ClinVar 資料集)、罕見發育障礙患者中的新發突變 (de novo variants) 和 ProteinGym 中的 MAVE 結果對 AlphaMissense 進行驗證。

首先，研究人員對 AlphaMissense 在 ClinVar 資料集中的表現進行了評價。在對 18,924 個突變位點進行分析後，AlphaMissense 的 auROC 為 0.940，較之前最先進的進化模型 (EVE) 有所提升 (0.911)。

在對錯義突變進行臨床評價時，人們一般會關注特定疾病相關的基因。因此，分辨出這些基因中良性和致病的錯義突變尤為重要。研究人員利用 AlphaMissense 對 ClinVar 中的 612 個基因進行分析，其 auROC 為 0.950，優於 EVE 的 0.921。

最後，研究人員分析了 AlphaMissense 在解密發育障礙 (DDD, Deciphering Developmental Disorders) 資料集中的預測結果。AlphaMissense 的 auROC 為0.809，與 PrimateAI 的 0.797 相當。

da64e742397ed3805805dfb6bd19bbb8386d4a60

圖 4：AlphaMissense 和其他模型在不同資料集中性能對比

A：對 ClinVar 中突變位點的分析；

B：對 ClinVar 中基因的分析；

C：對 DDD 資料集的分析。

同時，AlphaMissense 對 Cancer Hotspots、ACMG (American College of Medical Genetics) 和其他 MAVE 資料的預測結果也較其他模型更為優異。上述結果說明，AlphaMissense 在多個資料集中表現優於現有模型。

總體預測性能

反映蛋白質突變趨勢

用臨床資料對 AlphaMissense 進行驗證之後，研究人員利用 AlphaMissense 對 2.16 億個氨基酸在人類常見的 19,233 個蛋白質中可能發生的突變進行了預測，最終得到了 7,100 萬種錯義突變的預測結果。

AlphaMissense 的致病性預測結果在 0-1 之間，越接近 1 說明致病可能性越高。由於絕大多數預測結果接近 0 和 1，因此 0.2 至 0.8 之間的資料可能不太準確。最終，他們將預測結果分為三類：可能致病、可能良性和無法確定。

為對 AlphaMissense 的預測性能進行整體評價，研究人員計算了所有蛋白質的單個氨基酸致病性。結果顯示，芳香族氨基酸和半胱氨酸的突變更容易引發疾病，與實際結果一致，因為這兩種氨基酸起到了維持蛋白質結構的作用。

a9cec1e3ff1e88de6b47194aa305f6eafc3e26e2

圖 5：AlphaMissense 的預測結果熱圖

色塊代表 2.16 億個氨基酸變化在蛋白質組中的平均致病性

將 AlphaMissense 的預測結果和 AlphaFold 預測的蛋白質結構視覺化之後，我們可以看到這些蛋白質的突變趨勢。比如，蛋白質結構紊亂的區域與良性突變的發生區域相對應，這與蛋白質組學的預測結果也是一致的。

60bbcdb2fc99c340eee089d8169c6351e77c9a54

圖 6：ACMG 和 MAVE 資料集中部分蛋白質的視覺化結果

左側為 AlphaMissense 預測的致病性，可能致病的錯義突變為紅色，可能良性的錯義突變為藍色，已被收錄於 ClinVar 資料集的突變以實心圓標註。右側為 AlphaFold 預測的蛋白質結構，不同顏色表示這一區域突變致病性，與 AlphaMissense 相對應。

預測準確率

與 MAVE 結果一致性

為調查 AlphaMissense 和 MAVE 結果之間的一致性，研究人員利用 AlphaMissense 對兩組 MAVE 資料進行了分析。與其他預測方法相比，AlphaMissense 與 MAVE 資料最為接近。

6d0fa9fe8625bdc10be7cbca14fd9fc639288777

圖 7：AlphaMissense 和其他模型與 MAVE 預測結果的斯皮爾曼相關係數

其中AlphaMissense 結果最好

隨後，他們又將 AlphaMissense 的預測資料和實驗驗證過的錯義突變致病性進行了對比。SHOC2 蛋白可以與 MRAS 和 PP1C 蛋白形成複合物，激活 Ras-MAPK 癌症通路。AlphaMissense 與 MAVE 對這一突變和 Ras 癌症細胞的相關性進行了預測，得到的斯皮爾曼相關係數為 0.47，優於其他模型(ESM1v: 0.41, ESM1b: 0.40, EVE: 0.32)。

26449706dcf155f68159ed5678b566294cf3a61b

圖 8：不同模型對 MAVE 資料集中錯義突變的預測結果

進一步的，研究人員探究了 AlphaMissense 對 SHOC2 蛋白不同區域氨基酸錯義突變致病性的預測結果。在 SHOC2 的前 80 個氨基酸中，MAVE 預測第 63-74 號氨基酸突變是致病的，因為這一區域會通過 RVxF 與 PP1C 蛋白結合。AlphaMissense 是唯一一個識別出這一重要區域的模型。

03d5683ade15e8f0175553d6f3bfca9f40f4800f

圖 9：AlphaMissense 對 SHOC2 蛋白的預測結果

A：不同模型對 SHOC2 蛋白前 200 氨基酸突變致病性的預測結果。自上而下分別為實際情況 (MAVE)、AlphaMissense 和 EVE；

B：SHOC2 蛋白（紅色和藍色）和 MRAS（黃色）、PP1C（金色）蛋白組成的複合體結構圖。

而且，AlphaMissense 能夠反映出不同種類氨基酸錯義突變後的結果。對於 SHOC2 蛋白而言，AlphaMissense 的預測結果與實際結果最為接近。

7fc16b7921e64054f5ba1042400fb33a275363ca

圖 10：不同模型對 SHOC2 中氨基酸突變致病性預測與 MAVE 結果的相關性

上述結果共同說明，AlphaMissense 的預測結果與 MAVE 相當，能夠對基因錯義突變的結果進行準確的預測。

最後，Deepmind 將這一模型和預測結果都開源公佈在了社區中，希望這種結論能夠為其他學科的研究提供幫助。

模型連結：

https://github.com/deepmind/alphamissense

基因突變：遙不可及又如影隨形

提到基因突變，我們很容易想到 X 光、核輻射、亞硝酸鹽等危險元素，或者是電影生化危機、綠巨人之中的橋段，覺得這些離我們過於遙遠。誠然，我們在生活中接觸到的輻射非常少，但基因突變還是發生在生活中的每時每刻，也切實地改變了我們的生活。

在生活中，我們不可避免地會接觸到輻射源，比如太陽光。太陽光中 6% 的輻射來源於紫外線，而紫外線就是致癌因素之一，因此長時間暴晒會增加皮膚癌的危險。

即使不接觸輻射源，DNA 在複製、轉錄、翻譯的時候也不可避免地犯一些錯誤，引起基因突變，只是這些突變可能是良性的，或是被免疫機制及時清除了。

但同時，基因突變也為我們的生活提供了便利，尤其是在農業生產中。農作物突變體能夠提高作物的產量，提升作物耐鹽鹼的能力，甚至幫助防治蟲害。對這些突變體進行繁育篩選後，這些優良的特性就能保留下來，提升糧食產量。

圖 11：不同品種的玉米突變體

然而，人體基因突變的可能性太多，我們目前了解到的不過滄海一粟。藉助 AlphaMissense，我們能夠對基因突變的結果進行相對可靠的預測，再加以反推，也許就能找到遺傳病、罕見病背後的機制，為疾病的防治提供新方法。

同時，AlphaMissense 還為其他領域的研究提供了素材。也許不久之後，我們就能看到 AlphaMissense 對其他物種基因突變的解讀，進而合理利用基因突變，讓基因工程為我們的生活帶來更多福祉。

參考連結：

[1]https://www.science.org/doi/10.1126/science.abj6987

[2]https://www.cshl.edu/discovery-of-new-stem-cell-pathway-indicates-route-to-much-higher-yields-in-maize-staple-crops/

DeepMind 利用無監督學習開發 AlphaMissense，預測 7100 萬種基因突變

DeepMind 利用無監督學習開發 AlphaMissense，預測 7100 萬種基因突變

You missed

核问题仍是美伊谈判死结，特朗普希望更多国家护航霍尔木兹

一个人跑通一家公司，上海模速空间里的AI新物种

33万进口商共可获1660亿美元，美国关税退款5月11日左右开始发放

【深度】大主播离职，东方甄选逃不出的困局