

拉斯克獎(Lasker Awards)是醫學界僅次於諾貝爾獎的一項大獎,旨在表彰那些在人類疾病的理解、診斷、治療或預防方面取得重大進展的科學家。拉斯克獎也常常被稱作「諾貝爾獎風向標」。

2023年拉斯克基礎醫學研究獎獲得者。(圖/Lasker Foundation)
2023年拉斯克獎中的基礎醫學研究獎授予了DeepMind的兩位科學家,Demis Hassabis和John Jumper,以表彰他們發明了人工智慧
(AI)系統AlphaFold,解決了從氨基酸的一維序列預測蛋白質三維結構的挑戰。由他們帶領的AlphaFold團隊將結構預測的準確性和速度都提升到了前所未有的水平,迅速推進了我們對基本生物過程的理解,以及促進藥物設計的發展。
一個令人生畏的難題
人體的蛋白質在細胞內扮演著諸多重要的角色。它們的功能與它們從線性氨基酸鏈摺疊成三維結構後所形成的形態密切相關。因此,理解蛋白質的結構可以闡明它們的功能,進而揭開眾多生物學之謎。
60多年前,科學家就已經證明,未展開的蛋白質可以在沒有幫助的情況下恢復其形狀,因此,氨基酸序列編碼了蛋白質的最終組織。當一個新的氨基酸鏈自我組裝時,它不可能嘗試每一種可能性,因為這即使是對一個中等大小的蛋白質來說,也需要耗費比宇宙的年齡還要長的時間。然而在細胞內部,這種摺疊發生在毫秒之間。
對於科學家來說,他們希望至少能在理論上,理解是什麼引導了氨基酸鍊形成正確結構。為此科學家嘗試了多種方法,制定了許多策略。
1994年,對蛋白質摺疊感興趣的科學家組織了學術論壇CASP(蛋白質結構預測的關鍵評估),目的是讓相關領域的研究人員能更好地分享和交流研究進展。每隔兩年,參與CASP比賽的選手就會收到已確定結構、但還沒有對外公佈的蛋白質氨基酸序列,他們要做的就是利用他們所開發的系統,對蛋白質的結構進行預測,然後將預測結果與實驗測得的結果進行比較。最終根據預測的準確性進行打分。
幾十年來,結果在緩慢累積,儘管有時停滯不前,甚至倒退。其中一種方法是由David Baker開發的,他使用蛋白質資料庫(PDB,一種可以在全球共享的資料庫)中的短片段資料,預測了蛋白質內部的局部結構。不過,這仍是一種非常耗時的策略,並且對絕大多數蛋白質都不適用。
與此同時,通過實驗解碼的蛋白質結構也在積累。2014年,在PDB中列出的數量已經超過了10萬個,但這仍然是當時數千萬個可用蛋白質序列的一小部分。
人工智慧的加入
在2018年的第13屆CASP競賽上,來自DeepMind的科學家正式帶著機器學習參與到了這場比賽中。與依賴於預先設想的邏輯的傳統AI不同,Hassabis和Jumper團隊的系統是以機器學習作為其蛋白質結構預測的核心組成部分,能自發地從資料中發現模式。最終,他們贏得了CASP13的第一名,而且他們的準確性遠遠領先於第二名,同時也比CASP12的最佳成績提高了近50%。
儘管取得了這樣的成功,但DeepMind的研究人員並不滿足,他們想要的是一種實驗學家可以真正使用的工具,這需要誤差小於1埃(原子大小)。
於是,AlphaFold團隊重新開始,他們在系統中加入了幾何學和遺傳學的概念,並整合了關於蛋白質的所有已有資訊,設計出了能夠從有限的實驗資料中最大限度地提取資訊的方法,並發展出了有著更高效的學習策略的AlphaFold2。
新的系統可以在運行過程中的任意步驟調整計算。換句話說,在整個運行過程中,系統可以通過重新修改自己的暫定解,來迭代其發展中的結構模型。
他們還拋棄了許多指導性的傳統演算法的原則。例如,他們忽略了線性上的接近度,而傾向於關注三維關係,因為相隔數百個亞基的氨基酸,也可以在摺疊的蛋白質中聚集在一起。正是把眾多的巧妙想法結合在一起,才最終實現了突破性的表現。
AlphaFold2
AlphaFold2會從一個序列開始,然後在資料庫中搜尋與之相似的序列。它將這些演化家族的成員以氨基酸鏈的形式排列出來。它還創建了一個資訊矩陣,其中包含的是蛋白質中的每一對可能的氨基酸的線性距離以及相對方位的資訊。
這兩個資料集——多序列排比(MSA)和成對錶徵會在AlphaFold2的第一階段(被稱為Evoformer)中並行處理。如果相關蛋白質的結構已經確定,系統也可以使用它們。在早期,EvoFormer發展出一個粗略的結構假設,並對其進行檢驗和完善。
AlphaFold2包含一個特別強大的創新,它允許反映演化關係的MSA與反映空間關係的成對錶徵進行「交流」。隨著資訊的流動,這兩條路徑都可以互相利用另一條路徑獲得的資訊來提高自己的工作效率。
例如,如果MSA識別出兩個在演化過程中沒有發生變化或共變的氨基酸,那麼它會提醒成對錶徵——這些氨基酸可能發生了物理互動。反之,如果成對錶徵發現了可能相鄰的氨基酸,它可以告訴MSA, MSA可以檢查相關蛋白質中的類似氨基酸的演化方式。通過這種方式,兩條路徑之間的交叉就能幫助各自改進其假設。
在Evoformer儘可能多地解密結構部分後,它將它們傳遞給結構模組,結構模組會將它們組裝成一個連貫的三維蛋白質。當結構模組在擺弄這些碎片時,它們繼續變形。
最初,它給每個氨基酸一個位置和一個方向,創建出一個無意義的、聚集在一起的物體。接著,它一步一步地旋轉並移動氨基酸,但在這一步它仍然會忽略哪些是線性相鄰的。最終,蛋白質的主幹開始復現,系統會開始放置能表徵每個氨基酸的化學側鏈。
AlphaFold2不僅可以預測整個3D結構,還可以預測每個部分的可靠性。
嚴格的訓練
為了訓練系統,Hassabis和Jumper的團隊使用了PDB中通過實驗確定的那些結構。AlphaFold2反覆將其結果與真實結果進行比較,並逐漸將其結果推向現實。通過對訓練資料集中的每個結構重複這一過程,AlphaFold2獲悉了蛋白質結構的原理。
研究人員用一些技巧來推動神經網路更好地學習。例如,他們將氨基酸隱藏在MSA中,並要求它填補空白。通過這種方式,系統就可以掌握演化關係的規則。它們還遞迴地為任何給定步驟提供輸出,這為AlphaFold2提供了許多重新考慮和改進的機會。
AlphaFold2還會計算其預測結果的可信程度,這些評分可以使研究人員從可用資料中擠出更多資訊。在他們輸入了大約14萬個PDB序列後,他們運行了另一組結構未知的序列。從預測中,他們挑選了最可靠的35萬個序列對,並在這些資料上訓練系統,就好像它們已經被實驗驗證過一樣。
蛋白質科學
在2020年的CASP14上,AlphaFold2再次超越競爭對手,它的預測結果已經精確到原子精度,而且它能在幾分鐘的時間內,對即使缺乏模板的蛋白質也生成極好的結果。這是第一個可以在沒有類似結構的情況下構建高解析度預測的方法。
2021年7月,Hassabis和Jumper發表了他們的方法以及對幾乎所有人類蛋白質的結構預測。在短短兩年的時間裡,這些結果的影響力已經超過了自1900年以來發表在《自然》雜誌上的幾乎全部的10萬篇研究論文,排名第50位,在頂級期刊上被引用7000多次。
Hassabis和Jumper與歐洲分子生物學實驗室的歐洲生物資訊學研究所合作,將他們的程序和資料庫與整個科學界共享。已經有超過百萬的研究人員使用了這些資源。此後,DeepMind團隊將其目錄擴展到幾乎所有已知的基因組測序生物體中的蛋白質。
這項技術已經在無數的生物醫學領域和其他領域產生巨大影響。科學家使用AlphaFold分析了一種細菌注射器,該注射器將分子射入昆蟲細胞;通過運用AlphaFold2所揭示的資訊,研究人員重新設計了靶向人類細胞的蛋白質,為藥物輸送和基因治療開闢了一條新的途徑;學術實驗室和公司正在利用AlphaFold2來開發疫苗、設計藥物、製造分解汙染物的酶等等……它有著無限光明的前景。
通過發揮他們的想象力和才能,Hassabis、Jumper和他們的團隊完成了一個困擾了科學家半個世紀的難題。AlphaFold讓世人瞥見了的足以掀起一場生命科學研究革命的圖像,這些圖像正是由AlphaFold渲染的數以億計的蛋白質3D預測形狀。可以說,AlphaFold已經將基因庫擴展到了地球上幾乎所有進行過基因組測序的生物,它覆蓋的是整個蛋白質「宇宙」。這一勝利開啟了研究和操縱蛋白質的新時代。
現在,我們可以像在搜尋引擎中搜尋關鍵詞一樣,輕鬆地查找蛋白質的3D結構。而隨著眾多領域的工作者夢想著挖掘其潛力的新方法,它的影響和範圍有望進一步爆發。
拉斯克獎的其他獎項
除了基礎醫學研究獎,拉斯克獎還有另外兩個重要獎項——臨床醫學研究獎和特殊成就獎。James Fujimoto、David Huang、Eric Swanson因發明了革新眼科研究、可快速檢測出損害視力的視網膜疾病的光學相干斷層掃描技術,而分享了2023年的臨床醫學研究獎。2023年的特殊成就獎授予了Piet Borst,以表彰他50年來卓越的科學發現,他的工作揭示了寄生蟲如何逃避人類免疫系統,併為癌症耐藥性的分子泵提供了見解。他揭示了一種意想不到的代謝途徑,揭示了一種新的DNA構建塊,並確定了一種遺傳性疾病的生化基礎。
#創作團隊:
編譯:糖獸
排版:雯雯
#參考來源:
#圖片來源:
封面圖&首圖:AlphaFold / DeepMind