·要讓AI在這個(gè)問題上有“用武之地”,還需要科學(xué)家在數(shù)據(jù)、算法等方面做大量的調(diào)整和創(chuàng)新工作。
生命是宇宙中最精妙復(fù)雜的系統(tǒng)。從一個(gè)細(xì)胞分裂增殖到37萬億細(xì)胞協(xié)同構(gòu)建成一個(gè)完整的人體,其背后蘊(yùn)藏的信息與規(guī)律浩如煙海。面對(duì)指數(shù)級(jí)增長的生物大數(shù)據(jù)和高度動(dòng)態(tài)與非線性的生命過程,人工智能(AI)技術(shù)有望幫助科學(xué)家探尋其中的規(guī)律。
7月28日,在上海舉行的世界人工智能大會(huì)(WAIC)“AI賦能生命科學(xué)論壇”上,來自中國科學(xué)院等機(jī)構(gòu)的多名頂尖學(xué)者齊聚一堂,共同探討了如何利用人工智能(AI)這一強(qiáng)大引擎,將離散、高維的生物數(shù)據(jù)轉(zhuǎn)化為可理解、可預(yù)測(cè)、甚至可調(diào)控的生命模型。
用AI“萬能函數(shù)”繪制生命地圖
對(duì)自然世界進(jìn)行數(shù)理建模往往要求科學(xué)家首先理解系統(tǒng)背后的物理或化學(xué)原理,再用微分方程等工具進(jìn)行描述。以神經(jīng)網(wǎng)絡(luò)算法為基礎(chǔ)的AI模型則提供了另一種表征自然的方式:它不預(yù)設(shè)具體的規(guī)律,而是通過學(xué)習(xí)海量數(shù)據(jù),自動(dòng)發(fā)現(xiàn)其中隱藏的高維、非線性關(guān)聯(lián)。中國科學(xué)院分子細(xì)胞科學(xué)卓越創(chuàng)新中心研究員、上海交通大學(xué)講席教授陳洛南將其形容為一個(gè)“萬能函數(shù)”。
生命科學(xué)的一個(gè)首要問題是構(gòu)建靜態(tài)表征,即為復(fù)雜的生命系統(tǒng)在特定時(shí)刻拍攝一張超高分辨率的“快照”,揭示基因如何調(diào)控、蛋白質(zhì)如何相互作用、細(xì)胞如何互動(dòng)等等過程。要讓AI在這個(gè)問題上有“用武之地”,還需要科學(xué)家在數(shù)據(jù)、算法等方面做大量的調(diào)整和創(chuàng)新工作。
“所有的AIforlifescience(AI賦能生命科學(xué)),基石就是大數(shù)據(jù)?!敝袊茖W(xué)院院士李勁松說。大數(shù)據(jù)并不僅僅意味著“多”,統(tǒng)一標(biāo)準(zhǔn)、高質(zhì)量的數(shù)據(jù)才是AI模型能夠“洞察真相”的前提。
生命科學(xué)的核心遵循著一個(gè)“中心法則”:DNA儲(chǔ)存遺傳藍(lán)圖,通過轉(zhuǎn)錄形成信使RNA,再由RNA指導(dǎo)蛋白質(zhì)的合成。蛋白質(zhì)作為生命活動(dòng)最主要的功能執(zhí)行者,其種類、數(shù)量、位置和相互作用,決定了細(xì)胞的命運(yùn)乃至整個(gè)機(jī)體的健康與疾病。李勁松院士團(tuán)隊(duì)提出的“基因組標(biāo)簽計(jì)劃”(GTP),通過“類精子干細(xì)胞”技術(shù),為小鼠所有2萬多個(gè)編碼蛋白質(zhì)的基因逐一打上“標(biāo)簽”,用一個(gè)統(tǒng)一的框架來追蹤動(dòng)物實(shí)驗(yàn)中蛋白質(zhì)發(fā)生的變化。
“未來所有這些蛋白質(zhì)的研究,就可以用一個(gè)抗體的標(biāo)準(zhǔn)化研究體系來搞定,”李勁松將其比喻為生命科學(xué)研究的“北斗導(dǎo)航系統(tǒng)”。在這個(gè)系統(tǒng)中,每一個(gè)蛋白質(zhì)都被精準(zhǔn)“定位”,為后續(xù)所有AI分析提供了前所未有的標(biāo)準(zhǔn)化高質(zhì)量數(shù)據(jù)基礎(chǔ)。
有了標(biāo)準(zhǔn)化的數(shù)據(jù),AI便能大顯身手,繪制出更精細(xì)的“地圖”。中國科學(xué)院動(dòng)物研究所的李鑫研究員展示了如何構(gòu)建“AI虛擬細(xì)胞”。他們將海量單細(xì)胞數(shù)據(jù)“喂”給AI,讓模型學(xué)習(xí)細(xì)胞的“語言”?!拔覀儼衙總€(gè)細(xì)胞的基因表達(dá)當(dāng)成一篇文章,通過自回歸的遮蔽訓(xùn)練去完成建模,”李鑫解釋道。這好比讓AI閱讀了數(shù)百萬篇描述細(xì)胞狀態(tài)的“文章”后,學(xué)會(huì)了精準(zhǔn)表征每一個(gè)細(xì)胞的狀態(tài)。
AI能從人類難以理解的信息中“看”出規(guī)律。西安交通大學(xué)教授葉凱提出一種AI數(shù)據(jù)分析策略,將一維的基因組序列信息“升維”成二維的圖像,使得原本適用于圖像識(shí)別的強(qiáng)大AI算法(如卷積神經(jīng)網(wǎng)絡(luò))可以直接用于分析基因組,從而在復(fù)雜的基因組結(jié)構(gòu)變異檢測(cè)中,捕捉到傳統(tǒng)方法難以發(fā)現(xiàn)的模式。
由靜到動(dòng)
生命并非靜止的圖景,而是一部時(shí)刻演進(jìn)的電影。如何從一張張“快照”中,解讀出生命過程的動(dòng)態(tài)規(guī)律,是AI賦能生命科學(xué)的另一個(gè)突破點(diǎn)。然而,AI模型雖然“萬能”,雖然能輸出正確的結(jié)果,但其內(nèi)部復(fù)雜的參數(shù)也使其成為難以解讀的“黑箱”。
要通過AI模型理解生命,就需要將它從“黑箱子變成一個(gè)白箱子”。為此,陳洛南團(tuán)隊(duì)提出了“時(shí)空信息轉(zhuǎn)換”(STI)理論。該理論從數(shù)學(xué)上證明,一個(gè)高維度的空間狀態(tài)(靜態(tài)快照)可以在特定條件下映射為一個(gè)低維度的時(shí)間序列(動(dòng)態(tài)電影)。這意味著,AI無需看到整個(gè)過程,僅通過分析高質(zhì)量的靜態(tài)數(shù)據(jù),就有可能推演出其背后的動(dòng)態(tài)演化規(guī)律。
不同于DNA,目前RNA的結(jié)構(gòu)跟功能的真實(shí)測(cè)量數(shù)據(jù)還比較缺乏。深勢(shì)科技研發(fā)負(fù)責(zé)人、北京科學(xué)智能研究院研究員溫翰介紹了在相關(guān)理論的基礎(chǔ)上構(gòu)建的通用RNA預(yù)訓(xùn)練模型,通過AI模型加入“先驗(yàn)”知識(shí)結(jié)構(gòu)和算法創(chuàng)新,不僅提高了在少量訓(xùn)練數(shù)據(jù)基礎(chǔ)上預(yù)測(cè)RNA結(jié)構(gòu)的準(zhǔn)確性,更能模擬其在細(xì)胞內(nèi)的動(dòng)態(tài)行為,如調(diào)控翻譯效率和穩(wěn)定性。
中國科學(xué)技術(shù)大學(xué)教授劉海燕也指出,蛋白質(zhì)的功能源于其動(dòng)態(tài)變化。AlphaFold解決了蛋白質(zhì)的靜態(tài)“折疊”問題,但要設(shè)計(jì)出真正有功能的“分子機(jī)器”,就必須理解其動(dòng)態(tài)過程。他的團(tuán)隊(duì)正致力于通過AI模型,預(yù)測(cè)蛋白質(zhì)的動(dòng)態(tài)學(xué)特性,甚至設(shè)計(jì)出能在不同狀態(tài)間切換的復(fù)雜功能蛋白。
導(dǎo)航生命,干預(yù)疾病
如果AI能夠理解并預(yù)測(cè)生命的“動(dòng)態(tài)電影”,那么終極目標(biāo)便是成為一名“導(dǎo)演”,對(duì)生命過程進(jìn)行智能導(dǎo)航與干預(yù)。
陳洛南認(rèn)為,疾病的發(fā)生并非一蹴而就,而是從正常狀態(tài),經(jīng)過一個(gè)難以察覺的“臨界態(tài)”,最終才滑向不可逆的疾病狀態(tài)。他的團(tuán)隊(duì)開發(fā)了能夠根據(jù)患者健康數(shù)據(jù)識(shí)別出這個(gè)“臨界點(diǎn)”的AI模型,實(shí)現(xiàn)“治未病”的精準(zhǔn)導(dǎo)航。
浙江省腫瘤醫(yī)院的程向東分享了其團(tuán)隊(duì)利用AI進(jìn)行胃癌早篩的成果。他們訓(xùn)練AI模型通過解讀腹部CT平掃圖像來發(fā)現(xiàn)早期胃癌。他們的模型能將需要做胃鏡檢查的高危人群從25%濃縮到6.2%,極大地提升了早期診斷的效率。
AI的“導(dǎo)航”能力不僅體現(xiàn)在“避開懸崖”,更體現(xiàn)在“開辟新路”。中國科學(xué)院微生物研究所研究員王軍介紹了利用AI語言模型在浩瀚的微生物基因組中挖掘具有特定功能的“功能多肽”的研究成果。他的團(tuán)隊(duì)甚至能“無中生有”,設(shè)計(jì)出自然界不存在、但能讓工業(yè)菌株生長速度提升30%的全新多肽。這如同為生命系統(tǒng)編寫了新的“程序代碼”,主動(dòng)引導(dǎo)其走向我們期望的方向。
多名學(xué)者提到,AI不僅正在加速知識(shí)的發(fā)現(xiàn),更在創(chuàng)造全新的研究范式,但它在生命科學(xué)中的應(yīng)用仍面對(duì)多重挑戰(zhàn)。首先是數(shù)據(jù)鴻溝,李勁松指出,高質(zhì)量、標(biāo)準(zhǔn)化的數(shù)據(jù)仍是稀缺資源。其次是可解釋性瓶頸,AI的“黑箱”本質(zhì)意味著學(xué)者仍需關(guān)注科學(xué)研究的可解釋性。最后是從虛擬到現(xiàn)實(shí)的鴻溝。劉海燕指出,AI設(shè)計(jì)的分子或細(xì)胞能否在真實(shí)世界中穩(wěn)定存在并發(fā)揮作用,仍需大量的實(shí)驗(yàn)驗(yàn)證。
呆萌實(shí)習(xí)生邂逅腹黑總裁,網(wǎng)游里大神撒網(wǎng)來罩妻
殺了。夭夭看向那說話的人,就見自己腦門上蹦出血來。月下冥渠……仙族的族長……【系統(tǒng)公告】霸絕天下于清修谷成功劫持桃之夭夭紫色鏢車,獲得大量財(cái)寶!夭夭心里滴著血,欺負(fù)弱小沒人性……【世界】再看把你吃掉:仙族的那伙人又想使詐!【世界】囧囧有神:大家攔住戰(zhàn)神,不要讓他去清修谷,都攔在路口!【場(chǎng)景】茉莉花茶燉百合: 五本網(wǎng)絡(luò)游戲文,主宰公會(huì)之戰(zhàn),單刷野圖boss,霸絕天下無人能敵第一本《網(wǎng)游之無雙圣劍》作者:莫易云精彩片段:幽暗洞穴,位于清風(fēng)山腳下,是一個(gè)深不見底的大坑,出產(chǎn)各種低級(jí)礦物-。剛才鐵匠給他的鋤頭就是轉(zhuǎn)職道具,劉羽現(xiàn)在已經(jīng)是一名光榮的礦工了,完全可以采集這些低級(jí)礦物——-。除了自己,應(yīng)該還沒有人轉(zhuǎn)職礦工還有呢?5本游戲類小說:欲望和貪婪是衍生罪惡的溫床