多年來,美國伊利諾伊大學(xué)香檳分校博士畢業(yè)生、Keiji.AI公司聯(lián)合創(chuàng)始人王子豐一直在研究將AI應(yīng)用于臨床試驗,并已開展多個相關(guān)項目,包括開發(fā)用于臨床試驗系統(tǒng)評價的輔助工具TrialMind[1]和LEADS[2],提升試驗招募效率的TrialGPT[3],支持生物醫(yī)學(xué)數(shù)據(jù)分析的智能平臺DSWizard[4,5],以及自動生成臨床試驗文檔的系統(tǒng)InformGen[6]。
圖|王子豐(來源:王子豐)
在推進這些研究的過程中,王子豐逐漸意識到,盡管制藥業(yè)內(nèi)對AI在臨床試驗中的應(yīng)用充滿期待,但仍面臨諸多關(guān)鍵挑戰(zhàn)。
首先,目前缺乏有效的評估手段,使得大模型難以在臨床試驗場景中實現(xiàn)可驗證、可落地的應(yīng)用。
其次,真正理解制藥行業(yè)實踐的專業(yè)人士與AI技術(shù)專家之間存在明顯的知識壁壘,跨領(lǐng)域協(xié)同不足,也限制了技術(shù)轉(zhuǎn)化的深度和廣度。
而在構(gòu)建垂直領(lǐng)域模型和Agent的過程中,人們又面臨著兩個根本性的問題:一是缺乏結(jié)構(gòu)清晰、適合AI訓(xùn)練的高質(zhì)量數(shù)據(jù)資源,二是缺乏貼近真實臨床試驗任務(wù)、能夠系統(tǒng)評估模型能力的基準(zhǔn)任務(wù)集。
業(yè)界其實有一些出售臨床試驗商業(yè)數(shù)據(jù)的公司比如Citeline,但是這些數(shù)據(jù)都非常昂貴,一般大型的制藥企業(yè)可能每年向他們支付數(shù)百萬美元以上來獲取這些信息。而公共數(shù)據(jù)比如ClinicalTrials.gov只包括了在美國注冊的試驗記錄,而很多的多個國家試驗記錄以及發(fā)表的試驗都需要被額外收集和標(biāo)準(zhǔn)化處理。
基于上述問題,王子豐等人啟動了本項研究,構(gòu)建了臨床試驗領(lǐng)域的大規(guī)模結(jié)構(gòu)化數(shù)據(jù)庫TrialPanorama[7],匯聚了試驗設(shè)計、干預(yù)手段、適應(yīng)癥、生物標(biāo)志物、結(jié)局指標(biāo)等核心要素,并對接權(quán)威醫(yī)學(xué)本體,確保數(shù)據(jù)的一致性與可擴展性。在此基礎(chǔ)上,研究團隊進一步設(shè)計了一套配套的評測任務(wù)集,涵蓋從文獻評價到試驗設(shè)計的多個關(guān)鍵環(huán)節(jié),以用于系統(tǒng)性地評估AI模型在臨床試驗相關(guān)任務(wù)中的能力。該工作不僅為模型的訓(xùn)練與測試提供了高質(zhì)量數(shù)據(jù)支撐,也為后續(xù)開發(fā)AIAgent提供數(shù)據(jù)源。
如前所述,本次研究的主要成果是構(gòu)建了一個覆蓋廣泛、結(jié)構(gòu)清晰的臨床試驗數(shù)據(jù)庫TrialPanorama,共收錄了來自全球15個來源的1,657,476條臨床試驗記錄以及匯總這些臨床試驗的超過9,000篇系統(tǒng)評價論文。該數(shù)據(jù)庫系統(tǒng)性地整理了臨床試驗設(shè)計與實施的關(guān)鍵要素,包括研究方案、干預(yù)方式、適應(yīng)癥、生物標(biāo)志物和結(jié)局指標(biāo)等,并與標(biāo)準(zhǔn)醫(yī)學(xué)本體(如DrugBank和MedDRA)進行了對齊,具備良好的規(guī)范性與可擴展性。
在此基礎(chǔ)上,研究團隊還首次設(shè)計并發(fā)布了一套面向臨床試驗任務(wù)的大模型評測基準(zhǔn),涵蓋系統(tǒng)評價和試驗設(shè)計累計兩個類別和八項任務(wù),這八項任務(wù)包括研究檢索、研究篩選、證據(jù)總結(jié)、試驗組設(shè)計、入排標(biāo)準(zhǔn)制定、終點選擇、樣本量估計及完成情況評估。通過在五個當(dāng)前最先進的大模型上開展實驗,研究團隊發(fā)現(xiàn)通用模型雖然具備一定的零樣本能力,但其表現(xiàn)尚不足以勝任高風(fēng)險、要求嚴(yán)謹(jǐn)?shù)呐R床試驗場景。
而本次工作不僅提供了一個高質(zhì)量的數(shù)據(jù)基礎(chǔ),還構(gòu)建了可用于訓(xùn)練、評估和推動臨床試驗AI研究的系統(tǒng)平臺,有望為開發(fā)更具專業(yè)性和實用性的智能系統(tǒng)奠定堅實基礎(chǔ)。
(來源:https://arxiv.org/pdf/2505.16097)
本次研究成果具有廣泛的應(yīng)用前景,預(yù)計能在以下幾個方面發(fā)揮重要作用:
首先,TrialPanorama數(shù)據(jù)庫可以作為醫(yī)藥研發(fā)和醫(yī)學(xué)事務(wù)中基于AI的知識發(fā)現(xiàn)平臺。例如,人們可以借助該數(shù)據(jù)庫檢索某一適應(yīng)癥下既往的治療手段及其結(jié)果、正在研發(fā)中的同類藥物等關(guān)鍵信息,從而輔助制定更科學(xué)、更具前瞻性的臨床試驗方案。
其次,該數(shù)據(jù)庫為訓(xùn)練大模型提供了數(shù)據(jù)基礎(chǔ)。由于其結(jié)構(gòu)清晰、覆蓋全面,非常適合用于生成高質(zhì)量的訓(xùn)練樣本,推動更貼近臨床場景的專用語言模型的開發(fā)。同時,研究團隊發(fā)布的benchmark也為評估現(xiàn)有及未來的大模型在臨床試驗任務(wù)中的表現(xiàn)提供了統(tǒng)一、專業(yè)的測試框架。
最后,對于當(dāng)前越來越多專注于臨床試驗領(lǐng)域的AIAgent系統(tǒng)來說,TrialPanorama提供了結(jié)構(gòu)化、標(biāo)準(zhǔn)化的數(shù)據(jù)資源,并可以通過集成模型上下文協(xié)議(MCP,ModelContextProtocol)服務(wù)器實現(xiàn)快速接入與部署,從而助力構(gòu)建高可靠性、高專業(yè)度的垂類AIAgent,為臨床研發(fā)帶來賦能。
(來源:https://arxiv.org/pdf/2505.16097)
多年前,王子豐就開始研究AI,同時做一些AIforhealthcare。一開始進入這個方向時,他覺得有很多的“l(fā)ow-hangingfruit”,他認(rèn)為只要把大模型用上、Agent搭起來,然后就可以開展很多臨床試驗的任務(wù)。但是,當(dāng)他真正在項目中和醫(yī)生、藥廠的研發(fā)人員、銷售等各類角色深度接觸之后,王子豐才意識到很多現(xiàn)實中的核心需求,其實并沒有被很好地抽象成AI問題然后被做AI的人們注意到。
這中間有很多令人反思的時刻。比如他經(jīng)??吹揭恍┖芸犰诺拇竽P蚫emo,但是藥廠的合作方告訴他,他們可能也會去嘗試一下,然而很多時候?qū)嶋H效果往往不能達到可用的程度,或者說由于公司的合規(guī)性要求這些工具還不能夠嵌入他們的工作流。
而作為一名AI研究者,王子豐認(rèn)為得學(xué)會放下自嗨的技術(shù)視角,真正去傾聽用戶的痛點,理解他們的工作流程、合規(guī)限制和實際目標(biāo),然后再回過頭來重新定義問題,想辦法用AI去解決。
同時,這個“對話”和“重構(gòu)”的過程,是王子豐在本次研究之中認(rèn)為最有價值、也是最難忘的部分。這不僅僅凸顯了當(dāng)前的一些技術(shù)挑戰(zhàn),更是對于跨學(xué)科協(xié)作、產(chǎn)品思維、溝通能力的一種錘煉。
至于創(chuàng)業(yè),它對王子豐來說也是一種自然的延伸。王子豐覺得做應(yīng)用研究的人去創(chuàng)業(yè)其實非常合適。一方面你能從一線看到很多真實又有挑戰(zhàn)的問題,另一方面你也有機會把研究成果真正落地,幫助到藥廠、醫(yī)生甚至患者。這種“從問題中來,到應(yīng)用中去”的過程,非常充實,也讓王子豐找到了科研之外的成就感。
正因此,王子豐聯(lián)合創(chuàng)辦了Keiji.AI,在該公司他主要負(fù)責(zé)AI算法和應(yīng)用的開發(fā)。該公司由王子豐的博士導(dǎo)師JimengSun教授領(lǐng)銜,團隊成員主要來自美國伊利諾伊大學(xué)香檳分校的研究團隊。公司致力于將研究團隊多年來在AI醫(yī)療和臨床試驗領(lǐng)域的研究成果轉(zhuǎn)化。
基于這一背景,研究團隊開發(fā)了TrialMind平臺,集成了多種AIAgent和工作流程,并接入研究團隊自建的TrialPanorama數(shù)據(jù)庫,支持臨床試驗的方案設(shè)計、隊列抽取、數(shù)據(jù)分析、患者招募等關(guān)鍵環(huán)節(jié)的智能化加速。
目前,研究團隊的客戶和合作伙伴包括多家制藥公司(如Takeda、Abbvie、Regeneron)、真實世界數(shù)據(jù)公司(如Medidata、GuardantHealth),以及大型CRO(如IQVIA)。公司正處于快速發(fā)展階段,正在積極推進融資并擴大團隊。而基于上述工作,他們正在基于本次數(shù)據(jù)庫開發(fā)臨床試驗的垂類AIAgent和模型。
參考資料:
1.https://arxiv.org/abs/2406.17755
2.https://arxiv.org/abs/2501.16255
3.https://www.nature.com/articles/s41467-024-53081-z
4.https://arxiv.org/abs/2410.21591
5.https://arxiv.org/abs/2505.16100
6.https://arxiv.org/abs/2504.00934
7.https://arxiv.org/abs/2505.16097
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。