人類歷史始于書寫。銘文是最早的書寫形式之一,提供了關于古代文明思想、語言和歷史的直接洞見。
然而,現(xiàn)有的數(shù)字化方法局限于文字層面的匹配,難以勝任古代文獻中所需的復雜推理與語境理解任務。
如今,GoogleDeepMind、諾丁漢大學團隊及其合作者在這一領域取得了重大突破。他們推出的一款名為Aeneas的多模態(tài)生成式神經(jīng)網(wǎng)絡,能夠協(xié)助對公元前7世紀至公元8世紀的拉丁銘文進行預測、斷代、定位與解讀。
相關研究論文以“
Contextualizingancienttextswithgenerativeneuralnetworks”為題,已發(fā)表在權(quán)威期刊Nature上。
論文鏈接:
https://www.nature.com/articles/s41586-025-09292-5
研究團隊表示,大多歷史學者認為,Aeneas能夠無縫融入現(xiàn)有研究流程,成為推動歷史研究范式革新的有力輔助工具。
來自??巳卮髮W的CharlotteTupman在評論文章中指出,這類工具具有巨大的潛力,其應用不局限于古代史研究,還能夠擴展到更晚時期的銘文,乃至其他語言。
Aeneas:AI穿越回羅馬帝國
銘文是探索古代世界的重要的資料,每年約有1500條拉丁銘文被新發(fā)現(xiàn),記錄著從皇帝法令到奴隸墓志銘的多樣信息,展現(xiàn)了這個橫跨2000年與500萬平方公里帝國的文化與語言生活。
然而,解讀這些珍貴的銘文并非易事,研究者往往面臨諸多挑戰(zhàn)。隨著時間的推移,銘文中的字母、詞語乃至整段內(nèi)容可能已經(jīng)遺失,而這些缺失部分的長度與內(nèi)容往往難以預測,使得還原工作更加復雜艱難。
文本修復、地理歸屬與年代判斷等任務,都依賴于專家學者將銘文置于更廣闊的語言與歷史背景中加以理解。這一過程既耗時又需要高度專業(yè)的知識,學者必須將目標銘文與數(shù)百條潛在的平行銘文進行對比。研究者通常會專注于特定的地域和年代,但這也限制了他們在大規(guī)模識別銘文與歷史聯(lián)系方面的能力。
為解決這一問題,研究團隊提出了Aeneas——一個多模態(tài)模型,這是一種AI工具,在分析和預測銘文時,它不僅能評估銘文物體的視覺特征,還能分析文本本身。
圖|通過Aeneas架構(gòu)對文本轉(zhuǎn)錄進行處理。
Aeneas集成了一個上下文關聯(lián)機制,能夠為歷史學家提供具有歷史依據(jù)的文本和上下文銘文平行例證列表,以支持研究工作。為了捕捉在物質(zhì)維度上更廣泛的信息,Aeneas將圖像和轉(zhuǎn)錄文本共同輸入進行整合,是首個能夠生成任意長度古代文本修復結(jié)果的模型。
Aeneas的輸入是銘文的圖像及其文本轉(zhuǎn)錄。其高效的架構(gòu)完全基于字符運作,避免了先前方法中實現(xiàn)的基于單詞級別的表示。至于銘文的語境化過程,Aeneas會從其訓練語料庫(LED)中檢索出與輸入文本最相關的銘文平行例證列表。這一過程依賴于歷史豐富的嵌入式數(shù)據(jù),用以捕捉文本中的歷史與語言模式,從而使模型能夠基于語義和語境進行比較。
Aeneas在另一個方面超越了先前的工作,該工具可為未知長度(而非指定長度)的缺失文本提供修復建議。這一能力對于研究嚴重受損的銘文尤為重要。
圖|缺失拉丁文文本的預測。Aeneas能夠預測受損銘文中丟失的文本(紅色文本)。該工具無需了解缺失部分的長度即可進行預測,例如圖中這個軍事文書的案例。
研究團隊構(gòu)建了一個覆蓋廣泛的拉丁銘文學數(shù)據(jù)集來訓練Aeneas模型,包括EDR、EDH和EDCS_ETL。他們開發(fā)了一套復雜的處理流程來標準化元數(shù)據(jù),利用唯一的Trismegistos標識符,消除歧義并處理文本,使其成為機器可處理的格式。并盡可能從這些數(shù)據(jù)集中獲取銘文的圖像。
Aeneas實際研究中表現(xiàn)如何?
為測試Aeneas在實際歷史研究中的應用效果,團隊組織了一項大規(guī)模的人機協(xié)作實驗“古代歷史學家與AI”。研究邀請了23名具備銘文學專業(yè)知識的參與者,涵蓋從碩士生到教授的不同級別,他們在設定的時間限制內(nèi),參與了一項模擬現(xiàn)實研究流程的實驗,與Aeneas展開互動。
歷史學者在90%的案例中認為Aeneas所檢索的平行文本是有價值的研究起點,使他們在關鍵任務中的信心提高了44%。在人機協(xié)同下,文本修復與地理歸屬任務的表現(xiàn)優(yōu)于單獨由人類或人工智能完成的結(jié)果。在斷代任務中,Aeneas達到了與真實年代范圍平均相差13年的精度。
他們將Aeneas與之前的AI模型進行了全面比較,Aeneas在所有評測指標上均超越Ithaca與傳統(tǒng)方法,它能夠處理Ithaca無法應對的“未知長度缺損”問題。在地理歸屬任務中,Aeneas充分發(fā)揮了多模態(tài)架構(gòu)的優(yōu)勢,其表現(xiàn)優(yōu)于僅使用文本的模型。在年代歸屬任務中,Aeneas對測試銘文的預測結(jié)果表現(xiàn)出驚人的準確性:平均誤差僅13年,中位誤差為0年,與歷史學家提供的真實范圍一致。
Aeneas向我們展示了人工智能在推進歷史研究方面的變革潛力,未來有多個方向值得進一步探索。
其中一個關鍵方向是將Aeneas的能力整合到大規(guī)模對話模型中。從而實現(xiàn)更自然、交互性更強的研究流程,使歷史學家能夠向系統(tǒng)提問、深入探討模型的回答,并獲得更清晰的解釋。
如何應對歷史數(shù)據(jù)中固有的不確定性,特別是在年代歸屬方面,仍是一個重要挑戰(zhàn)。未來研究可著重開發(fā)更優(yōu)方法,來表示和評估寬泛的年代范圍,不僅是在模型架構(gòu)上進行改進,也可通過更精細的評估指標,更準確地反映歷史斷代實踐中的細微差別,而不只依賴于與估計時間范圍的距離。
另一個有前景的方向是開展更多消融實驗,以量化不同模塊的具體貢獻(例如視覺輸入對不同任務的影響);以及探索上下文平行關系如何隨不同文本輸入而變化,以及系統(tǒng)對輸入格式變動(以及不同類型銘文)的敏感性。
進一步提升模型的多模態(tài)能力,需依托更大規(guī)模、高度標準化、并符合FAIR原則的數(shù)據(jù)集。
同時,將研究范圍擴展到拉丁銘文之外,也是值得探索的研究方向。這將有助于更深入地挖掘視覺模態(tài)在地理歸屬之外的潛力,并可能通過圖像學或其他考古學線索,輔助年代判斷。
最后,他們認為深化跨學科合作至關重要,希望未來的研究項目能夠持續(xù)推進,將人文學科與自然科學進一步聯(lián)結(jié)起來。
AI正在擴展人類認知
Aenea代表了AI在古代文本研究中的一次重大飛躍,其架構(gòu)超越了此前的SOTA模型,具備多模態(tài)能力,能夠恢復未知長度的文本序列,并可適配任何古代語言及書寫媒介(如莎草紙、手稿或錢幣)。
這些特性凸顯了它在以下方面的潛力:擴充具有文本和上下文對應關系的數(shù)據(jù)集、為缺失值提供假設,以及作為模塊化組件,用于增強基于對話的語言模型。
相關案例研究證明了Aeneas作為銘文學研究專用AI輔助工具的可靠性。Aeneas能利用相關銘文平行案例生成準確預測,并以定量方式對學術(shù)假說進行呈現(xiàn)。不論是應用于帝國紀念碑,還是省級獻祭銘文,Aeneas都能模擬銘文學家的分析過程,補充傳統(tǒng)歷史方法,生成準確而有意義的洞見。
研究團隊承認Aeneas存在一些局限性,其能為銘文匹配對應圖像的百分比相對較小,僅為5%。雖然這一比例較小,但這并不削弱該研究中視覺方面的實用價值,反而提示該研究可能成為未來有關銘文圖像研究的重要起點。
對于古代歷史學者來說,Aeneas是一個具有突破性的研究工具。它幫助研究者識別那些原本容易被忽略或需要耗費大量時間才能發(fā)現(xiàn)的數(shù)據(jù)聯(lián)系。未來,拉丁銘文的日常研究者如何在工作中測試Aeneas,并就如何利用AI分析古代材料展開討論,將是一件有意義的事情。
這類工具的應用遠不止于古代史研究,其在更晚時期歷史銘文研究,乃至其他語言的應用潛力同樣巨大,有望解決多個領域中類似的問題。盡管這類AI工具對部分學者而言可能仍具爭議,但對于研究過去社會留下的大量銘文,傳統(tǒng)學術(shù)研究與AI方法均有其必要性。
許多歷史學者也指出,AI的使用促使研究者重新審視自身的工作方式,以及他們獲取與傳播知識的路徑。嘗試像Aeneas這樣的工具,并對由此引發(fā)的問題進行反思,無疑將有益于科研工作,也有助于未來深入理解古代社會的原始材料。
作者:小羊
如需轉(zhuǎn)載或投稿,請直接在公眾號內(nèi)留言
弗拉格外,NBA76年歷史,誕生過多少白人狀元?他們生涯成就如何
NBA歷史上的首位白人狀元,誕生于1973年的選秀大會,76人用狀元簽選中了伊利諾伊州立大學的柯林斯|-。在大學期間,他憑借個人出眾的數(shù)據(jù)和賽場表現(xiàn),入選了美國男籃國家隊,隨隊參加1972年的慕尼黑奧運會。他的新秀賽季表現(xiàn)并不算出色,在為球隊出戰(zhàn)的25場比賽中,他交出了場均8分的數(shù)據(jù),這讓他遭受到不小的質(zhì)疑——_。但柯林斯的調(diào)整 1996年,沃頓入選NBA50大巨星_|。NO.2史蒂夫·弗朗西斯在姚明剛進入NBA時,弗老大在姚明的身邊扮演了很重要的角色,當姚明受欺負時挺身而出,在姚明受挫折時給予鼓勵——|?;貜透ダ洗蟮腘BA生涯,受傷病影響他只打了10個賽季,576場比賽。在個人第一個職業(yè)賽季里,弗朗西斯取得了長足的進步,平均每場18分,6.6次助攻還有后面會介紹。科比去世12小時:有人為他徹夜流淚,有人忙著用他賺錢|百家故事...