在博物館幽暗的燈光下,一塊殘破的古羅馬石碑靜靜地躺在展柜中。石碑上的拉丁文銘刻著早已逝去的時(shí)代信息,但歲月侵蝕和人為破壞讓大部分文字變得模糊不清、難以辨認(rèn)。對(duì)于歷史學(xué)家和考古學(xué)家而言,解讀這些被稱為“歷史最初手稿”的銘文,是一項(xiàng)極其重要卻又無比艱辛的工作。現(xiàn)在,來自谷歌的AI或許能讓這項(xiàng)工作變得輕松一些。
谷歌DeepMind與多所大學(xué)的歷史學(xué)家合作,于2025年7月23日在《自然》(Nature)上發(fā)表了一項(xiàng)最新研究成果,推出了一款名為“埃涅阿斯”(Aeneas)的AI工具。這款以古羅馬神話中特洛伊英雄命名的程序,旨在幫助研究人員解讀、修復(fù)和考證那些飽經(jīng)滄桑的古羅馬拉丁文銘文。它不僅能以高準(zhǔn)確率填補(bǔ)銘文中缺失的文字,還能推斷出銘文的制作年代和地理來源。
圖丨相關(guān)論文(來源:Nature)
古羅馬人留下了海量的銘文,它們被刻在紀(jì)念碑、祭壇、墓碑、陶器甚至涂鴉墻上,內(nèi)容包羅萬象,從皇帝的法令、戰(zhàn)爭的記錄,到商人的賬本、情人的詩篇,為后世了解羅馬世界的政治、經(jīng)濟(jì)、文化乃至普通人的日常生活提供了最直接、最鮮活的證據(jù)。與史官筆下的“勝利者書寫的歷史”不同,這些銘文是古羅馬社會(huì)各階層人士的真實(shí)心聲。然而,解讀它們的過程卻相當(dāng)困難。
(來源:Nature)
這些銘文常常以碎片的形態(tài)被發(fā)現(xiàn),或者文字因風(fēng)化而變得模糊不清,許多關(guān)鍵信息就此丟失。學(xué)者們?cè)谘芯繒r(shí),需要依靠自身的知識(shí)和豐富的經(jīng)驗(yàn),在浩如煙海的文獻(xiàn)資料庫中尋找可供參照的“平行文本”(parallels)——即那些在措辭、句法、格式或出處上相似的其他銘文。通過對(duì)比分析,他們才能逐步拼湊出碎片化的信息,推斷缺失部分的內(nèi)容,并將其置于更廣闊的歷史背景中進(jìn)行解讀。這一過程不僅耗時(shí)耗力,而且高度依賴學(xué)者的個(gè)人專長和所能接觸到的圖書館資源,往往會(huì)限制研究的廣度和深度。
DeepMind的研究員YannisAssael和諾丁漢大學(xué)的歷史學(xué)家TheaSommerschield博士領(lǐng)導(dǎo)的團(tuán)隊(duì)開發(fā)的Aeneas,正是為了解決這一難題。Aeneas的核心能力并不是單純的文本匹配,而是深度“語境化”(contextualizing)。其基于一個(gè)名為“拉丁文銘文數(shù)據(jù)集”(LED,LatinEpigraphicDataset)的數(shù)據(jù)集訓(xùn)練而成,這是一個(gè)龐大的數(shù)據(jù)庫,整合了來自羅馬銘文數(shù)據(jù)庫(EDR,EpigraphicDatabaseRoma)、海德堡銘文數(shù)據(jù)庫(EDH,EpigraphicDatabaseHeidelberg)等多個(gè)權(quán)威來源的數(shù)據(jù),包含了超過17.6萬條拉丁文銘文,總字符數(shù)高達(dá)1,600萬個(gè)。
基于這個(gè)龐大的數(shù)據(jù)集,Aeneas采用了一種基于Transformer架構(gòu)的深度神經(jīng)網(wǎng)絡(luò)。它不僅僅是分析銘文的文本內(nèi)容,還能在某些情況下結(jié)合銘文的圖片進(jìn)行多模態(tài)分析(multimodalanalysis)。當(dāng)研究人員輸入一段殘缺的銘文文本(甚至可以標(biāo)記出缺失文本的長度是已知的還是未知的)和圖片時(shí),Aeneas會(huì)通過嵌入(embedding)將每一段銘文轉(zhuǎn)換成一個(gè)獨(dú)特的“歷史指紋”。這個(gè)指紋不僅編碼了文本的字面信息,還包含了其背后隱藏的語言模式、句法結(jié)構(gòu)、歷史背景和地理來源等深層信息。
隨后,Aeneas會(huì)在這個(gè)由海量”歷史指紋“構(gòu)成的多維空間中進(jìn)行檢索,找出與目標(biāo)銘文最相關(guān)的平行文本,并按照相關(guān)性排序后呈現(xiàn)給研究人員。更重要的是,它還能根據(jù)上下文語境,提出填補(bǔ)缺失文字的多種可能性建議,并預(yù)測該銘文最有可能的制作年代和發(fā)源地(精確到羅馬帝國的62個(gè)行省之一)。
(來源:Nature)
為了驗(yàn)證Aeneas的實(shí)際效果,研究團(tuán)隊(duì)進(jìn)行了一項(xiàng)規(guī)??涨暗摹肮糯鷼v史學(xué)家與人工智能”合作研究。他們邀請(qǐng)了23位從事銘文研究的專家,從碩士生到資深教授,參與了一場模擬真實(shí)研究工作流程的實(shí)驗(yàn)。在實(shí)驗(yàn)中,歷史學(xué)家們首先獨(dú)立完成對(duì)一批銘文的修復(fù)、斷代和溯源工作。隨后,他們會(huì)獲得Aeneas提供的平行文本和預(yù)測建議,再進(jìn)行一次同樣的工作。
實(shí)驗(yàn)結(jié)果顯示,在Aeneas的幫助下,歷史學(xué)家的工作效率和準(zhǔn)確性都得到了顯著提升。在地理歸屬方面,歷史學(xué)家獨(dú)立工作的最高準(zhǔn)確率(Top-1accuracy)為27%,而在結(jié)合了Aeneas的平行文本和預(yù)測后,這一數(shù)字飆升至68.3%,提升了152%。
在文本修復(fù)方面,以字符錯(cuò)誤率(CharacterErrorRate,CER,該數(shù)值越低越好)來衡量,歷史學(xué)家的獨(dú)立錯(cuò)誤率為39.0%,而在Aeneas的輔助下,錯(cuò)誤率降至21.4%。在年代判斷上,預(yù)測結(jié)果與真實(shí)年代范圍的平均差距也從31.3年縮短至14.1年,接近Aeneas自身的12.8年。在90%的情況下,學(xué)者們認(rèn)為Aeneas提供的平行文本是“有用的研究起點(diǎn)”,他們完成任務(wù)的信心也平均提升了44%。
(來源:Nature)
一位參與測試的歷史學(xué)家感嘆道:“Aeneas檢索到的平行文本徹底改變了我對(duì)(目標(biāo))銘文的看法。如果沒有它,我可能要花好幾天時(shí)間才能找到這些材料,而現(xiàn)在只需要15分鐘。這讓我可以把更多時(shí)間用于撰寫和構(gòu)建研究問題,而不是在尋找資料上?!?/p>
研究團(tuán)隊(duì)還用兩個(gè)代表性案例來展示Aeneas的強(qiáng)大能力。其中一個(gè)是羅馬帝國第一位皇帝奧古斯都的“神圣奧古斯都事跡錄”(ResGestaeDiviAugusti)。關(guān)于這篇長篇銘文的確切撰寫時(shí)間,學(xué)術(shù)界一直存在爭論。Aeneas在分析了全文后,給出了兩個(gè)可能的年代高峰,一個(gè)在公元前10-1年,另一個(gè)則在公元10-20年。這恰好與學(xué)術(shù)界兩種主流假說高度吻合,證明Aeneas能夠以量化的方式捕捉并呈現(xiàn)復(fù)雜的歷史學(xué)辯論。
(來源:DeepMind)
另一個(gè)案例是一座在今天德國美因茨(古羅馬時(shí)期稱為Mogontiacum)發(fā)現(xiàn)的還愿祭壇。Aeneas在分析這座祭壇的銘文時(shí),其首要推薦的平行文本是另一座在附近發(fā)現(xiàn)、年代稍早的祭壇。這兩座祭壇共享著非常罕見的文本程式和圣像學(xué)特征,考古學(xué)家此前已提出后者可能直接影響了前者。Aeneas在不知道任何考古背景或空間信息的情況下,僅通過文本分析就精準(zhǔn)地識(shí)別出了這種微妙而關(guān)鍵的歷史關(guān)聯(lián)。索默斯切爾德博士形容這些發(fā)現(xiàn)是“令人瞠目結(jié)舌的時(shí)刻”。
當(dāng)然,Aeneas并非完美無缺,它也不是要取代歷史學(xué)家。哈佛大學(xué)的古典學(xué)教授KathleenColeman就指出,目前還不完全清楚這個(gè)工具在歷史學(xué)家的長期工作流程中會(huì)多大程度上發(fā)揮作用,而且它并不能推測文本的“意義”,最終的解釋工作仍需人類專家來完成。研究論文本身也坦誠,模型的性能在數(shù)據(jù)稀疏的地區(qū)和時(shí)期會(huì)有所下降,并且存在因訓(xùn)練數(shù)據(jù)本身的局限性而產(chǎn)生偏見的風(fēng)險(xiǎn)。
但Aeneas的設(shè)計(jì)初衷也正是成為一個(gè)強(qiáng)大的協(xié)作者,而非替代者。它將學(xué)者從繁重、重復(fù)的資料搜尋工作中解放出來,讓他們能更專注于批判性思考和歷史解釋。劍橋大學(xué)的著名古典學(xué)家MaryBeard教授評(píng)價(jià)說:“它有望帶來變革。”牛津大學(xué)的古代史教授、論文的合著者JonathanPrag也表示,這個(gè)工具讓更廣泛的人群能夠參與到銘文研究中來,因?yàn)椤叭绻麤]有這樣的工具,你只能依靠積累海量的個(gè)人知識(shí)或擁有一個(gè)巨大的圖書館?!?/p>
Aeneas的技術(shù)建立在其前身Ithaca之上,Ithaca是一個(gè)專注于修復(fù)古希臘銘文的AI模型?,F(xiàn)在,Ithaca也將升級(jí)為由Aeneas的技術(shù)驅(qū)動(dòng),性能得到全面提升。為了讓這項(xiàng)技術(shù)能惠及更多人,研究團(tuán)隊(duì)已經(jīng)將Aeneas的代碼和數(shù)據(jù)集開源,并建立了一個(gè)名為“預(yù)測過去”(predictingthepast.com)的互動(dòng)網(wǎng)站,免費(fèi)向所有研究人員、學(xué)生和教育工作者開放。他們還與比利時(shí)根特的教師培訓(xùn)項(xiàng)目合作,開發(fā)了一套教學(xué)大綱,旨在將Aeneas融入中學(xué)歷史課堂,培養(yǎng)學(xué)生的數(shù)字素養(yǎng)和史料批判能力。
參考資料:
1.https://deepmind.google/discover/blog/aeneas-transforms-how-historians-connect-the-past/
2.https://www.nature.com/articles/s41586-025-09292-5
3.https://www.technologyreview.com/2025/07/23/1120574/deepmind-ai-aeneas-helps-historians-interpret-latin-inscriptions/
運(yùn)營/排版:何晨龍
仙尊奶爸薛安,帶雙胞胎女兒稱霸全宇宙
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動(dòng)生成,僅供參考。