“巴別魚”是英國作家道格拉斯·亞當(dāng)斯在1979年出版的科幻小說《銀河系漫游指南》中創(chuàng)造的虛構(gòu)生物——這種外形呈黃色水蛭狀、寄生在宿主耳道內(nèi)的神奇生物能夠突破語言障礙,實(shí)現(xiàn)跨物種的語言交流。
翻譯機(jī)的出現(xiàn)已經(jīng)打破了人類語言的隔閡,讓人們能夠自由交流。然而進(jìn)入AI時(shí)代,由于大部分的通用大模型對低資源語言的支持嚴(yán)重不足,使得小語種國家仍面臨被時(shí)代邊緣化的風(fēng)險(xiǎn)。
在今年的上海世界人工智能大會(huì)(WAIC)的一場高級別高水平多語言基座大模型國際學(xué)術(shù)研討會(huì)上,來自近20個(gè)國家的約30位語言專家和人工智能專家就如何彌合AI語言模型的鴻溝,實(shí)現(xiàn)普惠AI技術(shù)進(jìn)行深入探討。
專家認(rèn)為,如果語言被技術(shù)遺忘,那么使用這個(gè)語言的群體也會(huì)被時(shí)代遺忘;而只有當(dāng)小語種國家的孩子也能夠用自己的母語向AI提問時(shí),AI平權(quán)才真正實(shí)現(xiàn)了。
塞爾維亞語是流行在東歐巴爾干半島前南斯拉夫諸國的一種語言。然而,該語言的使用率遠(yuǎn)低于同一地區(qū)的斯洛文尼亞語。塞爾維亞諾維薩德大學(xué)技術(shù)科學(xué)學(xué)院主任VladoDeli?教授指出,塞爾維亞語在通用模型中token占比不足0.1%!
“語言模型不能只服務(wù)大語種,每種語言都應(yīng)擁有體現(xiàn)其文化身份的大模型?!盌eli?表示。他還稱,這對于人工智能在醫(yī)療、法律等關(guān)鍵領(lǐng)域的普及非常重要,必須構(gòu)建符合本國語言特點(diǎn)和文化語境的國家級大模型。
匈牙利語具有極度復(fù)雜的詞綴組合及自由語序,這為大語言模型token的劃分等帶來獨(dú)特挑戰(zhàn)。對此,匈牙利語言學(xué)研究中心總干事GáborPrószéky教授強(qiáng)調(diào),數(shù)據(jù)質(zhì)量優(yōu)于數(shù)據(jù)體量,是構(gòu)建可信大語言模型的關(guān)鍵。他希望能與中國AI同行合作,構(gòu)建語言模型的評估框架,實(shí)現(xiàn)從訓(xùn)練、語料建設(shè)到實(shí)際應(yīng)用的完整閉環(huán)。
以色列人類語言技術(shù)協(xié)會(huì)(IAHLT)創(chuàng)始人兼董事AvnerAlgom以希伯來語為例稱,希伯來語雖是世界上唯一被成功復(fù)興為現(xiàn)代口語的古老語言,但在自然語言處理領(lǐng)域仍屬低資源語言。
Algom強(qiáng)調(diào):“語言服務(wù)不能只為大語種設(shè)計(jì),小語種也應(yīng)擁有技術(shù)平權(quán)?!盜AHLT基于開源模型,已訓(xùn)練出雙語大模型(希伯來語+英語),并部署于教育、客服、醫(yī)療等場景。通過政府財(cái)政激勵(lì)機(jī)制,聯(lián)合產(chǎn)業(yè)界解決數(shù)據(jù)獲取合法性、訓(xùn)練成本和落地門檻問題。
科大訊飛研究院院長劉聰在研討會(huì)上表示,科大訊飛最新升級的星火大模型X1已經(jīng)可以支持超過130語種,希望與來自全球的機(jī)構(gòu)合作,構(gòu)建全方位的多語言大模型和應(yīng)用,為世界提供“中國方案”,破解全球多語言大模型技術(shù)難題。
懷孕期間禁忌事項(xiàng),孕婦快來避避雷
懷孕的這些“禁忌”其實(shí)是有科學(xué)道理的,孕媽能忍就忍一下吧
懷孕期間的健康禁忌及日常注意事項(xiàng)