7月28日,2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議在上海舉行。在“大模型治理和有序發(fā)展生態(tài)分論壇”上,多位專家圍繞大模型時(shí)代的數(shù)據(jù)治理與倫理建設(shè),共商人工智能健康發(fā)展路徑。有專家指出,互聯(lián)網(wǎng)數(shù)據(jù)將在2026年左右被大模型訓(xùn)練“耗盡”已成行業(yè)共識(shí),要建設(shè)新的高質(zhì)量數(shù)據(jù)集,應(yīng)從垂直行業(yè)獲取、通過“眾包眾創(chuàng)”方式與前沿學(xué)校學(xué)者開展合作等實(shí)現(xiàn)。
論壇現(xiàn)場(chǎng)
對(duì)未處理的初級(jí)數(shù)據(jù),比如語音、圖像、文本、視頻等進(jìn)行加工處理,進(jìn)而轉(zhuǎn)換為機(jī)器可識(shí)別信息的過程,通常被稱為數(shù)據(jù)標(biāo)注。近年來,隨著人工智能技術(shù)發(fā)展,數(shù)據(jù)標(biāo)注成為大模型訓(xùn)練的必要環(huán)節(jié),其上游產(chǎn)業(yè)需求大量增加。
據(jù)南都記者了解,海量、高質(zhì)量的標(biāo)注數(shù)據(jù)成為人工智能快速發(fā)展重要支撐的同時(shí),該行業(yè)統(tǒng)一標(biāo)準(zhǔn)缺乏、標(biāo)注質(zhì)量不齊、人力水平與技術(shù)需求不匹配等問題也日益凸顯,如何推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展備受關(guān)注。
上海庫帕思科技有限公司首席運(yùn)營(yíng)官施佳樑在會(huì)上分享了他對(duì)數(shù)據(jù)標(biāo)注行業(yè)的觀察。隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)注行業(yè)正經(jīng)歷從人力密集型向知識(shí)密集型轉(zhuǎn)變。從前,數(shù)據(jù)標(biāo)注行業(yè)對(duì)就業(yè)的帶動(dòng)效果較為明顯,主力人群為四、五線城市的大專生,涉及圖像識(shí)別和語音轉(zhuǎn)寫等簡(jiǎn)單任務(wù)。
然而,隨著大模型的引入,對(duì)高質(zhì)量數(shù)據(jù)集的需求增加,標(biāo)注工作開始涉及更復(fù)雜的學(xué)術(shù)難題和行業(yè)專業(yè)知識(shí)。據(jù)他觀察,如今越來越多的高校學(xué)者、各行業(yè)的資深專家參與到數(shù)據(jù)標(biāo)注過程中,以構(gòu)建具備強(qiáng)推理思維鏈的數(shù)據(jù)和行業(yè)語料庫。這種轉(zhuǎn)變不僅提升了標(biāo)注行業(yè)的專業(yè)性,也引發(fā)該就業(yè)市場(chǎng)的巨大變化。
“機(jī)器的自動(dòng)合成往往是基于專家的標(biāo)注,專家人工編寫以后,再由機(jī)器完成二次合成。標(biāo)注行業(yè)往高階發(fā)展就會(huì)是這樣的趨勢(shì)?!彼硎荆窈笤跇?gòu)建行業(yè)語料庫的過程中,簡(jiǎn)單標(biāo)注的數(shù)據(jù)標(biāo)注師或逐漸被取代。
高質(zhì)量數(shù)據(jù)集已成為人工智能發(fā)展的核心驅(qū)動(dòng)力。百度技術(shù)委員會(huì)理事長(zhǎng)陳尚義在會(huì)上談到,大模型發(fā)展至今,高質(zhì)量數(shù)據(jù)短缺的情況越發(fā)嚴(yán)重,合成數(shù)據(jù)已逐漸成為應(yīng)對(duì)大模型訓(xùn)練數(shù)據(jù)短缺的新思路,但也存在許多頑固問題。
他強(qiáng)調(diào),合成數(shù)據(jù)通常存在缺陷、誤差、歧視等問題。原因在于合成數(shù)據(jù)也是基于現(xiàn)有數(shù)據(jù)生成或是受到現(xiàn)有數(shù)據(jù)的影響?!叭绻惴ㄓ衅姷脑挘赡軙?huì)帶來更大的數(shù)據(jù)偏見,導(dǎo)致‘Garbageingarbageout’?!绷硪环矫妫铣蓴?shù)據(jù)存在倫理、公平性和隱私泄露的風(fēng)險(xiǎn)。“通過合成數(shù)據(jù)的‘逆向工程’,能夠猜到原本數(shù)據(jù)中包含的一些個(gè)人隱私。”
施佳樑也表示,如今行業(yè)內(nèi)已基本達(dá)成共識(shí),無論國(guó)內(nèi)國(guó)外,2026年左右互聯(lián)網(wǎng)數(shù)據(jù)即將被大模型訓(xùn)練耗盡。那么,作為增量的高質(zhì)量數(shù)據(jù)應(yīng)從哪里獲得?
施佳樑認(rèn)為可以從三個(gè)方向發(fā)力。一是來自于當(dāng)前各個(gè)垂直行業(yè),各大互聯(lián)網(wǎng)數(shù)據(jù)更多是作為通用數(shù)據(jù)來源,但每個(gè)垂直行業(yè)積累了海量專業(yè)知識(shí),比如金融、教育、文旅行業(yè)等專業(yè)數(shù)據(jù)都非常值得重視。不過值得注意的是,行業(yè)數(shù)據(jù)作為模型的高級(jí)燃料,也是垂類公司最深的“護(hù)城河”,如何呼吁各行業(yè)形成數(shù)據(jù)“聯(lián)盟”,共享行業(yè)語料,形成正向循環(huán)還值得思考。
二是希望通過“眾包眾創(chuàng)”方式,聯(lián)合學(xué)術(shù)前沿的學(xué)校老師開展合作,共同構(gòu)建高質(zhì)量數(shù)據(jù)集?!皳?jù)我觀察,很多學(xué)科可能在學(xué)術(shù)前沿方面走得比企業(yè)更遠(yuǎn),企業(yè)更多關(guān)注市場(chǎng)性的問題。”三是對(duì)于具身智能等特定領(lǐng)域,此前并無機(jī)器人動(dòng)作數(shù)據(jù)等積累,需“從無到有”建立數(shù)據(jù)采集場(chǎng)進(jìn)行真機(jī)采集。
去年3月,全國(guó)首家人工智能語料公司“庫帕思”在上海成立。南都記者了解到,今年大會(huì)期間,該公司宣布啟用全國(guó)首個(gè)語料運(yùn)營(yíng)公共服務(wù)統(tǒng)一門戶,推動(dòng)語料調(diào)用服務(wù)智能體化。同時(shí),其內(nèi)部運(yùn)行的語料工具鏈平臺(tái),目前已完成400多個(gè)功能模塊,在醫(yī)療、教育、金融、城市治理等領(lǐng)域投入實(shí)戰(zhàn)。
施佳樑提到,上海有數(shù)據(jù)集團(tuán)、數(shù)據(jù)交易所的情況下,還要成立庫帕思這一專門提供大模型語料服務(wù)的公司,主要原因在于人工智能大模型領(lǐng)域的數(shù)據(jù)治理,與傳統(tǒng)的數(shù)據(jù)治理存在較大差異。
他解釋,傳統(tǒng)數(shù)據(jù)更多以數(shù)值、結(jié)構(gòu)化形態(tài)存在,“比方說一個(gè)區(qū)域有多少人,這個(gè)區(qū)域的房?jī)r(jià)是多少,人均收入是多少,每一個(gè)人的存款有多少,都是數(shù)值型的?!眰鹘y(tǒng)的數(shù)據(jù)治理更注重于數(shù)據(jù)清洗環(huán)節(jié),去掉一些空值、無效或異常數(shù)據(jù)等。
大模型能夠分析復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),其語料有高密度、高專業(yè)性需求,它需要理解數(shù)據(jù)內(nèi)容,比如一道數(shù)學(xué)題的推理過程,一篇期刊論文里面的化學(xué)分子式等,其間會(huì)用到圖像識(shí)別、自然語言處理等技術(shù),處理的數(shù)據(jù)模塊可能包含文本、圖像、音頻等形式?!皵?shù)據(jù)應(yīng)用場(chǎng)景不同,治理思路也不同。”
采寫:南都N視頻記者樊文揚(yáng)楊柳王子黎發(fā)自上海
絕地求生:藍(lán)洞禁用第三方軟件,玩家使用超級(jí)助手也被踢出游戲
2000元也可以配一臺(tái)全特效吃雞電腦?沒錯(cuò),就是這么easy
Ryzen 2700X+RX 588 吃雞小試