7月28日,2025世界人工智能大會暨人工智能全球治理高級別會議在上海舉行。在“大模型治理和有序發(fā)展生態(tài)分論壇”上,多位專家圍繞大模型時代的數(shù)據(jù)治理與倫理建設,共商人工智能健康發(fā)展路徑。有專家指出,互聯(lián)網(wǎng)數(shù)據(jù)將在2026年左右被大模型訓練“耗盡”已成行業(yè)共識,要建設新的高質(zhì)量數(shù)據(jù)集,應從垂直行業(yè)獲取、通過“眾包眾創(chuàng)”方式與前沿學校學者開展合作等實現(xiàn)。
論壇現(xiàn)場
對未處理的初級數(shù)據(jù),比如語音、圖像、文本、視頻等進行加工處理,進而轉(zhuǎn)換為機器可識別信息的過程,通常被稱為數(shù)據(jù)標注。近年來,隨著人工智能技術(shù)發(fā)展,數(shù)據(jù)標注成為大模型訓練的必要環(huán)節(jié),其上游產(chǎn)業(yè)需求大量增加。
據(jù)南都記者了解,海量、高質(zhì)量的標注數(shù)據(jù)成為人工智能快速發(fā)展重要支撐的同時,該行業(yè)統(tǒng)一標準缺乏、標注質(zhì)量不齊、人力水平與技術(shù)需求不匹配等問題也日益凸顯,如何推動數(shù)據(jù)標注產(chǎn)業(yè)高質(zhì)量發(fā)展備受關(guān)注。
上海庫帕思科技有限公司首席運營官施佳樑在會上分享了他對數(shù)據(jù)標注行業(yè)的觀察。隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標注行業(yè)正經(jīng)歷從人力密集型向知識密集型轉(zhuǎn)變。從前,數(shù)據(jù)標注行業(yè)對就業(yè)的帶動效果較為明顯,主力人群為四、五線城市的大專生,涉及圖像識別和語音轉(zhuǎn)寫等簡單任務。
然而,隨著大模型的引入,對高質(zhì)量數(shù)據(jù)集的需求增加,標注工作開始涉及更復雜的學術(shù)難題和行業(yè)專業(yè)知識。據(jù)他觀察,如今越來越多的高校學者、各行業(yè)的資深專家參與到數(shù)據(jù)標注過程中,以構(gòu)建具備強推理思維鏈的數(shù)據(jù)和行業(yè)語料庫。這種轉(zhuǎn)變不僅提升了標注行業(yè)的專業(yè)性,也引發(fā)該就業(yè)市場的巨大變化。
“機器的自動合成往往是基于專家的標注,專家人工編寫以后,再由機器完成二次合成。標注行業(yè)往高階發(fā)展就會是這樣的趨勢。”他表示,今后在構(gòu)建行業(yè)語料庫的過程中,簡單標注的數(shù)據(jù)標注師或逐漸被取代。
高質(zhì)量數(shù)據(jù)集已成為人工智能發(fā)展的核心驅(qū)動力。百度技術(shù)委員會理事長陳尚義在會上談到,大模型發(fā)展至今,高質(zhì)量數(shù)據(jù)短缺的情況越發(fā)嚴重,合成數(shù)據(jù)已逐漸成為應對大模型訓練數(shù)據(jù)短缺的新思路,但也存在許多頑固問題。
他強調(diào),合成數(shù)據(jù)通常存在缺陷、誤差、歧視等問題。原因在于合成數(shù)據(jù)也是基于現(xiàn)有數(shù)據(jù)生成或是受到現(xiàn)有數(shù)據(jù)的影響?!叭绻惴ㄓ衅姷脑?,它可能會帶來更大的數(shù)據(jù)偏見,導致‘Garbageingarbageout’?!绷硪环矫?,合成數(shù)據(jù)存在倫理、公平性和隱私泄露的風險?!巴ㄟ^合成數(shù)據(jù)的‘逆向工程’,能夠猜到原本數(shù)據(jù)中包含的一些個人隱私?!?/p>
施佳樑也表示,如今行業(yè)內(nèi)已基本達成共識,無論國內(nèi)國外,2026年左右互聯(lián)網(wǎng)數(shù)據(jù)即將被大模型訓練耗盡。那么,作為增量的高質(zhì)量數(shù)據(jù)應從哪里獲得?
施佳樑認為可以從三個方向發(fā)力。一是來自于當前各個垂直行業(yè),各大互聯(lián)網(wǎng)數(shù)據(jù)更多是作為通用數(shù)據(jù)來源,但每個垂直行業(yè)積累了海量專業(yè)知識,比如金融、教育、文旅行業(yè)等專業(yè)數(shù)據(jù)都非常值得重視。不過值得注意的是,行業(yè)數(shù)據(jù)作為模型的高級燃料,也是垂類公司最深的“護城河”,如何呼吁各行業(yè)形成數(shù)據(jù)“聯(lián)盟”,共享行業(yè)語料,形成正向循環(huán)還值得思考。
二是希望通過“眾包眾創(chuàng)”方式,聯(lián)合學術(shù)前沿的學校老師開展合作,共同構(gòu)建高質(zhì)量數(shù)據(jù)集?!皳?jù)我觀察,很多學科可能在學術(shù)前沿方面走得比企業(yè)更遠,企業(yè)更多關(guān)注市場性的問題。”三是對于具身智能等特定領(lǐng)域,此前并無機器人動作數(shù)據(jù)等積累,需“從無到有”建立數(shù)據(jù)采集場進行真機采集。
去年3月,全國首家人工智能語料公司“庫帕思”在上海成立。南都記者了解到,今年大會期間,該公司宣布啟用全國首個語料運營公共服務統(tǒng)一門戶,推動語料調(diào)用服務智能體化。同時,其內(nèi)部運行的語料工具鏈平臺,目前已完成400多個功能模塊,在醫(yī)療、教育、金融、城市治理等領(lǐng)域投入實戰(zhàn)。
施佳樑提到,上海有數(shù)據(jù)集團、數(shù)據(jù)交易所的情況下,還要成立庫帕思這一專門提供大模型語料服務的公司,主要原因在于人工智能大模型領(lǐng)域的數(shù)據(jù)治理,與傳統(tǒng)的數(shù)據(jù)治理存在較大差異。
他解釋,傳統(tǒng)數(shù)據(jù)更多以數(shù)值、結(jié)構(gòu)化形態(tài)存在,“比方說一個區(qū)域有多少人,這個區(qū)域的房價是多少,人均收入是多少,每一個人的存款有多少,都是數(shù)值型的?!眰鹘y(tǒng)的數(shù)據(jù)治理更注重于數(shù)據(jù)清洗環(huán)節(jié),去掉一些空值、無效或異常數(shù)據(jù)等。
大模型能夠分析復雜的非結(jié)構(gòu)化數(shù)據(jù),其語料有高密度、高專業(yè)性需求,它需要理解數(shù)據(jù)內(nèi)容,比如一道數(shù)學題的推理過程,一篇期刊論文里面的化學分子式等,其間會用到圖像識別、自然語言處理等技術(shù),處理的數(shù)據(jù)模塊可能包含文本、圖像、音頻等形式。“數(shù)據(jù)應用場景不同,治理思路也不同?!?/p>
采寫:南都N視頻記者樊文揚楊柳王子黎發(fā)自上海
絕品透視眼,意外開啟天眼,古玩撿漏、醫(yī)道神醫(yī)、古武宗師全能逆襲!
絕品透視眼,天眼一開,古玩醫(yī)武三界震驚!
意外覺醒絕品透視眼,古玩醫(yī)道古武界,全能宗師橫掃無敵路!
免責聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。