錢馨維
7月28日,2025世界人工智能大會(huì)暨人工智能全球治理高級(jí)別會(huì)議在上海舉行。在“大模型治理和有序發(fā)展生態(tài)分論壇”上,多位專家圍繞大模型時(shí)代的數(shù)據(jù)治理與倫理建設(shè),共商人工智能健康發(fā)展路徑。有專家指出,互聯(lián)網(wǎng)數(shù)據(jù)將在2026年左右被大模型訓(xùn)練“耗盡”已成行業(yè)共識(shí),要建設(shè)新的高質(zhì)量數(shù)據(jù)集,應(yīng)從垂直行業(yè)獲取、通過(guò)“眾包眾創(chuàng)”方式與前沿學(xué)校學(xué)者開展合作等實(shí)現(xiàn)。
論壇現(xiàn)場(chǎng)
對(duì)未處理的初級(jí)數(shù)據(jù),比如語(yǔ)音、圖像、文本、視頻等進(jìn)行加工處理,進(jìn)而轉(zhuǎn)換為機(jī)器可識(shí)別信息的過(guò)程,通常被稱為數(shù)據(jù)標(biāo)注。近年來(lái),隨著人工智能技術(shù)發(fā)展,數(shù)據(jù)標(biāo)注成為大模型訓(xùn)練的必要環(huán)節(jié),其上游產(chǎn)業(yè)需求大量增加。
據(jù)南都記者了解,海量、高質(zhì)量的標(biāo)注數(shù)據(jù)成為人工智能快速發(fā)展重要支撐的同時(shí),該行業(yè)統(tǒng)一標(biāo)準(zhǔn)缺乏、標(biāo)注質(zhì)量不齊、人力水平與技術(shù)需求不匹配等問(wèn)題也日益凸顯,如何推動(dòng)數(shù)據(jù)標(biāo)注產(chǎn)業(yè)高質(zhì)量發(fā)展備受關(guān)注。
上海庫(kù)帕思科技有限公司首席運(yùn)營(yíng)官施佳樑在會(huì)上分享了他對(duì)數(shù)據(jù)標(biāo)注行業(yè)的觀察。隨著人工智能技術(shù)的發(fā)展,數(shù)據(jù)標(biāo)注行業(yè)正經(jīng)歷從人力密集型向知識(shí)密集型轉(zhuǎn)變。從前,數(shù)據(jù)標(biāo)注行業(yè)對(duì)就業(yè)的帶動(dòng)效果較為明顯,主力人群為四、五線城市的大專生,涉及圖像識(shí)別和語(yǔ)音轉(zhuǎn)寫等簡(jiǎn)單任務(wù)。
然而,隨著大模型的引入,對(duì)高質(zhì)量數(shù)據(jù)集的需求增加,標(biāo)注工作開始涉及更復(fù)雜的學(xué)術(shù)難題和行業(yè)專業(yè)知識(shí)。據(jù)他觀察,如今越來(lái)越多的高校學(xué)者、各行業(yè)的資深專家參與到數(shù)據(jù)標(biāo)注過(guò)程中,以構(gòu)建具備強(qiáng)推理思維鏈的數(shù)據(jù)和行業(yè)語(yǔ)料庫(kù)。這種轉(zhuǎn)變不僅提升了標(biāo)注行業(yè)的專業(yè)性,也引發(fā)該就業(yè)市場(chǎng)的巨大變化。
“機(jī)器的自動(dòng)合成往往是基于專家的標(biāo)注,專家人工編寫以后,再由機(jī)器完成二次合成。標(biāo)注行業(yè)往高階發(fā)展就會(huì)是這樣的趨勢(shì)?!彼硎?,今后在構(gòu)建行業(yè)語(yǔ)料庫(kù)的過(guò)程中,簡(jiǎn)單標(biāo)注的數(shù)據(jù)標(biāo)注師或逐漸被取代。
高質(zhì)量數(shù)據(jù)集已成為人工智能發(fā)展的核心驅(qū)動(dòng)力。百度技術(shù)委員會(huì)理事長(zhǎng)陳尚義在會(huì)上談到,大模型發(fā)展至今,高質(zhì)量數(shù)據(jù)短缺的情況越發(fā)嚴(yán)重,合成數(shù)據(jù)已逐漸成為應(yīng)對(duì)大模型訓(xùn)練數(shù)據(jù)短缺的新思路,但也存在許多頑固問(wèn)題。
他強(qiáng)調(diào),合成數(shù)據(jù)通常存在缺陷、誤差、歧視等問(wèn)題。原因在于合成數(shù)據(jù)也是基于現(xiàn)有數(shù)據(jù)生成或是受到現(xiàn)有數(shù)據(jù)的影響。“如果算法有偏見的話,它可能會(huì)帶來(lái)更大的數(shù)據(jù)偏見,導(dǎo)致‘Garbageingarbageout’。”另一方面,合成數(shù)據(jù)存在倫理、公平性和隱私泄露的風(fēng)險(xiǎn)。“通過(guò)合成數(shù)據(jù)的‘逆向工程’,能夠猜到原本數(shù)據(jù)中包含的一些個(gè)人隱私?!?/p>
施佳樑也表示,如今行業(yè)內(nèi)已基本達(dá)成共識(shí),無(wú)論國(guó)內(nèi)國(guó)外,2026年左右互聯(lián)網(wǎng)數(shù)據(jù)即將被大模型訓(xùn)練耗盡。那么,作為增量的高質(zhì)量數(shù)據(jù)應(yīng)從哪里獲得?
施佳樑認(rèn)為可以從三個(gè)方向發(fā)力。一是來(lái)自于當(dāng)前各個(gè)垂直行業(yè),各大互聯(lián)網(wǎng)數(shù)據(jù)更多是作為通用數(shù)據(jù)來(lái)源,但每個(gè)垂直行業(yè)積累了海量專業(yè)知識(shí),比如金融、教育、文旅行業(yè)等專業(yè)數(shù)據(jù)都非常值得重視。不過(guò)值得注意的是,行業(yè)數(shù)據(jù)作為模型的高級(jí)燃料,也是垂類公司最深的“護(hù)城河”,如何呼吁各行業(yè)形成數(shù)據(jù)“聯(lián)盟”,共享行業(yè)語(yǔ)料,形成正向循環(huán)還值得思考。
二是希望通過(guò)“眾包眾創(chuàng)”方式,聯(lián)合學(xué)術(shù)前沿的學(xué)校老師開展合作,共同構(gòu)建高質(zhì)量數(shù)據(jù)集?!皳?jù)我觀察,很多學(xué)科可能在學(xué)術(shù)前沿方面走得比企業(yè)更遠(yuǎn),企業(yè)更多關(guān)注市場(chǎng)性的問(wèn)題?!比菍?duì)于具身智能等特定領(lǐng)域,此前并無(wú)機(jī)器人動(dòng)作數(shù)據(jù)等積累,需“從無(wú)到有”建立數(shù)據(jù)采集場(chǎng)進(jìn)行真機(jī)采集。
去年3月,全國(guó)首家人工智能語(yǔ)料公司“庫(kù)帕思”在上海成立。南都記者了解到,今年大會(huì)期間,該公司宣布啟用全國(guó)首個(gè)語(yǔ)料運(yùn)營(yíng)公共服務(wù)統(tǒng)一門戶,推動(dòng)語(yǔ)料調(diào)用服務(wù)智能體化。同時(shí),其內(nèi)部運(yùn)行的語(yǔ)料工具鏈平臺(tái),目前已完成400多個(gè)功能模塊,在醫(yī)療、教育、金融、城市治理等領(lǐng)域投入實(shí)戰(zhàn)。
施佳樑提到,上海有數(shù)據(jù)集團(tuán)、數(shù)據(jù)交易所的情況下,還要成立庫(kù)帕思這一專門提供大模型語(yǔ)料服務(wù)的公司,主要原因在于人工智能大模型領(lǐng)域的數(shù)據(jù)治理,與傳統(tǒng)的數(shù)據(jù)治理存在較大差異。
他解釋,傳統(tǒng)數(shù)據(jù)更多以數(shù)值、結(jié)構(gòu)化形態(tài)存在,“比方說(shuō)一個(gè)區(qū)域有多少人,這個(gè)區(qū)域的房?jī)r(jià)是多少,人均收入是多少,每一個(gè)人的存款有多少,都是數(shù)值型的。”傳統(tǒng)的數(shù)據(jù)治理更注重于數(shù)據(jù)清洗環(huán)節(jié),去掉一些空值、無(wú)效或異常數(shù)據(jù)等。
大模型能夠分析復(fù)雜的非結(jié)構(gòu)化數(shù)據(jù),其語(yǔ)料有高密度、高專業(yè)性需求,它需要理解數(shù)據(jù)內(nèi)容,比如一道數(shù)學(xué)題的推理過(guò)程,一篇期刊論文里面的化學(xué)分子式等,其間會(huì)用到圖像識(shí)別、自然語(yǔ)言處理等技術(shù),處理的數(shù)據(jù)模塊可能包含文本、圖像、音頻等形式?!皵?shù)據(jù)應(yīng)用場(chǎng)景不同,治理思路也不同?!?/p>
采寫:南都N視頻記者樊文揚(yáng)楊柳王子黎發(fā)自上海
中國(guó)唯一公主陵,葬著17歲妙齡公主,墓志銘澄清武則天一大罪名??溫讀
所以,不良人的存在并非空虛來(lái)風(fēng),無(wú)中生有-|。根據(jù)記載我們可以看出不良人是當(dāng)時(shí)統(tǒng)治者為了鞏固自己統(tǒng)治地位,征用有惡跡行為的人充任偵緝逮捕的衙役。這些人其實(shí)都不是罪大惡極之輩(如果罪大惡極,統(tǒng)治者也不會(huì)留他們了),但卻是屢教不改之類,這種做法也充分證明了當(dāng)時(shí)武皇的智慧——這個(gè)女人不一般|。統(tǒng)治者的說(shuō)完了。
狄仁杰的權(quán)力之謎:三品官職背后的真相
可沒(méi)有了武則天,卻來(lái)了個(gè)對(duì)皇權(quán)執(zhí)迷的韋皇后,還有在神龍政變中沒(méi)有除掉的武三思|。唐中宗無(wú)能,沒(méi)有武則天治國(guó)的能力和魄力,成為了韋后和武三思的傀儡皇帝,這兩個(gè)人沆瀣一氣,成為了大唐皇權(quán)的實(shí)際執(zhí)行者和擁有者,張柬之也在朝堂被武三思排擠,被唐中宗疏遠(yuǎn),宰相也做得舉步維艱。后來(lái),武三思利用他與韋后之間是什么。
夢(mèng)幻修神傳,第一章,銀月狼王誕生卻遲遲無(wú)法化形
想到葉凌天當(dāng)年二十幾歲就達(dá)到了武師三重天的境界,本來(lái)是非常有希望跨越壁障達(dá)到武皇境的人,沒(méi)想到后來(lái)的十幾年一直沒(méi)有寸進(jìn),原地踏步,難道是因?yàn)槟赣H的緣故?深深的吸了一口氣,讓自己的心緒平靜下來(lái),武者修行乃是逆天之事,最忌諱心緒紛亂,很容易走火入魔。平靜了之后,喃喃的道“實(shí)力才是這個(gè)世界最可靠的到此結(jié)束了?|。
來(lái)源:紅網(wǎng)
作者:習(xí)運(yùn)珊
編輯:郭建宇
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。