“國(guó)際社會(huì)應(yīng)確立具體、可操作、受全球認(rèn)可的紅線,確保人工智能系統(tǒng)在任何情況下均不得逾越?!?月25日,由杰弗里·辛頓(GeoffreyHinton)、姚期智、本吉奧(YoshuaBengio)、斯圖爾特·羅素(StuartRussell)等20余位行業(yè)專家、學(xué)者共同簽署的AI安全國(guó)際對(duì)話上海共識(shí)(以下簡(jiǎn)稱“上海共識(shí)”)正式對(duì)外公開(kāi)。
參與簽署的部分中外科學(xué)家來(lái)源:IDAIS官網(wǎng)
此次對(duì)話是“AI安全國(guó)際對(duì)話”(InternationalDialoguesonAISafety-IDAIS)系列的一部分”。作為本次共識(shí)發(fā)起方之一,圖靈獎(jiǎng)得主、上海期智研究院的院長(zhǎng)姚期智當(dāng)日表示,“我越來(lái)越相信,人類終將找到解決方案。”
聯(lián)名簽署現(xiàn)場(chǎng)
2024年3月,辛頓、姚期智、羅素、本吉奧等專家曾共同簽署“北京共識(shí)”,主張限制AI系統(tǒng)復(fù)制、欺騙、武器開(kāi)發(fā)等行為,尤其呼吁行業(yè)為AI的研發(fā)和應(yīng)用戴上“緊箍咒”,避免相關(guān)技術(shù)被濫用,推動(dòng)全球治理機(jī)構(gòu)構(gòu)建。姚期智透露,18個(gè)月前舉辦第一次安全共識(shí)會(huì)議時(shí),AGI強(qiáng)大的破壞力就已經(jīng)顯現(xiàn),人類甚至難以闡明其失控機(jī)制,不過(guò)隨著相關(guān)會(huì)議的推進(jìn),已經(jīng)看到若干有關(guān)基于“設(shè)計(jì)的安全”(Safebydesign)提案,這意味著實(shí)際上人類可以找到確保AI安全的可行路徑。
此次“上海共識(shí)”指出,當(dāng)前人類正處于一個(gè)關(guān)鍵轉(zhuǎn)折點(diǎn):人工智能系統(tǒng)正迅速接近并可能超越人類智能水平。這些未來(lái)的系統(tǒng)可能在操作者毫不知情的情況下,執(zhí)行并非操作者所期望或預(yù)測(cè)的行動(dòng)。這可能導(dǎo)致失控,即一個(gè)或多個(gè)通用人工智能系統(tǒng)脫離任何人的控制,從而帶來(lái)災(zāi)難性甚至是生存層面的風(fēng)險(xiǎn)。當(dāng)前,對(duì)于能夠在更高級(jí)的通用人工智能超越人類智能水平后,仍可靠地確保其對(duì)齊,并保持人類的有效控制尚無(wú)可行方法。
多位與會(huì)專家在參與討論時(shí)也提及,當(dāng)前構(gòu)建真正有約束力且值得信賴的國(guó)際AI安全框架難度高、風(fēng)險(xiǎn)大。
上海人工智能實(shí)驗(yàn)室主任周伯文教授指出,目前MakeAISafe(使得AI安全)最大的問(wèn)題在于它是事后價(jià)值對(duì)齊、修補(bǔ)的、被動(dòng)回應(yīng)的,通常是防御成本過(guò)高而攻擊成本過(guò)低。而MakeSafeAI(構(gòu)建安全的AI)是主動(dòng)的、在線共同演進(jìn)的,同時(shí)防御成本低,能夠在各級(jí)風(fēng)險(xiǎn)上都保持應(yīng)變能力。
周伯文認(rèn)為,在一定程度上,訓(xùn)練一個(gè)模型變得友善和訓(xùn)練一個(gè)模型變得聰明可能是兩條不同的技術(shù)路徑。但當(dāng)性能發(fā)展到某個(gè)程度,這兩種能力可能很難分開(kāi)處理——就像經(jīng)典牛頓定律可以有效解釋靜止或慢速物體的運(yùn)動(dòng),但是一旦逼近光速,這套理論就失效了。所以他認(rèn)為,下一代模型的“善”與“智”未必能完全獨(dú)立、分開(kāi)發(fā)展,而是相互影響、共同進(jìn)化的。
參與簽署的專家之一,擔(dān)任約翰·霍普金斯大學(xué)人工智能對(duì)齊與治理方向杰出教授吉莉恩·哈德菲爾(GillianHadfield)在接受包括澎湃科技在內(nèi)的媒體采訪時(shí)指出,必須通過(guò)設(shè)立AI“紅線”來(lái)推動(dòng)MakeAISafe(使得AI安全),全世界需要跨國(guó)界合作。此外,要建立相應(yīng)的AI安全合規(guī)系統(tǒng)。
為防范與糾正此類行為的技術(shù)路徑與治理機(jī)制,“上海共識(shí)”提出應(yīng)對(duì)策略,并呼吁采取三項(xiàng)關(guān)鍵行動(dòng):要求前沿人工智能開(kāi)發(fā)者提供安全保障、通過(guò)加強(qiáng)國(guó)際協(xié)調(diào),共同確立并恪守可驗(yàn)證的全球性行為紅線、投資基于設(shè)計(jì)的安全人工智能研究。
其中,對(duì)于開(kāi)發(fā)者來(lái)說(shuō),“上海共識(shí)”要求開(kāi)發(fā)者在模型部署前應(yīng)先進(jìn)行全面的內(nèi)部檢查和第三方評(píng)估,提交高可信的安全案例,以及開(kāi)展深入的模擬攻防與紅隊(duì)測(cè)試。若模型達(dá)到了關(guān)鍵能力閾值(比如檢測(cè)模型是否具備幫助沒(méi)有專業(yè)知識(shí)的非法分子制造生化武器的能力),開(kāi)發(fā)者應(yīng)向政府(在適當(dāng)時(shí)亦可向公眾)說(shuō)明潛在風(fēng)險(xiǎn)。
此外,呼吁國(guó)際社會(huì)需要合作劃出人工智能開(kāi)發(fā)不可以逾越的紅線(即“高壓線”),這些紅線應(yīng)聚焦于人工智能系統(tǒng)的行為表現(xiàn),其劃定需同時(shí)考量系統(tǒng)執(zhí)行特定行為的能力及其采取該行為的傾向性。為落實(shí)這些紅線,各國(guó)應(yīng)建立一個(gè)具備技術(shù)能力、具有國(guó)際包容性的協(xié)調(diào)機(jī)構(gòu),匯聚各國(guó)人工智能安全主管機(jī)構(gòu),以共享風(fēng)險(xiǎn)相關(guān)信息,并推動(dòng)評(píng)估規(guī)程與驗(yàn)證方法的標(biāo)準(zhǔn)化。
“上海共識(shí)”指出,短期內(nèi)亟須建立可擴(kuò)展的監(jiān)管機(jī)制以應(yīng)對(duì)人工智能的欺騙問(wèn)題、提升模型對(duì)“越獄”等攻擊手段的抵御能力、強(qiáng)化信息安保投入等,而長(zhǎng)期則需要一個(gè)“基于設(shè)計(jì)的安全”的架構(gòu),而非問(wèn)題出現(xiàn)后才被動(dòng)應(yīng)對(duì)。
他是游戲世界中叱咤風(fēng)云的中國(guó)區(qū)第一高手 他是圣奧蘭克西斯帝國(guó)三百年來(lái)的第一個(gè)冒險(xiǎn)者貴族, 他是羨煞無(wú)數(shù)玩家的鳳舞天嬌女性玩家公會(huì)的會(huì)長(zhǎng), 他是中國(guó)區(qū)兩大商會(huì)之一的慕后老板, 他的實(shí)力超絕, 人氣絕頂, 被無(wú)數(shù)粉絲尊稱為 神一般的男子 但是在現(xiàn)實(shí)世界中, 他是四個(gè)離家出走的豪門大小姐的保姆, 完成美女們諸多要求 萬(wàn)千極品, 超絕寵物, 極致技術(shù), 再加上一身好狗運(yùn), 你想得到什么, 美女, 金錢, 或者是超級(jí)美女, 無(wú)數(shù)金錢…… 延伸閱讀:與 湖南長(zhǎng):沙一小區(qū)精||裝房變驚裝房 的相關(guān)文章