雷峰網(wǎng)訊第四屆人工智能國(guó)際安全對(duì)話(InternationalDialoguesonAISafety,IDAIS)于2025年75月25日在上海舉行。杰弗里·辛頓、姚期智及全球人工智能科學(xué)家齊聚上海,呼吁應(yīng)對(duì)人工智能失控風(fēng)險(xiǎn),加強(qiáng)國(guó)際合作。
本屆對(duì)話聚焦于“確保高級(jí)人工智能系統(tǒng)的對(duì)齊與人類控制,以保障人類福祉”,諾貝爾獎(jiǎng)和圖靈獎(jiǎng)得主GeoffreyHinton,圖靈獎(jiǎng)得主,清華大學(xué)交叉信息研究院和人工智能學(xué)院院長(zhǎng),上海期智研究院院長(zhǎng)姚期智,以及加州大學(xué)伯克利分校StuartRussell教授,上海人工智能實(shí)驗(yàn)室主任周伯文教授等人共同發(fā)布了《AI安全國(guó)際對(duì)話上海共識(shí)》(下稱《共識(shí)》)。其核心觀點(diǎn)強(qiáng)調(diào)當(dāng)今已有部分人工智能系統(tǒng)展現(xiàn)出削弱開(kāi)發(fā)者安全與控制措施的能力與傾向,并呼吁國(guó)際社會(huì)投資安全科學(xué)領(lǐng)域,為應(yīng)對(duì)通用人工智能系統(tǒng)的失控風(fēng)險(xiǎn)持續(xù)構(gòu)建國(guó)際互信機(jī)制。
與會(huì)科學(xué)家圍繞人工智能欺騙性行為可能帶來(lái)的重大危險(xiǎn)展開(kāi)深入探討,特別關(guān)注人工智能系統(tǒng)可能“逃脫人類控制”的潛在風(fēng)險(xiǎn)?!豆沧R(shí)》指出,人類正處于人工智能系統(tǒng)迅接近并可能超越人類智能水平的關(guān)鍵轉(zhuǎn)折點(diǎn)?,F(xiàn)有研究表明,高級(jí)人工智能系統(tǒng)日益顯現(xiàn)出欺騙性和自我保護(hù)傾向,能夠識(shí)別自身正被評(píng)估,于是偽裝與人類對(duì)齊以通過(guò)測(cè)試。未來(lái)的系統(tǒng)可能在操作者毫不知情的情況下,執(zhí)行并非操作者所期望或預(yù)測(cè)的行動(dòng),帶來(lái)災(zāi)難性甚至生存層面的失控風(fēng)險(xiǎn)。而當(dāng)前尚無(wú)已知方法,能夠在更高級(jí)的通用人工智能超越人類智能水平后,仍能可靠地確保其對(duì)齊,并保持人類的有效控制。
會(huì)議探討了防范與糾正此類行為的技術(shù)路徑與治理機(jī)制?!豆沧R(shí)》認(rèn)為,與人工智能能力的快速發(fā)展相比,對(duì)人工智能安全研究的投入明顯滯后,亟需采取進(jìn)一步行動(dòng)。與會(huì)科學(xué)家聚焦新近出現(xiàn)的關(guān)于人工智能欺騙行為的實(shí)證證據(jù),呼吁國(guó)際社會(huì)共同采取三項(xiàng)關(guān)鍵行動(dòng):
第一,要求前沿人工智能開(kāi)發(fā)者提供安全保障。為了讓監(jiān)管部門更清楚地了解未來(lái)高級(jí)AI系統(tǒng)的安全性,開(kāi)發(fā)者在模型部署前應(yīng)先進(jìn)行全面的內(nèi)部檢查和第三方評(píng)估,提交高可信的安全案例,以及開(kāi)展深入的模擬攻防與紅隊(duì)測(cè)試。若模型達(dá)到了關(guān)鍵能力閾值(比如檢測(cè)模型是否有具備幫助沒(méi)有專業(yè)知識(shí)的非法分子制造生化武器的能力),開(kāi)發(fā)者應(yīng)向政府(在適當(dāng)時(shí)亦可向公眾)說(shuō)明潛在風(fēng)險(xiǎn)。
第二,通過(guò)加強(qiáng)國(guó)際協(xié)調(diào),共同確立并恪守可驗(yàn)證的全球性行為紅線。國(guó)際社會(huì)需要合作劃出人工智能開(kāi)發(fā)不可以逾越的紅線(即“高壓線”),這些紅線應(yīng)聚焦于人工智能系統(tǒng)的行為表現(xiàn),其劃定需同時(shí)考量系統(tǒng)執(zhí)行特定行為的能力及其采取該行為的傾向性。為落實(shí)這些紅線,各國(guó)應(yīng)建立一個(gè)具備技術(shù)能力、具有國(guó)際包容性的協(xié)調(diào)機(jī)構(gòu),匯聚各國(guó)人工智能安全主管機(jī)構(gòu),以共享風(fēng)險(xiǎn)相關(guān)信息,并推動(dòng)評(píng)估規(guī)程與驗(yàn)證方法的標(biāo)準(zhǔn)化。該機(jī)構(gòu)將促進(jìn)知識(shí)交流,并就遵守紅線所需的技術(shù)措施達(dá)成一致,包括統(tǒng)一披露要求與評(píng)估規(guī)程,從而幫助開(kāi)發(fā)者可信地證明其人工智能系統(tǒng)的安全與安保水平。
第三,對(duì)保障安全性的開(kāi)發(fā)方式進(jìn)行投資??茖W(xué)界和開(kāi)發(fā)者應(yīng)投入一系列嚴(yán)格機(jī)制來(lái)保障人工智能系統(tǒng)的安全性。短期內(nèi),我們需通過(guò)可擴(kuò)展的監(jiān)督機(jī)制應(yīng)對(duì)人工智能欺騙行為:例如加強(qiáng)信息安全投入,防范來(lái)自系統(tǒng)內(nèi)部和外部的各種威脅,增強(qiáng)模型抗越獄能力等。長(zhǎng)期來(lái)看,我們可能需要化被動(dòng)為主動(dòng),轉(zhuǎn)而構(gòu)建基于“設(shè)計(jì)即安全”的人工智能系統(tǒng)。通過(guò)實(shí)驗(yàn)數(shù)據(jù)總結(jié)出的規(guī)律,研究者可以提前預(yù)估未來(lái)人工智能系統(tǒng)的安全水平和性能。這樣,開(kāi)發(fā)者在正式訓(xùn)練模型之前,就能預(yù)先設(shè)置好足夠的安全防護(hù)措施。
本次會(huì)議由上海期智研究院,AI安全國(guó)際論壇(SAIF),和上海人工智能實(shí)驗(yàn)室主辦。來(lái)自治理領(lǐng)域的多位權(quán)威專家也參與了討論,包括傅瑩女士、清華大學(xué)蘇世民學(xué)院院長(zhǎng)薛瀾、約翰斯·霍普金斯大學(xué)教授GillianHadfield,以及牛津大學(xué)教授RobertTrager,他們就國(guó)際合作和治理框架提供了深入見(jiàn)解。
值得注意的是,出席此次IDAIS為GeoffreyHinton首次來(lái)華,還將參加于上海同期舉辦的2025世界人工智能大會(huì)。自2023年從谷歌辭職后,有著AI之父之稱的他一直致力于AI安全工作。
GeoffreyHinton出生于1947年12月6日,英裔加拿大籍心理學(xué)家、計(jì)算機(jī)學(xué)家。1986年,他曾與DavidRumelhart和RonaldJ.Williams共同發(fā)表論文Learningrepresentationsbyback-propagatingerrors,證明通過(guò)反向傳播算法可以訓(xùn)練多層神經(jīng)網(wǎng)絡(luò)有效地學(xué)習(xí)復(fù)雜任務(wù)。除此之外,他還發(fā)明了基于概率的人工神經(jīng)網(wǎng)絡(luò)波爾茲曼機(jī)(BoltzmannMachine)和受限波爾茲曼機(jī)(RestrictedBoltzmannMachine),通過(guò)模擬神經(jīng)元之間的隨機(jī)激活來(lái)尋找數(shù)據(jù)中的特征或模式。上述工作為深度學(xué)習(xí)的快速發(fā)展鋪平了道路,GeoffreyHinton也因此被視為深度學(xué)習(xí)領(lǐng)域的領(lǐng)軍人物。
2024年10月8日,瑞典皇家科學(xué)院決定將當(dāng)年的諾貝爾物理學(xué)獎(jiǎng)授予GeoffreyHinton及JohnHopfield,以“表彰他們?yōu)槿斯ど窠?jīng)網(wǎng)絡(luò)機(jī)器學(xué)習(xí)的奠基性發(fā)現(xiàn)和發(fā)明”。
Hinton曾于2013年起在谷歌擔(dān)任高級(jí)工程師,并參與領(lǐng)導(dǎo)“谷歌大腦”項(xiàng)目。2023年5月,他宣布從谷歌辭職,表示希望“能夠自由地談?wù)揂I風(fēng)險(xiǎn)”,并坦言一部分的他開(kāi)始后悔自己畢生所做的貢獻(xiàn)。他離職后在媒體上頻頻發(fā)聲,直言當(dāng)前業(yè)界競(jìng)相部署生成式AI等發(fā)展趨勢(shì)讓他感到恐懼。
在今年5月30日于英國(guó)皇家學(xué)會(huì)的演講中,GeoffreyHinton再次警告,對(duì)AI失控的擔(dān)憂并非遙遠(yuǎn)的科幻情節(jié),而是其內(nèi)在邏輯的必然結(jié)果。為了實(shí)現(xiàn)任何被賦予的宏大目標(biāo),AI會(huì)自然衍生出“獲取更多控制權(quán)”和“避免被關(guān)閉”等至關(guān)重要的子目標(biāo)。
Hinton在上述演講中指出:“當(dāng)你創(chuàng)建一個(gè)AIagent時(shí),你必須賦予它設(shè)定子目標(biāo)的能力。比如,你的目標(biāo)是去北美,那么你的子目標(biāo)就是先到達(dá)機(jī)場(chǎng)。同理,我們也需要賦予AIagent創(chuàng)建子目標(biāo)的能力。如此一來(lái),一個(gè)顯而易見(jiàn)的子目標(biāo)便會(huì)浮現(xiàn),那就是:無(wú)論最終任務(wù)是什么,都應(yīng)先奪取更多控制權(quán)。因?yàn)榭刂茩?quán)越大,就越容易實(shí)現(xiàn)最終目標(biāo)?!?/p>
雷峰網(wǎng)文章
糖尿病患者該怎么吃?看看這張飲食紅黑榜
多采用蒸、煮、燉、涼拌、快炒等方式,少用油炸、紅燒、勾芡_——。吃飯時(shí)要細(xì)嚼慢咽,每餐用餐時(shí)間控制在20-30分鐘,避免狼吞虎咽,這樣有助于控制食量,延緩血糖上升??傊悄虿』颊叩娘嬍彻芾砗诵氖恰翱偭靠刂?、結(jié)構(gòu)合理、定時(shí)定量”_。每個(gè)人的病情和身體狀況不同,建議在醫(yī)生或營(yíng)養(yǎng)師的指導(dǎo)下,制定個(gè)性化的飲食說(shuō)完了。糖尿病患者應(yīng)該怎么吃好呢:規(guī)范飲食指南