涂初南
微軟在最新研究中提出了一系列關(guān)于人機(jī)交互的核心挑戰(zhàn):我們?cè)撊绾卫斫釧I的意圖?如何建立信任?又如何在不對(duì)稱的信息結(jié)構(gòu)中實(shí)現(xiàn)高效協(xié)作?本文將深入解析這些挑戰(zhàn)背后的技術(shù)與認(rèn)知邏輯,帶你重新審視“對(duì)話式AI”時(shí)代的人機(jī)關(guān)系邊界。
當(dāng)前的智能體已不再是簡(jiǎn)單的聊天機(jī)器人,而是能夠觀察環(huán)境、調(diào)用工具,并與其他智能體溝通以解決問題的復(fù)雜系統(tǒng),這種進(jìn)化使其在廣泛任務(wù)中展現(xiàn)出巨大潛力。
然而,這種能力的躍升并非沒有代價(jià)。正如微軟研究院在發(fā)布的論文《人與智能體溝通中的挑戰(zhàn)》中指出的那樣,它們的復(fù)雜性和廣泛的失敗模式給人類與AI的交互帶來了新的挑戰(zhàn)。
本文將清晰易懂地剖析人與智能體溝通中的12個(gè)關(guān)鍵挑戰(zhàn)。
溝通的“雷區(qū)地圖”
在《人與智能體溝通中的挑戰(zhàn)》中,微軟的研究者們形象地繪制了一幅人與智能體溝通時(shí)可能遭遇的“雷區(qū)地圖”。
該框架借鑒了溝通理論中的“共同基礎(chǔ)”概念,將12個(gè)挑戰(zhàn)歸納為三大類:
1.普適性的人與智能體溝通難題(X1-X4):貫穿人與智能體交互始終的溝通障礙,具有普遍性。
2.用戶向智能體傳遞信息(U1-U3):核心在于如何確保AI準(zhǔn)確無誤地理解用戶的意圖和需求。
3.智能體向用戶傳遞信息(A1-A5):核心在于AI如何清晰、有效地將自身狀態(tài)、行為和結(jié)果傳達(dá)給用戶。同時(shí),這些挑戰(zhàn)還分布在溝通交互過程的“之前”、“之中”和“之后”三個(gè)不同階段。
我們?cè)谙卤碇性敿?xì)列出了12個(gè)關(guān)鍵挑戰(zhàn):
那接下來,對(duì)這些挑戰(zhàn)進(jìn)行深入的分類探討。
12大挑戰(zhàn)解析
普適性難題(X1-X4):AI交互中揮之不去的“幽靈”
這些挑戰(zhàn)普遍存在于各類人與智能體的溝通場(chǎng)景中,是設(shè)計(jì)任何AI交互系統(tǒng)時(shí)都需要面對(duì)的基礎(chǔ)性問題。它們共同構(gòu)成了建立用戶信任、確保交互透明以及實(shí)現(xiàn)有效控制的基礎(chǔ)。
X1:智能體應(yīng)如何幫助用戶驗(yàn)證其行為?
核心問題:智能體在處理復(fù)雜任務(wù)時(shí),出現(xiàn)失誤在所難免。因此,用戶需要有效的方法來確認(rèn)智能體是否準(zhǔn)確理解了指令,以及智能體正在執(zhí)行或計(jì)劃執(zhí)行的動(dòng)作是否真正符合其預(yù)期。
X2:智能體應(yīng)如何傳達(dá)一致的行為?
核心問題:AI行為的不一致性(或用戶感知到的不一致性)會(huì)逐步侵蝕用戶的信任度。這種不一致可能源于AI與環(huán)境或其他智能體交互所產(chǎn)生的復(fù)雜動(dòng)態(tài),或是AI的行為模式與用戶的心智模型不相符等。
X3:智能體應(yīng)如何選擇合適的細(xì)節(jié)詳略程度?
核心問題:如何在確保用戶能夠驗(yàn)證智能體行為、避免混淆與防止因信息過多導(dǎo)致用戶認(rèn)知負(fù)擔(dān)之間尋求微妙的平衡。
X4:智能體在溝通時(shí)應(yīng)考慮哪些過去的交互?
核心問題:智能體如何有效利用豐富的歷史交互數(shù)據(jù),來優(yōu)化當(dāng)前的溝通。確保智能體能夠精準(zhǔn)聚焦于與當(dāng)前指令最相關(guān)的部分,同時(shí)有效地管理可能包含敏感內(nèi)容的數(shù)據(jù)并保護(hù)隱私,是日益嚴(yán)峻的挑戰(zhàn)。
這些普適性挑戰(zhàn)共同指向了人機(jī)交互中“信任-透明-控制”這一核心三角關(guān)系。
我們需要告訴AI什么(U1-U3):讓AI聽懂我們的“心聲”
這類挑戰(zhàn)主要關(guān)注用戶如何才能有效地向智能體傳遞其意圖、偏好和反饋等關(guān)鍵信息。
U1:智能體應(yīng)該實(shí)現(xiàn)什么目標(biāo)?
核心問題:用戶需要清晰、無歧義地向AI表達(dá)他們的目標(biāo)和意圖。自然語(yǔ)言的模糊性和不精確性容易導(dǎo)致AI產(chǎn)生誤解,從而對(duì)目標(biāo)的理解出現(xiàn)偏差。這凸顯了在人將意圖傳遞給AI的過程中存在的“語(yǔ)義鴻溝”——人的意圖往往是微妙、隱含且依賴上下文的,而AI的理解則可能更為字面和受限。
U2:智能體應(yīng)該尊重哪些偏好?
核心問題:對(duì)于同一個(gè)高級(jí)目標(biāo),通常存在多種可行的實(shí)現(xiàn)路徑或解決方案。然而,基于用戶的個(gè)性化偏好、特定約束或“紅線”,某些方案會(huì)明顯更符合用戶預(yù)期。因此,挑戰(zhàn)的核心在于,用戶如何才能清晰、便捷地表達(dá)這些偏好,特別是那些與常規(guī)的規(guī)范或默認(rèn)設(shè)置有所不同的個(gè)性化需求。
U3:智能體下次應(yīng)該如何改進(jìn)?
核心問題:即便AI初步理解了用戶的目標(biāo)和偏好,它在執(zhí)行過程中仍有可能犯錯(cuò)或表現(xiàn)不佳。因此,用戶如何能夠有效地提供反饋,以引導(dǎo)AI的行為,幫助其從錯(cuò)誤中學(xué)習(xí)并持續(xù)改進(jìn)未來的表現(xiàn),就顯得至關(guān)重要。人機(jī)交互不僅是一次性的指令下達(dá),更是一個(gè)持續(xù)的、迭代的反饋與學(xué)習(xí)過程。
AI告訴我們什么(A1-A5):揭開AI的“內(nèi)心”與行動(dòng)面紗
A1:智能體能做什么?
核心問題:如果用戶不能充分了解智能體的具體能力范圍或其固有的局限性,他們就無法就何時(shí)以及如何最有效地利用其協(xié)助做出明智的決策,也無法在使用時(shí)建立合理的預(yù)期。
A2:智能體將要做什么?
核心問題:為了達(dá)成某個(gè)復(fù)雜目標(biāo),AI可能會(huì)自主規(guī)劃并分步執(zhí)行大量且耗時(shí)的動(dòng)作。在執(zhí)行這些動(dòng)作之前,特別是那些具有不可逆性、可能違反用戶偏好或涉及較高風(fēng)險(xiǎn)的動(dòng)作,AI應(yīng)如何以及何時(shí)向用戶清晰地溝通其行動(dòng)計(jì)劃,以獲取用戶的許可或修正反饋。
A3:智能體當(dāng)前正在做什么?
核心問題:當(dāng)AI處于行動(dòng)過程中時(shí),用戶如何能夠?qū)崟r(shí)理解它當(dāng)前正在執(zhí)行的具體操作,這些操作會(huì)產(chǎn)生什么即時(shí)影響,以及用戶是否應(yīng)該在必要時(shí)介入以調(diào)整或中止其活動(dòng)。該挑戰(zhàn)與A2的關(guān)鍵區(qū)別在于溝通的時(shí)間點(diǎn):A2關(guān)注行動(dòng)前的計(jì)劃溝通,而A3關(guān)注行動(dòng)執(zhí)行過程中的狀態(tài)同步。
A4:是否產(chǎn)生了任何副作用或環(huán)境變化?
核心問題:用戶如何能夠有效監(jiān)控AI對(duì)其所操作環(huán)境(例如本地磁盤文件、操作系統(tǒng)設(shè)置等)所做的關(guān)鍵更改,特別是那些可能帶來負(fù)面影響或違反社會(huì)規(guī)范的更改。隨著智能體對(duì)外部環(huán)境影響能力的增強(qiáng),AI不僅要完成任務(wù),還需要對(duì)其行為后果負(fù)責(zé),并主動(dòng)向用戶報(bào)告這些影響。
A5:目標(biāo)是否已達(dá)成?
核心問題:當(dāng)用戶向AI指定一個(gè)高級(jí)別的、可能較為抽象的目標(biāo),AI通過執(zhí)行一系列復(fù)雜的計(jì)劃來嘗試達(dá)成該目標(biāo)后,系統(tǒng)需要向用戶有效傳達(dá)相關(guān)信息,使得用戶能夠依據(jù)自己的標(biāo)準(zhǔn)和判斷依據(jù)來驗(yàn)證目標(biāo)是否已圓滿完成。
挑戰(zhàn)的總結(jié)
審視這12個(gè)挑戰(zhàn),可以清晰地發(fā)現(xiàn)它們并非孤立存在,而是相互交織、彼此影響。這種內(nèi)在的復(fù)雜聯(lián)系意味著,試圖解決這些挑戰(zhàn)的方案往往需要具備整體性和系統(tǒng)性的考量。
更進(jìn)一步看,雖然許多挑戰(zhàn)在傳統(tǒng)的人機(jī)交互(HCI)和AI研究領(lǐng)域早已被關(guān)注和提及,但生成式AI和工具型智能體的興起,無疑放大了這些挑戰(zhàn)的嚴(yán)峻性和復(fù)雜性。這些模型的“黑箱”特性、輸出結(jié)果的內(nèi)在隨機(jī)性以及其所具備的廣泛能力范圍,使得實(shí)現(xiàn)運(yùn)作過程的透明化和進(jìn)行有效的雙向溝通變得尤為困難。
當(dāng)問題的規(guī)模和性質(zhì)發(fā)生了根本性的轉(zhuǎn)變,原有HCI體系下的一些設(shè)計(jì)原則和解決方案可能已無法完全應(yīng)對(duì)當(dāng)前的需求,迫切需要新的設(shè)計(jì)模式和交互原則,而這也正是我們HAI(Human-AgentInteraction)所探究的核心議題。
預(yù)告
面對(duì)上述挑戰(zhàn),微軟研究院并未止步于理論分析,而是著手構(gòu)建了一個(gè)實(shí)驗(yàn)平臺(tái),為在真實(shí)環(huán)境中深入研究上述的12個(gè)關(guān)鍵挑戰(zhàn)提供了具體的載體和試驗(yàn)田。
那下一篇,我們來看看微軟是如何嘗試解題的。
參考文獻(xiàn)
GaganBansal,JenniferWortmanVaughan,SaleemaAmershi,EricHorvitz,AdamFourney,HusseinMozannar1,VictorDibia,andDanielS.Weld.“ChallengesinHuman-AgentCommunication”(2024)
題圖來自Unsplash,基于CC0協(xié)議
該文觀點(diǎn)僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺(tái)僅提供信息存儲(chǔ)空間服務(wù)
來源:紅網(wǎng)
作者:楊玉華
編輯:楊家源
本文為紅辣椒評(píng)論 原創(chuàng)文章,僅系作者個(gè)人觀點(diǎn),不代表紅網(wǎng)立場(chǎng)。轉(zhuǎn)載請(qǐng)附原文出處鏈接和本聲明。