微軟在最新研究中提出了一系列關于人機交互的核心挑戰(zhàn):我們該如何理解AI的意圖?如何建立信任?又如何在不對稱的信息結構中實現高效協(xié)作?本文將深入解析這些挑戰(zhàn)背后的技術與認知邏輯,帶你重新審視“對話式AI”時代的人機關系邊界。
當前的智能體已不再是簡單的聊天機器人,而是能夠觀察環(huán)境、調用工具,并與其他智能體溝通以解決問題的復雜系統(tǒng),這種進化使其在廣泛任務中展現出巨大潛力。
然而,這種能力的躍升并非沒有代價。正如微軟研究院在發(fā)布的論文《人與智能體溝通中的挑戰(zhàn)》中指出的那樣,它們的復雜性和廣泛的失敗模式給人類與AI的交互帶來了新的挑戰(zhàn)。
本文將清晰易懂地剖析人與智能體溝通中的12個關鍵挑戰(zhàn)。
溝通的“雷區(qū)地圖”
在《人與智能體溝通中的挑戰(zhàn)》中,微軟的研究者們形象地繪制了一幅人與智能體溝通時可能遭遇的“雷區(qū)地圖”。
該框架借鑒了溝通理論中的“共同基礎”概念,將12個挑戰(zhàn)歸納為三大類:
1.普適性的人與智能體溝通難題(X1-X4):貫穿人與智能體交互始終的溝通障礙,具有普遍性。
2.用戶向智能體傳遞信息(U1-U3):核心在于如何確保AI準確無誤地理解用戶的意圖和需求。
3.智能體向用戶傳遞信息(A1-A5):核心在于AI如何清晰、有效地將自身狀態(tài)、行為和結果傳達給用戶。同時,這些挑戰(zhàn)還分布在溝通交互過程的“之前”、“之中”和“之后”三個不同階段。
我們在下表中詳細列出了12個關鍵挑戰(zhàn):
那接下來,對這些挑戰(zhàn)進行深入的分類探討。
12大挑戰(zhàn)解析
普適性難題(X1-X4):AI交互中揮之不去的“幽靈”
這些挑戰(zhàn)普遍存在于各類人與智能體的溝通場景中,是設計任何AI交互系統(tǒng)時都需要面對的基礎性問題。它們共同構成了建立用戶信任、確保交互透明以及實現有效控制的基礎。
X1:智能體應如何幫助用戶驗證其行為?
核心問題:智能體在處理復雜任務時,出現失誤在所難免。因此,用戶需要有效的方法來確認智能體是否準確理解了指令,以及智能體正在執(zhí)行或計劃執(zhí)行的動作是否真正符合其預期。
X2:智能體應如何傳達一致的行為?
核心問題:AI行為的不一致性(或用戶感知到的不一致性)會逐步侵蝕用戶的信任度。這種不一致可能源于AI與環(huán)境或其他智能體交互所產生的復雜動態(tài),或是AI的行為模式與用戶的心智模型不相符等。
X3:智能體應如何選擇合適的細節(jié)詳略程度?
核心問題:如何在確保用戶能夠驗證智能體行為、避免混淆與防止因信息過多導致用戶認知負擔之間尋求微妙的平衡。
X4:智能體在溝通時應考慮哪些過去的交互?
核心問題:智能體如何有效利用豐富的歷史交互數據,來優(yōu)化當前的溝通。確保智能體能夠精準聚焦于與當前指令最相關的部分,同時有效地管理可能包含敏感內容的數據并保護隱私,是日益嚴峻的挑戰(zhàn)。
這些普適性挑戰(zhàn)共同指向了人機交互中“信任-透明-控制”這一核心三角關系。
我們需要告訴AI什么(U1-U3):讓AI聽懂我們的“心聲”
這類挑戰(zhàn)主要關注用戶如何才能有效地向智能體傳遞其意圖、偏好和反饋等關鍵信息。
U1:智能體應該實現什么目標?
核心問題:用戶需要清晰、無歧義地向AI表達他們的目標和意圖。自然語言的模糊性和不精確性容易導致AI產生誤解,從而對目標的理解出現偏差。這凸顯了在人將意圖傳遞給AI的過程中存在的“語義鴻溝”——人的意圖往往是微妙、隱含且依賴上下文的,而AI的理解則可能更為字面和受限。
U2:智能體應該尊重哪些偏好?
核心問題:對于同一個高級目標,通常存在多種可行的實現路徑或解決方案。然而,基于用戶的個性化偏好、特定約束或“紅線”,某些方案會明顯更符合用戶預期。因此,挑戰(zhàn)的核心在于,用戶如何才能清晰、便捷地表達這些偏好,特別是那些與常規(guī)的規(guī)范或默認設置有所不同的個性化需求。
U3:智能體下次應該如何改進?
核心問題:即便AI初步理解了用戶的目標和偏好,它在執(zhí)行過程中仍有可能犯錯或表現不佳。因此,用戶如何能夠有效地提供反饋,以引導AI的行為,幫助其從錯誤中學習并持續(xù)改進未來的表現,就顯得至關重要。人機交互不僅是一次性的指令下達,更是一個持續(xù)的、迭代的反饋與學習過程。
AI告訴我們什么(A1-A5):揭開AI的“內心”與行動面紗
A1:智能體能做什么?
核心問題:如果用戶不能充分了解智能體的具體能力范圍或其固有的局限性,他們就無法就何時以及如何最有效地利用其協(xié)助做出明智的決策,也無法在使用時建立合理的預期。
A2:智能體將要做什么?
核心問題:為了達成某個復雜目標,AI可能會自主規(guī)劃并分步執(zhí)行大量且耗時的動作。在執(zhí)行這些動作之前,特別是那些具有不可逆性、可能違反用戶偏好或涉及較高風險的動作,AI應如何以及何時向用戶清晰地溝通其行動計劃,以獲取用戶的許可或修正反饋。
A3:智能體當前正在做什么?
核心問題:當AI處于行動過程中時,用戶如何能夠實時理解它當前正在執(zhí)行的具體操作,這些操作會產生什么即時影響,以及用戶是否應該在必要時介入以調整或中止其活動。該挑戰(zhàn)與A2的關鍵區(qū)別在于溝通的時間點:A2關注行動前的計劃溝通,而A3關注行動執(zhí)行過程中的狀態(tài)同步。
A4:是否產生了任何副作用或環(huán)境變化?
核心問題:用戶如何能夠有效監(jiān)控AI對其所操作環(huán)境(例如本地磁盤文件、操作系統(tǒng)設置等)所做的關鍵更改,特別是那些可能帶來負面影響或違反社會規(guī)范的更改。隨著智能體對外部環(huán)境影響能力的增強,AI不僅要完成任務,還需要對其行為后果負責,并主動向用戶報告這些影響。
A5:目標是否已達成?
核心問題:當用戶向AI指定一個高級別的、可能較為抽象的目標,AI通過執(zhí)行一系列復雜的計劃來嘗試達成該目標后,系統(tǒng)需要向用戶有效傳達相關信息,使得用戶能夠依據自己的標準和判斷依據來驗證目標是否已圓滿完成。
挑戰(zhàn)的總結
審視這12個挑戰(zhàn),可以清晰地發(fā)現它們并非孤立存在,而是相互交織、彼此影響。這種內在的復雜聯(lián)系意味著,試圖解決這些挑戰(zhàn)的方案往往需要具備整體性和系統(tǒng)性的考量。
更進一步看,雖然許多挑戰(zhàn)在傳統(tǒng)的人機交互(HCI)和AI研究領域早已被關注和提及,但生成式AI和工具型智能體的興起,無疑放大了這些挑戰(zhàn)的嚴峻性和復雜性。這些模型的“黑箱”特性、輸出結果的內在隨機性以及其所具備的廣泛能力范圍,使得實現運作過程的透明化和進行有效的雙向溝通變得尤為困難。
當問題的規(guī)模和性質發(fā)生了根本性的轉變,原有HCI體系下的一些設計原則和解決方案可能已無法完全應對當前的需求,迫切需要新的設計模式和交互原則,而這也正是我們HAI(Human-AgentInteraction)所探究的核心議題。
預告
面對上述挑戰(zhàn),微軟研究院并未止步于理論分析,而是著手構建了一個實驗平臺,為在真實環(huán)境中深入研究上述的12個關鍵挑戰(zhàn)提供了具體的載體和試驗田。
那下一篇,我們來看看微軟是如何嘗試解題的。
參考文獻
GaganBansal,JenniferWortmanVaughan,SaleemaAmershi,EricHorvitz,AdamFourney,HusseinMozannar1,VictorDibia,andDanielS.Weld.“ChallengesinHuman-AgentCommunication”(2024)
題圖來自Unsplash,基于CC0協(xié)議
該文觀點僅代表作者本人,人人都是產品經理平臺僅提供信息存儲空間服務
讓人淪陷的口碑好書,《卻道尋常》折服書迷,吹爆??男生小說研究所
《卻道尋常》 作者:三兩才氣內容簡介:有人說這天下亂了,不如跨坐城南橫刀等死_。但這江湖乾坤未定,誰又能說你我只是看客?(點擊下方免費閱讀)《不滅神王》 作者:觀棋內容簡介:王可到了外星球,這里正道、魔道為了各自理念而大戰(zhàn),王可卻只想撈錢,更摳門的讓正魔兩道敵人絕望,不停的咒罵他是一個大騙子。王可本來只想撈夠 三本讀者評選的古典仙俠高人氣小說,《卻道尋常》入選《大炎不良人》 作者:鬼締內容簡介:曾經是天才少年許一凡死于極夜之時,卻意外的來到了一個新的世界,他起初只為茍活,然,樹欲靜而風不止,在歷史的洪流下又豈能獨善其身?修行、探案、抄書背詩、撩妹養(yǎng)魚、領兵打仗說完了。唱徹良人淚未干,功名馀事說完了——。近期爆款白金小說《卻道尋?!?被安排的明明白白