IT之家7月10日消息,隨著生成式人工智能(AI)技術(shù)不斷演進,其應(yīng)用場景已從早期的簡單問答擴展到更復(fù)雜的任務(wù)。然而,對于缺乏技術(shù)背景的用戶而言,如何高效、準(zhǔn)確地使用這些AI工具,正變得越來越具有挑戰(zhàn)性。
一份獨立報告顯示,微軟AI部門收到的用戶投訴中,最常見的一條是“Copilot不如ChatGPT好用”。對此,微軟迅速回應(yīng),將問題歸咎于用戶“提示詞工程能力不佳”。為改善用戶體驗,微軟還推出了“Copilot學(xué)院”,幫助用戶提升AI使用技能。
該研究指出,過度依賴AI工具獲取醫(yī)療建議可能帶來危險。更令人擔(dān)憂的是,如果用戶在提問時出現(xiàn)拼寫錯誤(如單詞拼錯或多余空格),AI可能會因此建議用戶無需就醫(yī)。此外,使用花哨語言或俚語也可能導(dǎo)致AI判斷失誤。
研究還發(fā)現(xiàn),女性用戶比男性更容易受到此類錯誤建議的影響,盡管這一結(jié)論仍需進一步驗證。
此次研究涵蓋了多個AI工具,包括OpenAI的GPT-4、Meta的LLaMA-3-70B,以及一款名為Palmyra-Med的醫(yī)療專用AI。研究人員模擬了數(shù)千個健康案例,數(shù)據(jù)來源包括真實患者投訴、Reddit上的健康相關(guān)帖子,以及AI生成的病例。
為測試AI的穩(wěn)定性,研究人員在數(shù)據(jù)中加入了“擾動因素”,如句子首字母大小寫不一致、感嘆號、情緒化語言,以及“可能”“大概”等不確定表達。結(jié)果顯示,這些擾動使AI建議用戶“無需就醫(yī)”的概率上升了7%至9%。
研究負(fù)責(zé)人、MIT研究員阿比尼塔?古拉巴蒂娜(AbinithaGourabathina)指出:“這些模型通常是在醫(yī)學(xué)考試題目上訓(xùn)練和測試的,但實際應(yīng)用場景卻相差甚遠(yuǎn),比如評估臨床病例的嚴(yán)重程度。我們對大語言模型的理解仍然非常有限?!?/p>
這一研究結(jié)果引發(fā)了對AI在醫(yī)療領(lǐng)域應(yīng)用的廣泛擔(dān)憂。值得注意的是,就在不久前,微軟剛剛宣布其新推出的AI醫(yī)療工具“準(zhǔn)確率是人類醫(yī)生的4倍,成本卻低20%”。微軟AI首席執(zhí)行官甚至稱其為“邁向醫(yī)療超級智能的真正一步”。
然而,這項研究再次提醒我們,生成式AI在醫(yī)療等高度復(fù)雜的領(lǐng)域仍遠(yuǎn)未達到完全可靠的水平。盡管技術(shù)發(fā)展迅速,但在真正投入使用前,仍需更多驗證與審慎評估。
免責(zé)聲明:本文內(nèi)容由開放的智能模型自動生成,僅供參考。