陳人毓
大型模型不僅僅只有“語言”模型,它們正演變?yōu)槟軌蛲瑫r理解和處理多種信息類型(或稱“模態(tài)”)的“多模態(tài)模型”。這為產品設計開辟了全新的維度,也對提示詞工程提出了新的要求。
什么是多模態(tài)提示詞?
多模態(tài)提示詞是一種向AI模型下達的指令,其輸入包含兩種或兩種以上的數(shù)據類型。最常見的組合是文本和圖像。
但也可以擴展到視頻、音頻等多種模態(tài)的任意組合。
簡單示例:
用戶上傳一張卡通人物頭像,并附上文本提示詞:“把圖中女孩的衣服換成帶花朵圖案的短袖”
在這里,模型需要同時“看懂”圖片內容和“讀懂”文本指令,然后綜合兩種信息來生成回答。這種能力使得AI能夠解決遠比單一文本處理更復雜的現(xiàn)實世界問題。
如何撰寫多模態(tài)提示詞?
盡管輸入的數(shù)據類型增加了,但設計多模態(tài)提示詞的核心原則、技巧等與純文本提示詞一脈相承。
關鍵在于通過文本指令,精確地引導模型如何去理解和關聯(lián)不同模態(tài)的信息。
指令要極其具體:避免使用模糊的指令。
反例:“描述這張圖片。”附上一張機場航班信息屏的圖片。模型可能只會簡單回答“這是一張航班信息板”。
優(yōu)例:“請分析這張機場航班信息屏的圖片,并將所有航班號、目的地城市和計劃起飛時間提取出來,以JSON格式返回?!边@個指令明確告知模型要“看”什么,以及“如何”輸出結果。
使用少樣本示例:當需要模型輸出特定格式或風格時,提供包含多種模態(tài)的完整示例。
場景:你需要模型根據地標圖片,返回“城市:[城市名],地標:[地標名]”。
優(yōu)例:在提示詞中,先給出幾個范例,每個范例都包含一張圖片和對應的標準答案文本,如:(羅馬斗獸場圖片)->“city:Rome,landmark:theColosseum”。然后再附上新的待識別圖片,模型便會遵循這個格式進行輸出。
引導模型分步思考(思維鏈):對于需要復雜推理的視覺問答任務,引導模型分步思考可以顯著提高準確性。
場景:用戶上傳一張照片,里面有3卷衛(wèi)生紙,并提問“這些衛(wèi)生紙我能用多久?”
反例:直接提問可能得到一個模糊的答案,如“很快就會用完”。
優(yōu)例:將問題分解為指令:“請按以下步驟回答問題:
首先,數(shù)一下圖片里有幾卷衛(wèi)生紙。
其次,估算一個普通人平均每天使用多少衛(wèi)生紙。
最后,根據前兩步計算出這些衛(wèi)生紙大約能使用多長時間?!?/p>
這種方式引導模型進行了邏輯推理,而不是憑感覺猜測。
指定輸出格式:如果需要將模型的輸出用于下游的自動化流程,明確指定輸出格式(如JSON、Markdown、HTML)至關重要。
多模態(tài)提示詞設計面臨的常見問題及解決方案
設計多模態(tài)提示詞時,會遇到一些特有的挑戰(zhàn)。
挑戰(zhàn)一:提示詞不穩(wěn)定性
問題描述:多模態(tài)模型有時對文本提示詞的微小變化異常敏感。例如,稍微改變一下措辭,模型對同一張圖片的解讀就可能發(fā)生巨大變化。
原因:
這源于模型內部復雜的“嵌入空間”和“注意力機制”。相似的詞語在模型的向量表示中可能很接近,但句法結構的微小變化,就可能導致注意力權重在圖像和文本特征上產生截然不同的分布,從而激活了模型知識網絡中完全不同的部分,導致輸出結果大相徑庭。
解決方案:(這些方案也不一定有用,只能多嘗試)
強化結構:使用更明確、更結構化的提示詞(如使用XML標簽包裹指令),減少模糊性。
魯棒性測試:在測試階段,故意用幾種近義詞或不同句式來表達同一個指令,觀察模型輸出的穩(wěn)定性,并選擇最穩(wěn)健的提示詞版本。
數(shù)據增強訓練:在更高級的應用中,可以通過使用增強數(shù)據(如同義詞替換、句式變換)對模型進行額外訓練,以提升其對提示詞變化的抵抗力。
挑戰(zhàn)二:模型注意力失焦或理解模糊
問題描述:模型可能沒有關注到圖片中的關鍵區(qū)域,或者對用戶的真實意圖理解有偏差。例如,用戶想知道一包紙尿褲能用多久,模型卻錯誤地基于包裝上的某個數(shù)字(如“198片”)給出了一個離譜的答案。
原因:
圖像本身信息密度極大,而文本提示如果不夠精確,就無法為模型的“注意力”提供清晰的焦點。模型可能會被視覺上更顯著但不相關的特征(如包裝上的大號數(shù)字)所吸引。同時,對于需要常識推理的模糊問題(如“能用多久”),模型可能傾向于進行字面解讀或尋找最直接的數(shù)字關聯(lián),而非啟動復雜的多步推理。
解決方案:
分解任務:將模糊的、一步到位的提問,分解成一系列具體的、可驗證的子任務。對于紙尿褲的例子,可以指示模型:
識別包裝上的紙尿褲數(shù)量。
基于新生兒每天約用8-10片紙尿褲的常識。
計算這包紙尿褲能用幾天。
要求解釋:在提示詞中加入“請解釋你的推理過程”或“請說明你的答案是基于圖片的哪些信息得出的”。這不僅能暴露模型的錯誤邏輯,還能引導其進行更深入的思考。
挑戰(zhàn)三:高質量測試數(shù)據對齊困難
問題描述:創(chuàng)建用于評測和優(yōu)化的多模態(tài)數(shù)據集比純文本更具挑戰(zhàn)性,因為它需要確保不同模態(tài)數(shù)據間的精確對齊(例如,一張圖片需要配上一個準確、詳盡且無偏見的“標準答案”描述)。
原因:
這主要源于標注的“主觀性”和“高成本”。同一張圖片,從不同角度可以有多種“正確”的描述,其詳略、側重都不同,因此定義一個統(tǒng)一、客觀、無偏見的“標準答案”本身就極具挑戰(zhàn)。此外,為海量圖片進行高質量、精細化的文本標注,所需的人工成本和時間成本遠超純文本數(shù)據的處理。
解決方案(對產品和業(yè)務人員而言):
建立“黃金標準集”:在產品開發(fā)初期,不必追求大規(guī)模數(shù)據集。可以由領域專家或團隊成員共同創(chuàng)建并審核一個規(guī)模較?。ㄈ?0-50個案例)但質量高的“黃金標準”測試集。
人工審核為主:對于多模態(tài)輸出的評測,初期應以人工審核為主,對照黃金標準集進行評估。自動化評測工具可以作為輔助,但不能完全替代人類對視覺和語境細微之處的判斷。
案例:假設我們要評測一個AI模型的“商品描述生成”功能。
–輸入圖片:一張白色背景、角度略微俯視的“NikeAirForce1”運動鞋圖片。
–目標:模型能生成一段吸引人的、準確的商品描述。
–對齊挑戰(zhàn):
–標注A(事實派):“一雙白色的NikeAirForce1運動鞋,皮革材質,側面有Swoosh標志,白色鞋底?!?/p>
這個描述非??陀^,但缺乏營銷吸引力。
–標注B(營銷派):“經典永不過時!標志性的AirForce1,利落的皮革、大膽的配色和恰到好處的籃球風格,讓你成為焦點?!?/p>
這個描述很有吸引力,但可能忽略了一些具體的產品細節(jié)。
–標注C(細節(jié)控):“產品型號AF-1-007,男款,尺碼42。鞋面采用頭層牛皮,橡膠外底,鞋舌處有Nike品牌標簽,后跟處有刺繡Logo?!?/p>
這個描述非常詳盡,但對普通消費者來說可能過于技術化。
三個“標準答案”都是“正確”的,但風格和側重點完全不同。如果評測團隊不對標注標準達成高度一致,那么模型的輸出無論接近哪個版本,都可能被判定為“不準確”。這種不一致性使得自動化評測變得極為困難,也讓模型優(yōu)化的方向變得模糊不清。
谷歌針對Gemini的多模態(tài)提示故障排除策略
為了改進您的多模態(tài)提示,特別是當您未獲得所需結果時,可以嘗試以下幾種故障排除策略:
故障排除是哪一部分失敗
為了區(qū)分模型是未理解圖像(圖像理解)還是理解了圖像但推理步驟出錯(推理步驟),可以要求模型描述圖像中的內容。
另一種策略是要求模型解釋其推理過程。這有助于縮小問題范圍,找出推理中斷的部分。
將圖像置于文本提示之前(針對單圖像提示)
雖然Gemini模型可以按任意順序處理圖像和文本輸入,但對于包含單張圖像的提示,將圖像(或視頻)放在文本提示之前可能會獲得更好的性能。然而,如果提示需要圖像與文本高度交錯才能理解,則使用最自然的順序即可。
明確且具體地給出指令
為了獲得您想要的特定輸出,提示詞需要清晰和詳細,確保指令具體,并留下最小的誤解空間。
例如,僅僅要求模型“描述這張圖片”可能會得到一個通用描述。但如果您需要模型從圖片中解析時間和城市,您應在提示中直接提出這個請求,從而獲得更具體的列表。
多模態(tài)技術正在迅速演進,其架構(如統(tǒng)一嵌入、交叉注意力)和模型能力也在不斷變化。對產品和業(yè)務負責人而言,關鍵在于掌握上述核心設計原則,并保持對新技術趨勢的關注,從而能夠持續(xù)地將這些強大的多模態(tài)能力轉化為創(chuàng)新的產品功能。
我能替您拿到海怪的心臟 王子垂著頭 謙恭而又堅定地答道, “ 但我需要一樣東西作為報酬, 不知道您愿不愿意給 ” “ 什么報酬? ” “ 您的心。 ” 王子抬頭, 夕陽絢麗的紅在他的眼底燃燒。來源:紅網
作者:林鈞嬌
編輯:吳熙柔
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網立場。轉載請附原文出處鏈接和本聲明。