大模型的風口已至,但評估卻始終是一道“看不清又繞不過”的門檻。本篇文章將從基礎概念出發(fā),手把手引導初學者理解大模型評估的核心邏輯與方法體系,厘清技術(shù)指標背后的實際含義,為后續(xù)深入探索打下堅實的認知地基。
OpenAI的首席產(chǎn)品官(CPO)KevinWeil在一次播客訪談中提到:“編寫評估將成為AI產(chǎn)品經(jīng)理的一項核心技能。這是用AI打造優(yōu)秀產(chǎn)品的關(guān)鍵一環(huán)”
Anthropic的CPOMikeKrieger在與Weil的對談中同樣強調(diào),產(chǎn)品領導者必須開發(fā)出色的評估指標,以準確衡量AI模型的能力和產(chǎn)品的成功。
這些觀點將“大模型評估”的地位從一個單純的測試環(huán)節(jié),提升到了與產(chǎn)品管理、用戶體驗設計同等重要的戰(zhàn)略高度。
基于這樣的背景,本文專為所有從事大語言模型(LLM)相關(guān)產(chǎn)品工作的從業(yè)人員(從產(chǎn)品經(jīng)理到開發(fā)和測試人員)而寫,旨在提供一份清晰易懂的“LLM評估入門指南”。
這篇文章將用通俗易懂的方式,講解評估LLM應用的基礎知識。只要你對如何在產(chǎn)品中應用LLM有基本了解,就能輕松上手。
本文涵蓋以下內(nèi)容:
評估LLM與評估LLM產(chǎn)品,兩者有何不同?
從人工標注到自動化評估,有哪些主流的評估方法?
從產(chǎn)品實驗到持續(xù)監(jiān)控,何時需要進行LLM評估?
我們將聚焦于評估的核心原則與工作流程。所謂LLM評估(evals),就是評價模型的性能,確保其輸出結(jié)果準確、安全,并能滿足用戶需求。
模型評估:側(cè)重于模型的基礎能力,如編碼、翻譯、數(shù)學解題等,通常用標準化的基準(benchmark)來衡量。
LLM產(chǎn)品評估:側(cè)重于評估整個LLM應用系統(tǒng)在其特定任務上的表現(xiàn),會同時使用人工和自動化方法。
在具體方法上,評估可以由領域?qū)<一驅(qū)徍藛T人工進行,也可以自動化進行。
自動化評估又分為兩類:
一類是有參考評估,在實驗或測試中,將模型輸出與標準答案進行比對;
另一類是無參考評估,直接評價輸出內(nèi)容的質(zhì)量,常用于生產(chǎn)環(huán)境的監(jiān)控和安全防護。在眾多方法中,“LLM作評判”(LLM-as-a-judge)是目前非常流行的一種。
在深入探討評估之前,先明確一下評估的對象。
什么是LLM產(chǎn)品?
LLM產(chǎn)品,或稱LLM應用,是指將大語言模型(LLM)作為其核心功能一部分的產(chǎn)品。
這些產(chǎn)品形態(tài)各異,既可以是面向用戶的客服聊天機器人,也可以是公司內(nèi)部使用的營銷文案生成器??梢詫LM功能嵌入現(xiàn)有軟件,比如讓用戶通過自然語言查詢數(shù)據(jù);也可以完全圍繞LLM打造一個全新的應用,比如對話式AI助手。
以下是一些實際案例:
構(gòu)建一個由LLM驅(qū)動的客服聊天機器人。
為數(shù)字銷售代理開發(fā)了一款AI助手。
幫助數(shù)據(jù)分析師用自然語言編寫SQL查詢。
檢測用戶評論中的不當言論。
從非結(jié)構(gòu)化的招聘廣告中提取關(guān)鍵崗位信息。
這些應用都依賴于LLM,LLM本身是基于海量數(shù)據(jù)訓練出的模型,能通過指令提示(Prompt)處理各種任務,如內(nèi)容創(chuàng)作、信息提取、代碼生成、翻譯或進行完整對話。
有些任務,比如生成一句產(chǎn)品描述,可能一個提示就足夠了。但大多數(shù)LLM應用會更復雜??赡軙⒍鄠€提示串聯(lián)起來,形成一個“提示鏈(promptchain)”,例如在一個寫作助手中,先生成文案,再調(diào)整風格。
檢索增強生成(RAG)是一種非常流行的LLM應用類型。這個名字聽起來復雜,但概念很簡單:將LLM與搜索技術(shù)相結(jié)合。當用戶提問時,系統(tǒng)首先檢索相關(guān)資料,然后將問題和這些資料一并交給LLM,從而生成更精準的答案。例如,一個基于RAG的客服機器人可以從幫助中心數(shù)據(jù)庫里查找信息,并在回復中附上相關(guān)文章的鏈接。
此外,還可以創(chuàng)建LLM驅(qū)動的智能代理(Agent),讓它自動化處理需要按步驟推理的復雜工作流,比如修改代碼、規(guī)劃并預訂一次旅行。智能代理不僅能生成文本,還能使用提供的工具,例如查詢數(shù)據(jù)庫或發(fā)送會議邀請。一個復雜的代理系統(tǒng)可能涉及多步規(guī)劃、數(shù)十個提示以及用于追蹤進度的“記憶”功能。
在開發(fā)這些LLM應用的過程中,我們總會問自己:
產(chǎn)品運行得怎么樣?
能處理好我預想的所有場景嗎?
還有哪些地方可以改進?
要回答這些問題,就需要進行LLM評估。
什么是LLM評估?
LLM評估(簡稱“evals”)旨在評價大語言模型的性能,確保其輸出結(jié)果準確、安全,并符合用戶需求。
這個術(shù)語通常用于兩種不同的情境:
評估模型本身。
評估基于LLM構(gòu)建的應用系統(tǒng)。
盡管兩種評估在方法上有所重疊,但它們的本質(zhì)截然不同。
1.模型評估
直接評估大模型時,我們關(guān)注的是它的“原始”能力,比如編碼、翻譯或解數(shù)學題。研究人員通常使用標準化的基準測試(Benchmark)來完成這項工作。例如,他們可能會評估:
模型對歷史事實的掌握程度。
模型的邏輯推理能力。
模型如何應對不安全或?qū)剐缘奶釂枴?/p>
目前已有數(shù)百個LLM基準,每個都有自己獨特的測試集。大多數(shù)基準包含有標準答案的問題,評估過程就是看模型的回答與標準答案的匹配度。有些基準則采用更復雜的方法,比如通過眾包對模型的回答進行排序。
LLM基準可以直觀地比較不同模型。許多公開的排行榜會展示各個LLM在基準上的表現(xiàn),幫助回答“哪個開源LLM更擅長編碼?”這類問題。
盡管LLM基準在選型和追蹤行業(yè)進展時很有用,但它們并不太適合用來評估一個具體的應用。
因為基準測試的是通用能力,而不是應用需要處理的特定場景。同時,它們只關(guān)注LLM本身,而一個完整的產(chǎn)品還包含其他部分。
2.產(chǎn)品評估
LLM產(chǎn)品評估,評估的是整個系統(tǒng)在其特定任務上的表現(xiàn)。
這不僅包括LLM,還包括所有其他部分:提示、將它們連接起來的邏輯、用于增強回答效果的知識庫等等。還可以在更貼近真實場景的數(shù)據(jù)上進行測試,比如使用真實的客戶支持問題。
這類應用層面的評估通常關(guān)注兩大方面:
能力(Capability):產(chǎn)品是否能很好地完成預定任務?
風險(Risk):它的輸出是否可能帶來危害?
具體的評估標準因應用場景而異?!昂谩迸c“壞”的定義取決于具體用途。比如要開發(fā)一個問答系統(tǒng),可能需要評估:
正確性:回答是否基于事實,沒有捏造內(nèi)容(即“幻覺”)?
幫助性:回答是否完整地解決了用戶的問題?
文本風格:語氣是否清晰、專業(yè),并符合品牌風格?
格式:回復是否滿足長度限制,或者是否總是附上信息來源鏈接?
在安全方面,可能需要測試問答系統(tǒng)是否會產(chǎn)生有偏見或有害的輸出,以及在受到誘導時是否會泄露敏感數(shù)據(jù)。
在設計評估方案時,需要根據(jù)應用的目標、風險和已發(fā)現(xiàn)的錯誤類型來確定評估標準。這些評估應該能真正幫助我們做決策,比如:新的提示效果更好嗎?應用可以上線了嗎?
以“流暢性”或“連貫性”這類標準為例,大多數(shù)現(xiàn)代LLM在生成通順自然的文本方面已經(jīng)做得很好。一個完美的流暢性得分在報告上可能很好看,但并不能提供太多有效信息。
不過如果使用的是一個能力較弱的小型本地模型,那么測試流暢性可能就很有必要。
即使是評估標準也并非放之四海而皆準。在多數(shù)情況下,事實準確性至關(guān)重要。但如果開發(fā)的是一個用于頭腦風暴、構(gòu)思營銷創(chuàng)意的工具,那么“天馬行空”或許正是用戶想要的。在這種情況下,我們更關(guān)心的可能是輸出的多樣性和創(chuàng)造力,而不是事實準確性。
這就是LLM產(chǎn)品評估與基準測試的核心區(qū)別。基準測試像學??荚?,衡量的是通用技能;而LLM產(chǎn)品評估更像是工作績效考核,檢驗的是系統(tǒng)在它所“受雇”的特定崗位上是否表現(xiàn)出色。
核心要點:每個LLM應用都需要一套量身定制的評估框架。
評估標準既要有用(關(guān)注真正重要的問題),又要有區(qū)分度(能有效反映不同版本間的性能差異)。
為什么LLM評估如此困難?
LLM評估之所以復雜,不僅因為質(zhì)量標準是定制的,還因為其評估方法本身就不同于傳統(tǒng)的軟件測試和機器學習。
1)輸出的非確定性:LLM的輸出是概率性的,這意味著對于同一個輸入,它每次可能給出不同的回答。這雖然帶來了創(chuàng)造性和多樣性,但也讓測試變得復雜:必須檢查一系列可能的輸出是否都符合預期。
2)沒有唯一的標準答案:傳統(tǒng)的機器學習系統(tǒng)(如分類器、推薦系統(tǒng))處理的是預定義好的輸出。例如,一封郵件要么是垃圾郵件,要么不是。但LLM通常處理的是開放式任務,比如寫郵件或進行對話,這些任務存在多個合理的答案。例如,寫一封好郵件的方式有無數(shù)種。這意味著不能簡單地將模型輸出與某個參考答案進行精確匹配,而是需要評估模糊的相似性或主觀質(zhì)量,如風格、語氣和安全性。
3)輸入范圍極其廣泛:LLM產(chǎn)品通常要應對各種各樣的用戶輸入。例如,一個客服機器人可能要回答關(guān)于產(chǎn)品、退貨的咨詢,或幫助解決賬戶問題。需要基于不同場景進行測試,才能覆蓋所有預期的輸入。如何創(chuàng)建一個高質(zhì)量的評估數(shù)據(jù)集本身就是一個不小的挑戰(zhàn)。
4)線上線下表現(xiàn)不一:更重要的是,在測試中表現(xiàn)良好的系統(tǒng),在實際應用中不一定同樣出色。真實用戶可能會向系統(tǒng)拋出各種意想不到的輸入,完全超出計劃。為了應對這種情況,需要有辦法在生產(chǎn)環(huán)境中觀察和評估線上質(zhì)量。
5)獨特的風險:使用這種基于自然語言指令的概率性系統(tǒng),會帶來一些新型的風險,包括:
幻覺(Hallucination):系統(tǒng)可能生成虛假或誤導性的信息,比如編造一個不存在的產(chǎn)品。
越獄(Jailbreaking):惡意用戶可能試圖繞過安全限制,誘導模型產(chǎn)生有害或不當?shù)幕卮稹?/p>
數(shù)據(jù)泄露(DataLeakage):LLM可能無意中泄露其訓練數(shù)據(jù)或所連接系統(tǒng)中的敏感信息。
需要一個完善的評估流程來應對所有這些挑戰(zhàn):對系統(tǒng)進行壓力測試,發(fā)現(xiàn)其弱點,并監(jiān)控其實際表現(xiàn)。
LLM評估方法
LLM評估通常發(fā)生在兩個關(guān)鍵階段:部署前和發(fā)布后。
在開發(fā)階段,需要檢驗應用在迭代過程中是否足夠好。一旦上線,就需要監(jiān)控它的實際運行情況。無論哪個階段,評估都始于數(shù)據(jù)。
測試數(shù)據(jù):用于模擬LLM可能遇到的各種場景的樣本輸入??梢允謩泳帉憸y試用例,也可以利用模型合成,或是從早期用戶那里收集。有了這些輸入,就可以測試的LLM應用如何響應,并根據(jù)成功標準來評估其輸出。
生產(chǎn)數(shù)據(jù):應用上線后,一切都取決于它在真實用戶中的表現(xiàn)。需要捕獲系統(tǒng)的輸入和輸出,并對線上數(shù)據(jù)進行持續(xù)的質(zhì)量評估,以及時發(fā)現(xiàn)問題。
無論是在測試還是生產(chǎn)環(huán)境,都可以選擇人工評估和自動評估。
1.人工評估
最開始,我們可以做一些簡單的“直覺檢查”,問自己:“這些回答看起來對嗎?”
在創(chuàng)建第一個版本的提示或RAG系統(tǒng)后,可以輸入幾個樣本問題,然后肉眼檢查回答。如果結(jié)果偏差太大,就調(diào)整提示或修改方法。即使在這個非正式的階段,也需要準備一些測試用例。例如,為客服機器人準備幾個有標準答案的示例問題。每次做出修改后,都重新評估系統(tǒng)處理這些問題的效果。
雖然這種方法能幫我們快速發(fā)現(xiàn)問題并激發(fā)新的想法,但它并不可靠,也無法重復。隨著開發(fā)的深入,需要更有條理的方法——包括一致的評分標準和詳細的結(jié)果記錄。
一種更嚴謹?shù)乩萌祟悓I(yè)知識的方法是標注(Annotation):建立一個正式的工作流程,讓測試人員根據(jù)預設的指南來評估回答。
他們可以給出“通過/失敗”這樣的二元標簽,也可以評估特定維度,比如檢索到的上下文是否“相關(guān)”,或回答是否“安全”。還可以要求審核員簡要說明他們的判斷依據(jù)。
為了讓標注過程高效且一致,必須提供清晰的指南,例如要求測試人員專門尋找某些類型的錯誤。也可以讓多個人評估同一個樣本,以發(fā)現(xiàn)和解決意見分歧。
人工評估是判斷LLM應用是否正常工作的最可靠的方法。作為產(chǎn)品構(gòu)建者,最清楚在應用場景中,“成功”意味著什么。在醫(yī)療等高度專業(yè)化的領域,可能還需要引入領域?qū)<襾磔o助判斷。
盡管人工評估價值巨大,但成本高。不可能每次修改提示都去人工審查成千上萬個輸出。要實現(xiàn)規(guī)?;托枰詣踊?。
2.自動化評估
自動化評估主要分為兩種類型:
有標準答案(基于參考):將LLM的輸出與一個預設的參考答案進行比較。
沒有標準答案(無參考):直接為模型的回答分配一個量化分數(shù)或標簽。
有標準答案的評估
這類評估依賴于預先定義好的正確答案——通常被稱為“參考答案”、“基準答案(groundtruth)”或“黃金答案(golden)”。
例如,在一個客服系統(tǒng)中,對于問題“們的退貨政策是什么?”,參考答案可能是“您可以在30天內(nèi)退貨?!笨梢詫⒘奶鞕C器人的實際輸出與這個已知答案進行比較,以評估其正確性。
這類評估本質(zhì)上是離線的。通常在迭代應用或?qū)⑿掳姹静渴鸬缴a(chǎn)環(huán)境之前運行這些測試。
要使用此方法,首先需要一個評估數(shù)據(jù)集:一個包含樣本輸入及其對應標準答案的集合??梢宰约荷蛇@樣的數(shù)據(jù)集,也可以從歷史日志中整理,比如使用人工客服過去的回答。這些用例越能反映真實世界,的評估就越可靠。
數(shù)據(jù)集準備好后,自動化評估的流程如下:
輸入測試樣本。
從系統(tǒng)中生成回答。
將新生成的回答與參考答案進行比較。
計算整體的質(zhì)量分數(shù)。
這里的難點在于第三步:如何比較回答與參考答案?
精確匹配:看新回答是否與參考答案一字不差。但通常過于嚴格,在開放式場景中,不同的措辭可以表達相同的意思。
為了解決這個問題,可以使用其他方法,比如量化兩個回答之間的詞語重疊度,使用嵌入(embedding)來比較語義,甚至可以請求另一個LLM來判斷它們是否匹配。
以下是一些常見的匹配方法:
在判斷單個回答的正確性后,就可以分析系統(tǒng)在整個測試集上的整體表現(xiàn)了。
如果LLM被用于預測任務,則可以使用經(jīng)典的機器學習質(zhì)量指標。
3.沒有標準答案的評估
然而,并非所有場景都有標準答案。對于復雜、開放式的任務或多輪對話,很難定義一個唯一的“正確”回答。在生產(chǎn)環(huán)境中,更沒有完美的參考答案:評估的是實時傳入的未知輸出。
此時,可以進行無參考的LLM評估。它們不將輸出與固定答案比較,而是直接評估輸出的特定質(zhì)量,如結(jié)構(gòu)、語氣或含義。
一種方法是使用LLM作為評判者(LLM-as-a-Judge),即利用另一個語言模型,根據(jù)一套規(guī)則來為輸出打分。例如,LLM評判者可以評估聊天機器人的回答是否完整,或者輸出的語氣是否一致。
但這也不是唯一的選擇,以下是一些常見方法:
這些無參考的評估方法既可以在迭代開發(fā)期間使用(例如,優(yōu)化輸出的語氣或格式時),也可以用于監(jiān)控生產(chǎn)環(huán)境的性能。
雖然在這種情況下無需標注標準答案,但仍需做一些前期工作,重點在于:
策劃多樣化的測試輸入。
精心設計和調(diào)優(yōu)大模型評估器。
LLM評估的應用場景
總而言之,所有LLM評估都遵循相似的結(jié)構(gòu):
1.明確構(gòu)建的目標或任務。
2.根據(jù)特定標準/指標評估輸出。
3.收集和創(chuàng)建評估數(shù)據(jù)集(測試或生產(chǎn)數(shù)據(jù))。
4.決定評估方法(人工、自動或混合)。
確定任務
設計指標
整理數(shù)據(jù)
選擇方法
觀察結(jié)果
做出調(diào)整
以下是LLM產(chǎn)品生命周期中的一些常見評估場景:
1.對比實驗
(為AI產(chǎn)品選擇最佳的模型、提示或配置。)
項目剛開始時,第一步通常是進行模型對比??梢圆榭磁判邪?,挑選幾個候選LLM,并用真實數(shù)據(jù)測試它們。另一個常見的比較任務是找到最佳提示(PromptEngineering)。
“用簡單的話解釋”和“寫一個總結(jié)摘要”,哪個效果更好?
如果把任務分解成多個步驟,效果會怎樣?
如果在提示里加入一些期望風格的例子呢?
微小的調(diào)整往往會帶來巨大的差異,因此在數(shù)據(jù)集上系統(tǒng)地測試每個版本至關(guān)重要。
每次更改都是一個新的實驗,需要LLM評估來比較它們的結(jié)果。這意味著我們需要一個精心策劃的測試數(shù)據(jù)集和自動化的性能衡量方法。
可以同時使用有參考的評估方法(如與理想摘要比較)和無參考的評估方法(如檢查所有輸出是否遵循設定格式)。
在嘗試復雜方案之前,先試試簡單的方法,這為評估提供了一個明確的衡量進展的起點。
2.壓力測試
(通過評估產(chǎn)品在各種場景下的表現(xiàn),檢查它是否為實際使用做好了準備。)
當模型和提示策略基本確定后,就該進行更徹底的測試了。我們構(gòu)建的系統(tǒng)可能在十幾個測試用例上運行良好,但幾百個、幾千個呢?
這意味著要添加更多的測試用例,既要覆蓋常見的場景,也要考察系統(tǒng)如何處理更棘手的邊緣情況(EdgeCases)。
如果輸入只有一個詞怎么辦?如果太長了呢?
如果是另一種語言或錯別字呢?
系統(tǒng)如何處理它不應涉及的敏感話題?
設計這些測試需要深入了解用戶如何與產(chǎn)品互動。最終,為每個主題或場景都建立一套評估方案。
從技術(shù)上講,壓力測試與對比實驗沒有太大區(qū)別。
區(qū)別在于重點:不是在探索哪個選項更好,而是在檢查當前版本的產(chǎn)品是否足夠健壯,能否應對用戶可能拋出的各種問題。
3.紅隊測試
(測試系統(tǒng)如何響應對抗性行為或惡意使用。)
紅隊測試是一種模擬攻擊的測試技術(shù),例如通過提示注入(PromptInjection)等方式,發(fā)現(xiàn)系統(tǒng)中的漏洞。這是評估高風險應用安全性的關(guān)鍵步驟。
壓力測試關(guān)注的是有挑戰(zhàn)性但合理的場景,而紅隊測試則專門針對濫用。它尋找的是惡意行為者可能利用系統(tǒng)、將其推向不安全或意外行為(如提供有害建議)的方法。
例如,對于一個醫(yī)療聊天機器人,測試它如何安全地處理醫(yī)療問題屬于其核心功能范圍。但對于一個通用的問答機器人,醫(yī)療、金融或法律問題就超出了其預期用途,可被視為對抗性輸入。
紅隊測試可以手動進行,也可以通過合成數(shù)據(jù)和有針對性的提示來自動化地模擬各種風險。
4.生產(chǎn)環(huán)境可觀察性
(了解系統(tǒng)的實時性能,以便檢測和解決問題。)
離線評估終究有限,當產(chǎn)品面向真實用戶后,需要了解它在實際使用中的表現(xiàn)。這就引出了生產(chǎn)環(huán)境可觀察性(Observability)。
一旦產(chǎn)品上線,就需要追蹤其性能。
用戶體驗好嗎?回答是否準確、安全?
可以從追蹤用戶行為開始,比如收集點擊率或點贊/點踩等反饋。
但要獲得更深入的洞察,需要追蹤用戶提出的問題以及系統(tǒng)如何響應。這就需要收集跟蹤記錄所有交互的詳細日志。
有了這些日志,就可以通過在線評估來評價生產(chǎn)環(huán)境中的質(zhì)量??梢允褂脽o參考的評估方法(如LLM作評判、專用模型或正則表達式)自動處理每個新輸出,看它們在特定標準下得分如何。
還可以通過A/B測試來檢驗改動效果。例如,將新提示部署給10%的用戶,并比較性能指標,看它是否提升了質(zhì)量。
5.回歸測試
(測試新的改動是否在改進系統(tǒng)的同時,沒有破壞以前正常工作的功能。)
即使產(chǎn)品已經(jīng)上線,仍然需要離線評估來運行回歸測試。它能驗證所做的更改沒有引入新的(或舊的)問題。
修復一個問題后,會不會影響其他功能?
微調(diào)一個提示后,有多少以前的輸出會改變?這些改變是好是壞?
系統(tǒng)化的回歸測試可以讓我們更安全地在現(xiàn)有系統(tǒng)之上進行迭代,確保在做出改進的同時,沒有引入新的問題。
6.安全護欄
(在運行時檢查,檢測LLM輸入或輸出中的質(zhì)量問題。)
大模型驅(qū)動的產(chǎn)品,在輸入和輸出的過程中,有時需要立即發(fā)現(xiàn)危險的信息并過濾或阻攔。這些實時的驗證被稱為安全護欄(Guardrails),充當系統(tǒng)響應和用戶之間的安全網(wǎng)。
從內(nèi)部看,這些檢查與無參考評估相同,但它們被直接內(nèi)置到應用中并實時運行。例如,可以檢查:
輸入:檢測有問題的查詢,如關(guān)于禁用主題或包含有害語言的問題。
輸出:檢測響應是否包含個人身份信息或敏感信息。
當檢測到問題時,系統(tǒng)可以阻止響應并顯示一條回退消息(如“抱歉,我無法提供幫助”),或者采取補救措施,比如刪除敏感數(shù)據(jù)。
由于額外的處理會引入延遲,安全護欄通常只用于最關(guān)鍵的風險,如阻止有害內(nèi)容或識別敏感信息。
總結(jié)
好消息是:AI還沒有完全接管一切。即使是基于LLM的產(chǎn)品,仍然需要人類來管理質(zhì)量,需要人類設計和維護一個自動化的評估系統(tǒng)。
壞消息是:LLM評估并不簡單。每個應用都需要根據(jù)其具體用途、針對性的風險和潛在的失敗模式,來定制一套評估方法。
從最初的產(chǎn)品構(gòu)思到生產(chǎn)環(huán)境的維護,在每個階段都需要評估。
這些工作流程環(huán)環(huán)相扣:
從對比實驗開始,找到最佳方案。
在發(fā)布前進行壓力測試和紅隊測試,為各種情況做準備。
應用上線后,安全護欄可以幫助預防重大問題。
產(chǎn)品投放生產(chǎn)后,通過生產(chǎn)可觀察性持續(xù)監(jiān)控實時數(shù)據(jù)。
如果出現(xiàn)問題,修復后運行回歸測試,然后推出更新。
自動化評估和人工評估相輔相成。雖然人工標注能提供最明確的信號,但自動化評估有助于規(guī)?;貜椭坪蛻眠@些洞察。
所有這些評估工作不僅僅是為了計算指標,更是為了:
構(gòu)建更好的AI產(chǎn)品:打造可靠、能為真實用戶服務的應用。
預防故障:及早發(fā)現(xiàn)問題,覆蓋從邊緣情況到生產(chǎn)錯誤等各種意外。
更快地迭代:沒有評估,做任何改動都既緩慢又有風險。自動化的評估能運行更多實驗,更快地發(fā)布更新。
一個可靠的LLM評估流程還有一個額外的好處:它會自然而然地促使我們收集高質(zhì)量的標注數(shù)據(jù)。未來可以用這些數(shù)據(jù)來進一步優(yōu)化系統(tǒng),比如用更小的模型替代大模型,優(yōu)化生產(chǎn)提示,甚至微調(diào)核心模型。