機器之心報道
隨著大模型的崛起,AI編程領域正在發(fā)生翻天覆地的變化。
各種編程大模型、編程工具涌現(xiàn),通過自動補全代碼、自動debug等實用的功能為開發(fā)者的日常工作提供極大便利,并在一定程度上提升了開發(fā)效率。
不過,問題來了,AI編程工具帶來的影響真是如此嗎?
近日,一家非營利性AI調研機構「METR」進行了一項隨機對照實驗,旨在了解AI編程工具如何加速經驗豐富的開源開發(fā)者的工作效率。
結果卻是非常令人意外:開發(fā)者本來堅信使用使用AI工具后速度可以提升20%,但實際上速度卻比沒有使用AI工具時慢了19%。這一結論在社交媒體X上爆了,閱讀量幾乎要突破300萬。
如下圖所示:與專家預測和開發(fā)者本來的直覺相反,2025年初的AI編程工具將減緩經驗豐富的開發(fā)者的開發(fā)速度。在本次隨機對照實驗中,16位擁有中等AI編程經驗的開發(fā)者完成了246項大型復雜項目的任務,他們平均擁有5年開發(fā)經驗。
對于這項調研,網友反應不一。有人感同身受,表示贊同。
有人則對METR的測量指標產生了質疑,表示「完成任務的時間」不能與「生產力」劃等號,并且中等AI經驗與復雜項目測試同樣是糟糕的設置。
「應該調研普通人(非開發(fā)者)使用AI編寫軟件的速度快了多少」,也有人提出了這樣的建議。
研究動機
雖然編碼/智能體基準測試已被證明有助于理解AI能力,但它們通常為了規(guī)模和效率而犧牲了真實性——這些任務自成一體,不需要理解先前的上下文,并且使用算法評估,無法捕捉許多重要的能力。這些特性可能導致基準測試高估了AI的能力。
另一方面,由于基準測試是在沒有真人實時交互的情況下運行的,模型可能盡管取得了實質性進展卻未能完成任務,比如一些在真實場景中人類會輕松修復的小瓶頸??偟膩碚f,直接將基準測試分數(shù)轉化為現(xiàn)實世界的影響是困難的。
METR表示,評估AI對軟件開發(fā)人員生產力的影響,可以為基準測試提供補充證據,有助于了解AI對AI研發(fā)加速的整體影響。
方法、結果與原因分析
為了直接測量AI工具在軟件開發(fā)中的現(xiàn)實影響力,METR招募了16位經驗豐富的開發(fā)者,他們來自大型開源倉庫(平均擁有22k+star和100萬+行代碼),并已貢獻多年。
這些開發(fā)者提供了他們認為對倉庫有價值的真實問題列表(總計246個)——即通常屬于他們日常工作范疇的bug修復、功能開發(fā)和重構任務。
接下來,METR隨機分配每個問題,允許或禁止開發(fā)者在處理該問題時使用AI。當允許使用AI時,開發(fā)者可以選擇他們喜歡的任何工具(研究期間主要使用CursorPro搭配Claude3.5/3.7Sonnet)。
當禁止使用時,他們則在沒有生成式AI輔助的情況下工作。開發(fā)者在完成任務(平均每個耗時約兩小時)時錄屏,并自行報告完成所需的全部時間。
當然,METR按每小時150美元(約合人民幣1080元/小時)的標準向開發(fā)者支付參與研究的報酬。
結果顯示:當開發(fā)者被允許使用AI工具時,他們解決問題所需的時間反而增加了19%——這一顯著的效率下降與專家預測以及開發(fā)者的感知背道而馳。
這種感知與現(xiàn)實之間的差距令人震驚:開發(fā)者預期AI能將其速度提升24%,即使在經歷了效率下降之后,他們仍然相信AI可以為他們提速20%。
下文展示了開發(fā)者預測的平均時間和實際觀察到的實現(xiàn)時間。我們可以清晰地看到,當開發(fā)者被允許使用AI工具時,他們花費的時間明顯更長。
當允許使用AI時,開發(fā)者在主動編碼和查找信息上的時間減少了,取而代之的是花更多時間撰寫提示詞、等待或審查AI輸出,以及處于空閑狀態(tài)。METR發(fā)現(xiàn),開發(fā)進度的放緩并不是單一原因,而是由多種因素共同導致的。
為了更好地理解這些因素,METR考察了實驗環(huán)境中的20項屬性,發(fā)現(xiàn)其中有5項很可能是造成開發(fā)速度放緩的原因,另外有8項則表現(xiàn)出混合或不明確的影響。
過程中,METR排除了許多實驗干擾因素,比如開發(fā)者使用了前沿模型、遵守了處理分配規(guī)則、沒有選擇性地放棄問題(例如放棄困難的不使用AI任務從而降低不使用AI組的平均難度),并且在使用和不使用AI的情況下都提交了質量相近的PR(PullRequest)。
結果發(fā)現(xiàn):無論是采用不同的結果指標、估計方法,還是對數(shù)據進行各種子集/子分析,開發(fā)速度的放緩現(xiàn)象依然存在。
更詳細的調研結果請參考原論文:
論文標題:MeasuringtheImpactofEarly-2025AIonExperiencedOpen-SourceDeveloperProductivity
局限性與未來展望
此次調研得出了兩個重要結論,分別是:
在某些重要場景下,近期的AI工具有可能并未提升生產力,甚至可能導致效率下降。
關于效率提升的自我報告并不可靠——要真正理解AI對生產力的影響,我們需要真實環(huán)境中的實驗數(shù)據。
不過,METR也表示,他們的設置并沒有代表所有(甚至可能是大多數(shù))軟件工程,同時聲明當前的模型也能更有效地利用起來,未來的模型可能會變得更好。
當然,沒有哪種測量方法是完美的——人們希望AI系統(tǒng)完成的任務是多樣、復雜且難以嚴格研究的。各種方法之間存在有意義的權衡,繼續(xù)開發(fā)和使用多樣化的評估方法以更全面地描繪AI的現(xiàn)狀和未來發(fā)展方向,將至關重要。
未來,METR期待運行類似的AI調研,以追蹤AI帶來的加速(或減速)趨勢,這類評估方法可能比基準測試更難被「玩弄」。
超人氣大作《超級農民逆襲都市》,還猶豫啥?逆襲的日子要來啦!
潛力好書《超級農民逆襲都市》,只要膽子大,沒有不可能!
超級農民逆襲都市,手握神農葫蘆,靈果仙草在手,都市風云我掌控!
免責聲明:本文內容由開放的智能模型自動生成,僅供參考。