機(jī)器之心原創(chuàng)
當(dāng)整個(gè)人工智能行業(yè)都在為「如何給程序員打造更快的馬」而瘋狂投入時(shí),一支特立獨(dú)行的團(tuán)隊(duì)選擇「直接去造汽車」。
「大模型的發(fā)展,更像一場籃球比賽才剛剛打完第一節(jié)。所有人都在用第一節(jié)的比分去判斷整場比賽的勝負(fù),但我們認(rèn)為,還有第二、三、四節(jié)要打?!罐㈩悄埽ˋIGCode)創(chuàng)始人兼CEO宿文用這樣一個(gè)比喻,為當(dāng)前略顯擁擠的AI編程賽道,提供了一個(gè)不同的觀察視角。
自2022年底ChatGPT引爆全球以來,AI編程被普遍認(rèn)為是大語言模型最快、最確定能實(shí)現(xiàn)嚴(yán)肅商業(yè)化(PMF)的一個(gè)賽道。從GitHubCopilot的成功,到科技大廠和創(chuàng)業(yè)公司紛紛推出自己的編程助手,行業(yè)似乎已經(jīng)形成一種共識(shí):AI是程序員的「副駕駛」,其核心價(jià)值在于提升代碼編寫效率。
然而,宿文和他的蔻町智能,正試圖證明這是對(duì)終局的誤判。在與機(jī)器之心的最近一次訪談中,宿文拆解了他對(duì)AI編程的三大「非共識(shí)」判斷。
非共識(shí)一:基座模型仍處「嬰幼兒期」
網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新是破局關(guān)鍵
在許多人眼中,大模型的基座之戰(zhàn)似乎已塵埃落定。后來者尤其是創(chuàng)業(yè)公司,只能在應(yīng)用層尋找機(jī)會(huì)。宿文對(duì)此的看法截然不同:「我們認(rèn)為大模型技術(shù),或者說基座模型的發(fā)展,還處于嬰幼兒時(shí)期?!?/p>
他指出,現(xiàn)有以Transformer為基礎(chǔ)的模型架構(gòu),在學(xué)習(xí)機(jī)制和知識(shí)壓縮效率上存在根本性問題?!副M管MoE通過專家分工解決了部分計(jì)算效率問題,但其專家之間是“扁平”且缺乏協(xié)作的,整體上仍是一個(gè)依靠簡單路由機(jī)制的“黑盒”。」
蔻町智能從成立第一天起,就選擇自研基座模型。他們的破局點(diǎn),正是在于對(duì)模型網(wǎng)絡(luò)結(jié)構(gòu)的持續(xù)迭代和創(chuàng)新?!肝覀?cè)贛oE的基礎(chǔ)上,繼續(xù)向后迭代,最終采用了在推薦搜索領(lǐng)域已經(jīng)非常成熟的PLE(ProgressiveLayeredExtraction)架構(gòu)?!?/p>
他解釋道,從MoE到MMoE,解決的是專家的解耦問題;再到PLE,則進(jìn)一步解決了專家解耦后可能產(chǎn)生的沖突和信息損耗問題,實(shí)現(xiàn)了對(duì)任務(wù)共性與個(gè)性的精細(xì)化提取。
宿文表示,網(wǎng)絡(luò)結(jié)構(gòu)創(chuàng)新使他們的模型在知識(shí)壓縮和長邏輯鏈條的理解上,具備了與主流模型不同的潛力。
蔻町智能研發(fā)的新模型AIGCoder架構(gòu)圖,通過解耦的專家模塊(De-coupledExperts)改良傳統(tǒng)模型,利用多頭專家感知注意力(MHEA)負(fù)責(zé)動(dòng)態(tài)激活專家,定制化門控(CGC)負(fù)責(zé)精細(xì)整合信息,實(shí)現(xiàn)了在不增加計(jì)算開銷的前提下,通過架構(gòu)創(chuàng)新應(yīng)對(duì)大模型擴(kuò)展時(shí)遇到的瓶頸。
實(shí)驗(yàn)數(shù)據(jù)顯示,無論是單個(gè)關(guān)鍵模塊(左)還是整合后的完整架構(gòu)(右),AIGCoder(橙色曲線)的訓(xùn)練效率均比基線模型(藍(lán)色曲線)提升超過1.3倍。
非共識(shí)二:「避開大廠賽道」是個(gè)偽命題
在AI領(lǐng)域,創(chuàng)業(yè)者常常聽到一句勸誡——不要做大廠發(fā)展道路上的業(yè)務(wù),否則會(huì)被輕易碾壓。
宿文卻認(rèn)為這是個(gè)偽命題?!溉绻娴氖且患笫?,為什么大廠會(huì)不做?更精準(zhǔn)的說法應(yīng)該是,“避免去摘低垂的果實(shí)”。」
「真正的護(hù)城河,不在于選擇一個(gè)大廠看不上的“縫隙市場”,而是在同一個(gè)領(lǐng)域里,解決比大廠更復(fù)雜、更深入的問題。」
「現(xiàn)在的許多Coding產(chǎn)品用工程化的方式集成各種API,生成一個(gè)前端尚可的Demo,這就是“低垂的果實(shí)”。蔻町智能的策略,是通過底層技術(shù)創(chuàng)新,實(shí)現(xiàn)真正的“All-in-one”?!?/p>
這種一體化的思路,也體現(xiàn)在宿文對(duì)Agent發(fā)展的看法上。他表示當(dāng)前行業(yè)習(xí)慣性地將技術(shù)棧劃分為Infra、基座、OS、Agent等層次,「這很像是對(duì)上一代PC互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的技術(shù)架構(gòu)的簡單映射,這樣“刻舟求劍”式的對(duì)新技術(shù)做定義意義不大。」
他強(qiáng)調(diào),在新范式下,各個(gè)技術(shù)環(huán)節(jié)是深度耦合的?!副贾鉀Q問題的角度,我們就把它一體化地解決。在最終效果沒有出來之前,過早分工反而不利于提效。」
蔻町智能把AIforCoding劃分為L1到L5五個(gè)階段:
L1:類似低代碼平臺(tái),目前不是主流;
L2:Copilot產(chǎn)品,輔助程序員,根據(jù)提示生成代碼,代表產(chǎn)品有GitHubCopilot、Cursor;
L3:Autopilot產(chǎn)品,能端到端地完成編程任務(wù),不需要程序員介入;
L4:多端自動(dòng)協(xié)作,讓多個(gè)協(xié)作用戶能直接把軟件創(chuàng)意變成某個(gè)完整的產(chǎn)品;
L5:能夠自動(dòng)迭代,升級(jí)為成熟的軟件產(chǎn)品。
宿文表示:「目前大部分AICoding產(chǎn)品集中在L2階段,而AutoCoder從一開始就定位在L3?!?/p>
從L2到L3,并非簡單的量變?!笇⒕幊讨肿龅綐O致,并不會(huì)自然而然地通向端到端軟件生成。」兩者需要解決的技術(shù)問題、優(yōu)化的方向,基本上沒有大的重合:前者(Copilot)優(yōu)化的是「寫代碼效率」,核心是上下文理解與精準(zhǔn)補(bǔ)全;后者(Autopilot)解決「不寫代碼」的問題,核心是對(duì)復(fù)雜業(yè)務(wù)邏輯的理解、拆解與長邏輯鏈條的生成。
此外,L2需要與IDE(集成開發(fā)環(huán)節(jié))深度融合,對(duì)大廠倆說有天然優(yōu)勢(shì),對(duì)創(chuàng)業(yè)公司而言,則可能是一條事倍功半的險(xiǎn)路。
非共識(shí)三:個(gè)性化應(yīng)用市場即將爆發(fā),
新增需求遠(yuǎn)超存量替代
堅(jiān)持L3不僅是技術(shù)上的選擇,也是宿文和他的團(tuán)隊(duì)對(duì)市場未來的判斷。盡管行業(yè)普遍認(rèn)同AI編程的終極目標(biāo)在于賦能每一個(gè)人,但在實(shí)現(xiàn)路徑上,由于AI技術(shù)瓶頸與普通用戶相關(guān)知識(shí)的缺失,主流看法認(rèn)為,當(dāng)下最現(xiàn)實(shí)的路徑,是先輔助程序員,解決存量市場的效率問題。
宿文則認(rèn)為這恰恰是一種「戰(zhàn)略繞行」,因?yàn)長2無法自然演進(jìn)到L3,所以沿著L2走,不僅無法抵達(dá)終點(diǎn),更可能錯(cuò)失真正的藍(lán)?!莻€(gè)被現(xiàn)有開發(fā)模式壓抑的、由海量個(gè)性化需求構(gòu)成的增量市場。
「新增的需求遠(yuǎn)遠(yuǎn)大于存量的替代。程序員不會(huì)消失,但一個(gè)全新的、數(shù)倍于現(xiàn)有規(guī)模的市場會(huì)爆發(fā)。」
「很像是有了滴滴才有了網(wǎng)約車市場,有了美團(tuán)才有了外賣市場,」他類比說:「以前人們打車、點(diǎn)外賣的大量潛在需求被高昂的成本和復(fù)雜的流程所壓抑,一旦有了低成本、高效率的供給方式,市場便會(huì)迎來爆發(fā)式增長。」
在軟件開發(fā)領(lǐng)域,對(duì)于大量的中小企業(yè)、創(chuàng)業(yè)者,甚至大企業(yè)的業(yè)務(wù)部門而言,都存在被壓抑的需求。宿文舉例,一個(gè)業(yè)務(wù)部門想為內(nèi)部開發(fā)一套培訓(xùn)系統(tǒng),傳統(tǒng)模式下,從漫長的需求溝通、高昂的開發(fā)投入,到最終交付物偏離預(yù)期的風(fēng)險(xiǎn),整個(gè)過程動(dòng)輒數(shù)月,且試錯(cuò)成本極高。
蔻町智能希望將這個(gè)流程重塑為:「只要上午能明確定義需求,下午就能看到一個(gè)可直接上線部署的產(chǎn)品?!?/p>
蔻町智能最新發(fā)布的端到端軟件生成產(chǎn)品AutoCoder,定位「全球首款前后端一體化的應(yīng)用與軟件完整生成平臺(tái)」,能夠同時(shí)生成高度可用的前端、數(shù)據(jù)庫和后端。例如,用戶輸入「幫我生成一個(gè)科技公司官網(wǎng)」,平臺(tái)不僅生成用戶可見的前臺(tái)頁面,也同步生成供企業(yè)員工管理網(wǎng)站內(nèi)容和用戶數(shù)據(jù)的后臺(tái)系統(tǒng)。
AutoCoder的受眾不僅包括產(chǎn)品經(jīng)理、設(shè)計(jì)師等專業(yè)人士(Prosumer),更涵蓋了大量非技術(shù)背景的個(gè)人從業(yè)者、小型企業(yè)主(如咖啡店、健身房)、初創(chuàng)團(tuán)隊(duì)的非技術(shù)創(chuàng)始人等。這些人有明確的數(shù)字化需求,但被傳統(tǒng)開發(fā)的高門檻擋在門外。
宿文引用了一個(gè)數(shù)據(jù):海外一家類似理念的公司,其產(chǎn)品的月度訪問量,在短時(shí)間內(nèi)已經(jīng)達(dá)到了發(fā)展近20年的GitHub的十分之一,并且GitHub的數(shù)據(jù)本身并未下滑。這意味著一個(gè)新的、增量用戶的市場正在被激發(fā)。
當(dāng)然,L3這條路最直接的質(zhì)疑就是——端到端生成的軟件出了Bug怎么辦?宿文的回應(yīng)是:
「與其花費(fèi)數(shù)小時(shí)去尋找一個(gè)Bug,為什么不花幾分鐘重新生成一個(gè)正確的版本呢?」隨著軟件生成的邊際成本趨近于零,迭代和試錯(cuò)的自由度將被前所未有地釋放。
結(jié)語
自研基座模型,選擇更難的端到端路徑,瞄準(zhǔn)被壓抑的增量需求——這三個(gè)非共識(shí)但邏輯自洽的判斷,構(gòu)成了蔻町智能的核心戰(zhàn)略和發(fā)展路徑。
當(dāng)然,選擇一條少有人走的路,必然伴隨著質(zhì)疑和不確定性。正如汽車在誕生之初,遠(yuǎn)沒有馬車跑得快,甚至開幾公里就散架。蔻町智能的「汽車」能否在性能、穩(wěn)定性和可靠性上,快速迭代到可以與成熟的「馬車體系」相抗衡甚至超越的階段,仍需時(shí)間和市場的檢驗(yàn)。
但毫無疑問,這場關(guān)于AI編程的籃球賽才剛剛開始。一個(gè)挑戰(zhàn)者已經(jīng)選擇用自己的方式,去打一場完全不同的比賽。從用戶的角度,我們也樂于期待一個(gè)軟件創(chuàng)造權(quán)力被徹底平權(quán)的未來。
天生艷骨女玄術(shù)師,葉思媚誓破宿命,以術(shù)證道,改寫權(quán)貴籠中鳥的命運(yùn)
吞吞的小說《最后一個(gè)女玄術(shù)師》如何一枝獨(dú)秀到如今?
言情小說《最后一個(gè)女玄術(shù)師》如何一枝獨(dú)秀到如今???女生小說...