挑戰(zhàn)!你可能不認(rèn)識(shí)我但一定聽(tīng)過(guò)我的歌~
火山引擎的AI基礎(chǔ)設(shè)施,正在以月為單位快速進(jìn)化。
作者|鄭玄
今天的AI,在對(duì)話框里「無(wú)所不能」,在現(xiàn)實(shí)世界里卻常?!甘ъ`」。
前者讓人驚艷:三秒成詩(shī)、五秒成文,天文地理、法律醫(yī)學(xué)樣樣精通,像是拿了幾十個(gè)學(xué)位的神童;而后者卻頻頻掉鏈子:AI玩具答非所問(wèn),AI眼鏡識(shí)別場(chǎng)景不準(zhǔn),哪怕是最基本的實(shí)時(shí)翻譯,效果也常常一言難盡。
如果說(shuō)大模型是AI的「大腦」,那么要讓這個(gè)「大腦」真正處理現(xiàn)實(shí)中的復(fù)雜任務(wù),還需要一整套「感知器官」和「神經(jīng)系統(tǒng)」配合運(yùn)作。對(duì)AI來(lái)說(shuō),不僅是麥克風(fēng)、攝像頭這樣的傳感器是否可靠,更關(guān)鍵的是背后的數(shù)據(jù)傳輸、多模態(tài)模型的識(shí)別與生成、跨模態(tài)的理解與聯(lián)動(dòng),乃至整個(gè)端到端的系統(tǒng)工程是否穩(wěn)定高效。
換句話說(shuō),現(xiàn)實(shí)世界的AI應(yīng)用不只是「一個(gè)聰明大腦」能搞定的事情。它的效果不僅取決于大模型本身,更取決于承載它的整個(gè)系統(tǒng)。這也標(biāo)志著我們正在邁入一個(gè)與傳統(tǒng)云計(jì)算時(shí)代完全不同的基礎(chǔ)設(shè)施時(shí)代,AIinfra不再只是提供存儲(chǔ)、計(jì)算和API接口,而要具備多模態(tài)感知、上下文理解、跨端部署等系統(tǒng)能力。
今天,大型云計(jì)算廠商正在快速轉(zhuǎn)向AI時(shí)代的基礎(chǔ)設(shè)施,火山引擎是最早擁抱這一趨勢(shì)的云廠商之一。7月30日,火山在廈門(mén)開(kāi)啟2025年度的AI創(chuàng)新巡展,與一個(gè)多月前的春季Force大會(huì)相比,火山引擎的多個(gè)AI基礎(chǔ)設(shè)施能力又迎來(lái)了進(jìn)化。
火山引擎總裁譚待發(fā)布新模型丨來(lái)自:火山引擎
01
三款模型更新:快速?gòu)?qiáng)化AI的「神經(jīng)系統(tǒng)」
這次火山引擎一共更新了三款模型,覆蓋圖像生成、同聲傳譯和通用語(yǔ)言理解三大領(lǐng)域,分別是豆包·圖像編輯模型3.0、豆包·同聲傳譯模型2.0,以及全面升級(jí)的豆包大模型1.6系列。
首先是圖像編輯模型3.0。圖像生成和編輯是當(dāng)下使用最廣泛的AI應(yīng)用場(chǎng)景,在電商廣告、內(nèi)容創(chuàng)作等領(lǐng)域都有著廣泛應(yīng)用,但也是AI最容易「失靈」的環(huán)節(jié)之一,用戶希望AI能像設(shè)計(jì)師一樣理解需求——「去掉背景人群」「把照片里的冬天換成春天」,但經(jīng)常遇到AI聽(tīng)不懂、改不對(duì)的問(wèn)題。
而這一版本強(qiáng)化了指令遵循、圖像保持和美感生成三方面能力,能在保持原圖人物結(jié)構(gòu)的同時(shí),精準(zhǔn)完成光影、風(fēng)格、材質(zhì)等細(xì)節(jié)調(diào)整,已經(jīng)能支撐包括廣告、電商、影像創(chuàng)作等專業(yè)P圖場(chǎng)景。比如下面這張演示,當(dāng)命令A(yù)I將照片里的場(chǎng)景換成冬天,過(guò)去AI會(huì)把整個(gè)照片覆蓋上白雪,并不符合真實(shí),而新模型就更加符合現(xiàn)實(shí)的冬景。
圖像編輯模型的美感提高丨來(lái)自:火山引擎
準(zhǔn)確率和美感的提高,不僅意味著在專業(yè)人士手中更加好用,也意味著AI修圖可以解鎖更多應(yīng)用。比如在當(dāng)下很火的AI眼鏡/AR眼鏡領(lǐng)域,可以開(kāi)發(fā)一個(gè)基于語(yǔ)音交互的AI修圖工具,并在拍完后直接上傳社交軟件,直接在眼鏡端側(cè)完成從拍攝到修圖、發(fā)布的閉環(huán)。
還有更驚艷的同聲傳譯模型2.0,則切中多語(yǔ)言會(huì)議與跨境溝通的「延遲」與「音色錯(cuò)位」問(wèn)題。傳統(tǒng)AI同傳依賴模塊級(jí)聯(lián),往往延遲長(zhǎng)達(dá)8-10秒,還用統(tǒng)一的機(jī)械女聲輸出,既慢也「出戲」。而新一代模型基于全雙工實(shí)時(shí)語(yǔ)音框架,將延遲壓縮至2-3秒,并實(shí)現(xiàn)「0樣本聲音復(fù)刻」,也就是說(shuō)——AI在聽(tīng)你說(shuō)話的同時(shí)就能抓住音色并生成同步譯文,用「你的聲音」說(shuō)出外語(yǔ)。
豆包·同聲傳譯模型2.0丨來(lái)自:火山引擎
不論是用于跨語(yǔ)言的直播、遠(yuǎn)程多人會(huì)議,還是在端側(cè)的AI眼鏡、AI耳機(jī)中實(shí)時(shí)同傳,更新后的豆包同傳2.0模型都有著更大的想象空間。甚至從長(zhǎng)遠(yuǎn)來(lái)看,就像大模型出現(xiàn)后,跨語(yǔ)言「讀寫(xiě)」的門(mén)檻幾乎被抹平,一個(gè)能真正實(shí)現(xiàn)同傳的模型,結(jié)合通話軟件和智能耳機(jī)硬件,未來(lái)「聽(tīng)說(shuō)」的門(mén)檻也將消失,這意味著外語(yǔ)學(xué)習(xí)的必要性可能都會(huì)逐漸消失。
如果說(shuō)前兩個(gè)模型更像「感知系統(tǒng)的升級(jí)部件」,那第三款模型豆包1.6系列的極速版Seed-1.6-flash,就是一塊能大規(guī)模部署的「神經(jīng)中樞」。此前6月的Force大會(huì)上火山引擎發(fā)布了豆包1.6大模型,而此次發(fā)布的是兼顧低延遲、強(qiáng)通用能力和超低成本的flash版,特別適配對(duì)性能極致要求的場(chǎng)景,如智能巡檢、手機(jī)助手、家用安防等。在智能監(jiān)控企業(yè)螢石的落地案例中,引入該模型后,系統(tǒng)時(shí)延下降50%,成本下降92%。
此外,火山引擎還在會(huì)上發(fā)布了新一代的全模態(tài)向量模型Seed1.6-Embedding。新模型能把文本、圖像、視頻轉(zhuǎn)化為統(tǒng)一的語(yǔ)義向量,實(shí)現(xiàn)模態(tài)間的「互相理解」。這意味著文本可以精確檢索圖像,視頻可以被語(yǔ)義性地標(biāo)注,圖文信息能共同參與知識(shí)構(gòu)建與推理。同時(shí),新模型還支持混合模態(tài)檢索,讓企業(yè)可以構(gòu)建真正統(tǒng)一的、多模態(tài)知識(shí)庫(kù),提升AI系統(tǒng)的內(nèi)容理解深度和響應(yīng)準(zhǔn)確度。
三款模型的進(jìn)步迭代,不僅是「點(diǎn)狀功能升級(jí)」,更像是為AI基礎(chǔ)設(shè)施裝上了更靈敏、更協(xié)調(diào)的「神經(jīng)系統(tǒng)」——從而讓大模型不再只是一個(gè)「聰明大腦」,而是能真實(shí)理解用戶意圖、快速反應(yīng)場(chǎng)景挑戰(zhàn)、并以可部署的方式持續(xù)工作的一整套閉環(huán)系統(tǒng)。
02
重寫(xiě)AI基礎(chǔ)設(shè)施的「付費(fèi)邏輯」
如果說(shuō)模型是大腦、感知模型是神經(jīng)系統(tǒng),那真正支撐這些「器官」長(zhǎng)期穩(wěn)定運(yùn)行的,是一整套更底層、更工程化的基礎(chǔ)設(shè)施。這正是火山引擎在此次活動(dòng)上強(qiáng)調(diào)的另一條主線:不只是「讓模型更強(qiáng)」,而是「讓模型更可用」,真正成為企業(yè)構(gòu)建AI應(yīng)用的底座。
首先是開(kāi)發(fā)平臺(tái)。此前火山引擎宣布開(kāi)源旗下的Agent開(kāi)發(fā)平臺(tái)扣子,火山引擎在會(huì)上介紹,此次開(kāi)源涵蓋扣子開(kāi)發(fā)平臺(tái)CozeStudio與全鏈路管理工具扣子羅盤(pán)CozeLoop,并采用Apache2.0協(xié)議,這意味著開(kāi)發(fā)者無(wú)需復(fù)雜配置即可快速搭建Agent,并完成從模型調(diào)用到邏輯編排、從部署上線再到后續(xù)監(jiān)控運(yùn)維。
同時(shí),火山引擎的企業(yè)級(jí)Agent平臺(tái)HiAgent也同步支持與扣子開(kāi)源版對(duì)接,可調(diào)用扣子開(kāi)源版提供的智能體搭建和運(yùn)維能力,并通過(guò)共享Agent標(biāo)準(zhǔn),支持扣子開(kāi)源版智能體的納管。
而在基礎(chǔ)設(shè)施層面,過(guò)去AI部署一個(gè)最大痛點(diǎn)是「算力貴且不靈活」,尤其是經(jīng)過(guò)微調(diào)的企業(yè)自有專用模型,托管云計(jì)算平臺(tái)時(shí),大多數(shù)時(shí)候只能用以租用GPU的方式計(jì)費(fèi),相比按照Tokens計(jì)費(fèi)的方式不夠靈活,容易造成資源的浪費(fèi)。
更靈活的企業(yè)自有模型托管方案丨來(lái)自:火山引擎
火山此次發(fā)布的企業(yè)自有模型托管方案,解決了這一難題:企業(yè)可將自訓(xùn)練模型托管至火山方舟,無(wú)需自己管理GPU調(diào)度等復(fù)雜操作,甚至能按需選擇部署機(jī)型與推理性能指標(biāo),在業(yè)務(wù)低峰期自動(dòng)釋放資源、無(wú)需為閑置資源買(mǎi)單,實(shí)現(xiàn)更高的資源利用效率。
此外,升級(jí)后的ResponsesAPI也值得一提。它具備原生上下文管理能力,支持多輪對(duì)話的鏈?zhǔn)焦芾恚梢詿o(wú)縫銜接文本、圖像、混合模態(tài)數(shù)據(jù)。結(jié)合緩存能力后,能降大幅低延遲和成本,整體成本下降幅度可達(dá)80%。
這些進(jìn)展背后折射出的,其實(shí)是一場(chǎng)「AI基礎(chǔ)設(shè)施」的重構(gòu)。過(guò)去十年,云計(jì)算的付費(fèi)邏輯是「租用一臺(tái)機(jī)器」,到了AI時(shí)代,邏輯正在變成「調(diào)用一次智能」。火山引擎正在將整個(gè)技術(shù)堆棧,從底層的訓(xùn)練推理框架,到上層的Agent開(kāi)發(fā)接口,乃至交付環(huán)節(jié)的計(jì)費(fèi)模式,全部重新適配AI原生的使用方式。
*頭圖來(lái)源:視覺(jué)中國(guó)
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請(qǐng)聯(lián)系極客君微信geekparkGO
極客一問(wèn)
你如何看待火山引擎?
馬斯克談「筷子」夾火箭技術(shù):明年上半年將實(shí)現(xiàn)回收人類制造最大飛行器。
點(diǎn)贊關(guān)注極客公園視頻號(hào),