張景志
火山引擎的AI基礎(chǔ)設(shè)施,正在以月為單位快速進化。
作者|鄭玄
今天的AI,在對話框里「無所不能」,在現(xiàn)實世界里卻常?!甘ъ`」。
前者讓人驚艷:三秒成詩、五秒成文,天文地理、法律醫(yī)學(xué)樣樣精通,像是拿了幾十個學(xué)位的神童;而后者卻頻頻掉鏈子:AI玩具答非所問,AI眼鏡識別場景不準(zhǔn),哪怕是最基本的實時翻譯,效果也常常一言難盡。
如果說大模型是AI的「大腦」,那么要讓這個「大腦」真正處理現(xiàn)實中的復(fù)雜任務(wù),還需要一整套「感知器官」和「神經(jīng)系統(tǒng)」配合運作。對AI來說,不僅是麥克風(fēng)、攝像頭這樣的傳感器是否可靠,更關(guān)鍵的是背后的數(shù)據(jù)傳輸、多模態(tài)模型的識別與生成、跨模態(tài)的理解與聯(lián)動,乃至整個端到端的系統(tǒng)工程是否穩(wěn)定高效。
換句話說,現(xiàn)實世界的AI應(yīng)用不只是「一個聰明大腦」能搞定的事情。它的效果不僅取決于大模型本身,更取決于承載它的整個系統(tǒng)。這也標(biāo)志著我們正在邁入一個與傳統(tǒng)云計算時代完全不同的基礎(chǔ)設(shè)施時代,AIinfra不再只是提供存儲、計算和API接口,而要具備多模態(tài)感知、上下文理解、跨端部署等系統(tǒng)能力。
今天,大型云計算廠商正在快速轉(zhuǎn)向AI時代的基礎(chǔ)設(shè)施,火山引擎是最早擁抱這一趨勢的云廠商之一。7月30日,火山在廈門開啟2025年度的AI創(chuàng)新巡展,與一個多月前的春季Force大會相比,火山引擎的多個AI基礎(chǔ)設(shè)施能力又迎來了進化。
火山引擎總裁譚待發(fā)布新模型丨來自:火山引擎
01
三款模型更新:快速強化AI的「神經(jīng)系統(tǒng)」
這次火山引擎一共更新了三款模型,覆蓋圖像生成、同聲傳譯和通用語言理解三大領(lǐng)域,分別是豆包·圖像編輯模型3.0、豆包·同聲傳譯模型2.0,以及全面升級的豆包大模型1.6系列。
首先是圖像編輯模型3.0。圖像生成和編輯是當(dāng)下使用最廣泛的AI應(yīng)用場景,在電商廣告、內(nèi)容創(chuàng)作等領(lǐng)域都有著廣泛應(yīng)用,但也是AI最容易「失靈」的環(huán)節(jié)之一,用戶希望AI能像設(shè)計師一樣理解需求——「去掉背景人群」「把照片里的冬天換成春天」,但經(jīng)常遇到AI聽不懂、改不對的問題。
而這一版本強化了指令遵循、圖像保持和美感生成三方面能力,能在保持原圖人物結(jié)構(gòu)的同時,精準(zhǔn)完成光影、風(fēng)格、材質(zhì)等細(xì)節(jié)調(diào)整,已經(jīng)能支撐包括廣告、電商、影像創(chuàng)作等專業(yè)P圖場景。比如下面這張演示,當(dāng)命令A(yù)I將照片里的場景換成冬天,過去AI會把整個照片覆蓋上白雪,并不符合真實,而新模型就更加符合現(xiàn)實的冬景。
圖像編輯模型的美感提高丨來自:火山引擎
準(zhǔn)確率和美感的提高,不僅意味著在專業(yè)人士手中更加好用,也意味著AI修圖可以解鎖更多應(yīng)用。比如在當(dāng)下很火的AI眼鏡/AR眼鏡領(lǐng)域,可以開發(fā)一個基于語音交互的AI修圖工具,并在拍完后直接上傳社交軟件,直接在眼鏡端側(cè)完成從拍攝到修圖、發(fā)布的閉環(huán)。
還有更驚艷的同聲傳譯模型2.0,則切中多語言會議與跨境溝通的「延遲」與「音色錯位」問題。傳統(tǒng)AI同傳依賴模塊級聯(lián),往往延遲長達(dá)8-10秒,還用統(tǒng)一的機械女聲輸出,既慢也「出戲」。而新一代模型基于全雙工實時語音框架,將延遲壓縮至2-3秒,并實現(xiàn)「0樣本聲音復(fù)刻」,也就是說——AI在聽你說話的同時就能抓住音色并生成同步譯文,用「你的聲音」說出外語。
豆包·同聲傳譯模型2.0丨來自:火山引擎
不論是用于跨語言的直播、遠(yuǎn)程多人會議,還是在端側(cè)的AI眼鏡、AI耳機中實時同傳,更新后的豆包同傳2.0模型都有著更大的想象空間。甚至從長遠(yuǎn)來看,就像大模型出現(xiàn)后,跨語言「讀寫」的門檻幾乎被抹平,一個能真正實現(xiàn)同傳的模型,結(jié)合通話軟件和智能耳機硬件,未來「聽說」的門檻也將消失,這意味著外語學(xué)習(xí)的必要性可能都會逐漸消失。
如果說前兩個模型更像「感知系統(tǒng)的升級部件」,那第三款模型豆包1.6系列的極速版Seed-1.6-flash,就是一塊能大規(guī)模部署的「神經(jīng)中樞」。此前6月的Force大會上火山引擎發(fā)布了豆包1.6大模型,而此次發(fā)布的是兼顧低延遲、強通用能力和超低成本的flash版,特別適配對性能極致要求的場景,如智能巡檢、手機助手、家用安防等。在智能監(jiān)控企業(yè)螢石的落地案例中,引入該模型后,系統(tǒng)時延下降50%,成本下降92%。
此外,火山引擎還在會上發(fā)布了新一代的全模態(tài)向量模型Seed1.6-Embedding。新模型能把文本、圖像、視頻轉(zhuǎn)化為統(tǒng)一的語義向量,實現(xiàn)模態(tài)間的「互相理解」。這意味著文本可以精確檢索圖像,視頻可以被語義性地標(biāo)注,圖文信息能共同參與知識構(gòu)建與推理。同時,新模型還支持混合模態(tài)檢索,讓企業(yè)可以構(gòu)建真正統(tǒng)一的、多模態(tài)知識庫,提升AI系統(tǒng)的內(nèi)容理解深度和響應(yīng)準(zhǔn)確度。
三款模型的進步迭代,不僅是「點狀功能升級」,更像是為AI基礎(chǔ)設(shè)施裝上了更靈敏、更協(xié)調(diào)的「神經(jīng)系統(tǒng)」——從而讓大模型不再只是一個「聰明大腦」,而是能真實理解用戶意圖、快速反應(yīng)場景挑戰(zhàn)、并以可部署的方式持續(xù)工作的一整套閉環(huán)系統(tǒng)。
02
重寫AI基礎(chǔ)設(shè)施的「付費邏輯」
如果說模型是大腦、感知模型是神經(jīng)系統(tǒng),那真正支撐這些「器官」長期穩(wěn)定運行的,是一整套更底層、更工程化的基礎(chǔ)設(shè)施。這正是火山引擎在此次活動上強調(diào)的另一條主線:不只是「讓模型更強」,而是「讓模型更可用」,真正成為企業(yè)構(gòu)建AI應(yīng)用的底座。
首先是開發(fā)平臺。此前火山引擎宣布開源旗下的Agent開發(fā)平臺扣子,火山引擎在會上介紹,此次開源涵蓋扣子開發(fā)平臺CozeStudio與全鏈路管理工具扣子羅盤CozeLoop,并采用Apache2.0協(xié)議,這意味著開發(fā)者無需復(fù)雜配置即可快速搭建Agent,并完成從模型調(diào)用到邏輯編排、從部署上線再到后續(xù)監(jiān)控運維。
同時,火山引擎的企業(yè)級Agent平臺HiAgent也同步支持與扣子開源版對接,可調(diào)用扣子開源版提供的智能體搭建和運維能力,并通過共享Agent標(biāo)準(zhǔn),支持扣子開源版智能體的納管。
而在基礎(chǔ)設(shè)施層面,過去AI部署一個最大痛點是「算力貴且不靈活」,尤其是經(jīng)過微調(diào)的企業(yè)自有專用模型,托管云計算平臺時,大多數(shù)時候只能用以租用GPU的方式計費,相比按照Tokens計費的方式不夠靈活,容易造成資源的浪費。
更靈活的企業(yè)自有模型托管方案丨來自:火山引擎
火山此次發(fā)布的企業(yè)自有模型托管方案,解決了這一難題:企業(yè)可將自訓(xùn)練模型托管至火山方舟,無需自己管理GPU調(diào)度等復(fù)雜操作,甚至能按需選擇部署機型與推理性能指標(biāo),在業(yè)務(wù)低峰期自動釋放資源、無需為閑置資源買單,實現(xiàn)更高的資源利用效率。
此外,升級后的ResponsesAPI也值得一提。它具備原生上下文管理能力,支持多輪對話的鏈?zhǔn)焦芾?,可以無縫銜接文本、圖像、混合模態(tài)數(shù)據(jù)。結(jié)合緩存能力后,能降大幅低延遲和成本,整體成本下降幅度可達(dá)80%。
這些進展背后折射出的,其實是一場「AI基礎(chǔ)設(shè)施」的重構(gòu)。過去十年,云計算的付費邏輯是「租用一臺機器」,到了AI時代,邏輯正在變成「調(diào)用一次智能」?;鹕揭嬲趯⒄麄€技術(shù)堆棧,從底層的訓(xùn)練推理框架,到上層的Agent開發(fā)接口,乃至交付環(huán)節(jié)的計費模式,全部重新適配AI原生的使用方式。
*頭圖來源:視覺中國
本文為極客公園原創(chuàng)文章,轉(zhuǎn)載請聯(lián)系極客君微信geekparkGO
極客一問
你如何看待火山引擎?
馬斯克談「筷子」夾火箭技術(shù):明年上半年將實現(xiàn)回收人類制造最大飛行器。
點贊關(guān)注極客公園視頻號,
誠意推薦!一本設(shè)定滿分的都市腦洞文《都市絕世神帝》,劇情合理
《都市絕世神帝》作者:公子無齒
《都市絕世神帝》,竟然1天就火遍全網(wǎng)?放心入坑就對了
第二部:《都市絕世仙帝》——南大師精彩節(jié)選:就在此時,攻擊命中的聲音響起,剛才轟鳴的拳風(fēng)聲戛然而止——。盧卡斯這一拳,顯然是命中的目標(biāo),但這一幕卻讓全場所有人都愣住了--。近兩千人都站了起來,注視著擂臺。剛才那一拳的強大,眾人有目共睹??墒乾F(xiàn)在__。秦恒卻只輕輕一抬手,就用一只手掌,按住了盧卡斯的到此結(jié)束了?。
都市修真,萬古仙帝重生都市富二代,吊打一切,懷擁美女縱橫花都
《都市絕世神帝》 作者:公子無齒內(nèi)容簡介:他是天界之主的一縷殘魂,意外落在地球,生命走到盡頭之時,他將畢生之力傳給了陳笑_。陳笑被迫成為一代神帝繼承人??伤錾谝粋€普通家庭,父母在家務(wù)農(nóng),妹妹即將上高中|-。學(xué)習(xí)成績優(yōu)異,因為幫過校花周月桐,被?;▋A心,也因此被王凱嫉妒而針對|_。他是老師眼里的還有呢?
來源:紅網(wǎng)
作者:虢建中
編輯:涂正偉
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。