機(jī)器之心報(bào)道
從ChatGPT引發(fā)的通用聊天機(jī)器人熱潮,到如今正迅猛發(fā)展的智能體模型,AI正在經(jīng)歷一次深刻的范式轉(zhuǎn)變:從被動(dòng)響應(yīng)的「語(yǔ)言模型」,走向具備自主決策能力的「智能體」。我們也正在進(jìn)入所謂的「經(jīng)驗(yàn)時(shí)代」或「軟件3.0時(shí)代」。
在這場(chǎng)轉(zhuǎn)變中,強(qiáng)化學(xué)習(xí)(RL)正在重新登上舞臺(tái)中央,成為驅(qū)動(dòng)AI實(shí)現(xiàn)「感知-決策-行動(dòng)」閉環(huán)乃至通用人工智能(AGI)的關(guān)鍵技術(shù)。
正如諾貝爾獎(jiǎng)得主、DeepMindCEODemisHassabis說(shuō)的那樣:「強(qiáng)化學(xué)習(xí)足以實(shí)現(xiàn)智能,因?yàn)檫@是所有哺乳動(dòng)物(包括人類)的學(xué)習(xí)方式?!箯?qiáng)化學(xué)習(xí)之父、2024年圖靈獎(jiǎng)得主RichardSutton也在《經(jīng)驗(yàn)時(shí)代》中寫道:「通過(guò)構(gòu)建強(qiáng)化學(xué)習(xí)的基礎(chǔ),并使其核心原則適應(yīng)新時(shí)代的挑戰(zhàn),我們能夠充分釋放自主學(xué)習(xí)的潛力,為真正的超人(superhuman)智能鋪平道路?!?/p>
然而,相比于預(yù)訓(xùn)練大模型,目前通常用于后訓(xùn)練大模型的強(qiáng)化學(xué)習(xí)存在自己獨(dú)有的困難:不僅需要高頻的數(shù)據(jù)交互和環(huán)境反饋,還要求大規(guī)模算力集群具備穩(wěn)定、彈性的調(diào)度能力。而傳統(tǒng)的云計(jì)算平臺(tái),大多仍以靜態(tài)推理負(fù)載為主,難以適配強(qiáng)化學(xué)習(xí)訓(xùn)練中動(dòng)態(tài)多階段、資源高耦合的運(yùn)行特性。
這一背景下,誰(shuí)能率先打造出真正適配強(qiáng)化學(xué)習(xí)的大規(guī)模智能計(jì)算平臺(tái),誰(shuí)就有機(jī)會(huì)在新一輪的AI基礎(chǔ)設(shè)施競(jìng)爭(zhēng)中占據(jù)高地。2025年6月,九章云極正式發(fā)布業(yè)界首個(gè)工業(yè)級(jí)強(qiáng)化學(xué)習(xí)云平臺(tái)AgentiCTRL,這也是全球首個(gè)支持萬(wàn)卡級(jí)異構(gòu)算力調(diào)度的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施平臺(tái)。
AgentiCTRL基于混合專家(MoE)架構(gòu),僅需極少代碼即可完成AI智能體的訓(xùn)推流程,從而顯著增強(qiáng)大模型推理能力。相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)方案,AgentiCTRL可將端到端訓(xùn)練效率提升500%,綜合成本下降60%。
在這個(gè)云服務(wù)紛紛向「AI云原生」轉(zhuǎn)型的時(shí)代,九章云極率先跑通了強(qiáng)化學(xué)習(xí)大規(guī)模云化的全鏈路路徑,可以說(shuō)是為更進(jìn)一步的「智能體原生云」樹立了行業(yè)新范式。
為什么是九章云極?
領(lǐng)先源自系統(tǒng)級(jí)重構(gòu)
本質(zhì)上講,強(qiáng)化學(xué)習(xí)是一個(gè)長(zhǎng)期、動(dòng)態(tài)、狀態(tài)密集型的過(guò)程。要想訓(xùn)練一個(gè)能在現(xiàn)實(shí)世界中有效決策的智能體,所需的不止是簡(jiǎn)單的算力堆疊,而是一個(gè)涉及算力彈性、資源調(diào)度、策略反饋、任務(wù)編排、容錯(cuò)機(jī)制等多維系統(tǒng)設(shè)計(jì)的復(fù)雜工程。
面對(duì)這一挑戰(zhàn),九章云極并未沿襲傳統(tǒng)云平臺(tái)「橫向擴(kuò)GPU」的簡(jiǎn)單思路,而是從架構(gòu)底層出發(fā),對(duì)強(qiáng)化學(xué)習(xí)訓(xùn)練流程進(jìn)行了系統(tǒng)性重構(gòu)。AgentiCTRL平臺(tái)的推出,正是這一重構(gòu)的成果。
這里,我們重點(diǎn)看看AgentiCTRL的一些核心亮點(diǎn)。
首先,AgentiCTRL實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)訓(xùn)練流程的極致簡(jiǎn)化。
過(guò)去,部署一個(gè)強(qiáng)化學(xué)習(xí)訓(xùn)練流程往往需要數(shù)十行腳本、復(fù)雜的資源配置和節(jié)點(diǎn)編排。而在AgentiCTRL上,用戶僅需極少代碼即可啟動(dòng)完整的訓(xùn)練-推理-回傳閉環(huán)。
代碼演示
這背后,是九章云極對(duì)環(huán)境模擬、策略執(zhí)行、獎(jiǎng)勵(lì)反饋等復(fù)雜機(jī)制的深度封裝與抽象。對(duì)于算法工程師而言,這意味著開(kāi)發(fā)效率的數(shù)倍提升;對(duì)于企業(yè)客戶而言,則意味著強(qiáng)化學(xué)習(xí)的真正可用、可控、可復(fù)制。
其次,AgentiCTRL率先將Serverless架構(gòu)原生融入了RL工作負(fù)載的訓(xùn)練平臺(tái)。
強(qiáng)化學(xué)習(xí)的計(jì)算需求高度不穩(wěn)定:有的時(shí)間段GPU大量空轉(zhuǎn),有的時(shí)間段則需要瞬時(shí)擴(kuò)容數(shù)百卡資源。傳統(tǒng)的靜態(tài)資源綁定方案,不僅浪費(fèi)嚴(yán)重,也難以調(diào)度。AgentiCTRL通過(guò)彈性算力編排,實(shí)現(xiàn)了資源的「按需即取、即用即還」,最大化資源利用率的同時(shí),顯著降低了訓(xùn)練成本。
更為關(guān)鍵的是,九章云極自研的異構(gòu)算力操作系統(tǒng)與調(diào)度平臺(tái),讓AgentiCTRL成為全球首個(gè)能穩(wěn)定支持「萬(wàn)卡級(jí)」強(qiáng)化學(xué)習(xí)訓(xùn)練的平臺(tái)。不論是高頻交互帶來(lái)的通信瓶頸,還是多節(jié)點(diǎn)分布式策略更新的同步難題,九章云極都在平臺(tái)層實(shí)現(xiàn)了技術(shù)閉環(huán)。
這些能力也得到了實(shí)際驗(yàn)證。舉個(gè)例子,使用AgentiCTRL,九章云極針對(duì)頗具挑戰(zhàn)性的ComputerUse任務(wù)對(duì)基礎(chǔ)模型Qwen-VL-2.5-7B進(jìn)行了后訓(xùn)練,最終得到了智能體Alaya-UI。
在這個(gè)過(guò)程中,AgentiCTRL表現(xiàn)強(qiáng)勁,不僅降低了37%的訓(xùn)練耗時(shí)并提升了25%的GPU利用率,而且所需的人工介入次數(shù)也大幅下降了90%。整體上看,成本下降了60%。
得到的Alaya-UI的性能也在基礎(chǔ)模型的基礎(chǔ)上大幅提升——在OSWorld基準(zhǔn)上,Alaya-UI的任務(wù)完成率從6.87%躍升至24.8%。
經(jīng)過(guò)更多實(shí)驗(yàn)驗(yàn)證,AgentiCTRL能將端到端訓(xùn)練效率提升5倍以上,而在同等任務(wù)規(guī)模下,其整體成本可下降60%,堪稱當(dāng)前最具性價(jià)比的強(qiáng)化學(xué)習(xí)云平臺(tái)。
換句話說(shuō),九章云極不是在已有AI云平臺(tái)之上「追加一個(gè)強(qiáng)化學(xué)習(xí)模塊」,而是以強(qiáng)化學(xué)習(xí)為原生能力,重構(gòu)了整個(gè)智能計(jì)算平臺(tái)的架構(gòu)與邏輯。
這正是九章云極能夠走在行業(yè)前列的核心原因。
不止于平臺(tái)
九章云極的智能基礎(chǔ)設(shè)施戰(zhàn)略布局
強(qiáng)化學(xué)習(xí)云平臺(tái)只是表層,真正讓九章云極在強(qiáng)化學(xué)習(xí)競(jìng)賽中跑在最前面的,是其對(duì)下一代AI云本質(zhì)的前沿探索。
傳統(tǒng)的云計(jì)算廠商,往往將AI能力作為「功能補(bǔ)丁」疊加在通用云之上,更多是在做資源分發(fā)和算力服務(wù),更像是一種裸金屬(baremetal)的供給模式。而九章云極的戰(zhàn)略方向明確而清晰:強(qiáng)化學(xué)習(xí)不是一個(gè)云服務(wù)模塊,而是未來(lái)AI云的操作系統(tǒng)級(jí)能力,是支撐智能體系統(tǒng)運(yùn)行的調(diào)度中樞、學(xué)習(xí)引擎和演化機(jī)制。
可以說(shuō),九章云極前沿探索的核心是圍繞智能體構(gòu)建完整的原生云基礎(chǔ)設(shè)施。這不僅包括支持強(qiáng)化學(xué)習(xí)的算力資源,更包括三層能力的同步建設(shè):
底層是軟件定義的AI基礎(chǔ)設(shè)施,其中包括異構(gòu)算力資源、高性能分布式存儲(chǔ)和高性能網(wǎng)絡(luò)系統(tǒng)的統(tǒng)一調(diào)度與編排。
中層是九章智算操作系統(tǒng)AlayaNeWOS,是工作負(fù)載的抽象與調(diào)度邏輯層,其中包括Serverless架構(gòu)、AI導(dǎo)向的數(shù)據(jù)中心架構(gòu)、多AIDC訓(xùn)練架構(gòu)、異構(gòu)資源調(diào)度、AI原生、分布式算網(wǎng)。
上層則是九章智算云AlayaNeWCloud,其中包括大模型開(kāi)發(fā)套件、大模型推理平臺(tái)、強(qiáng)化學(xué)習(xí)云平臺(tái)、彈性容器平臺(tái)VKS和專享容器平臺(tái)DKS;它們共同組成了面向開(kāi)發(fā)者、模型廠商、應(yīng)用企業(yè)的API與工具鏈系統(tǒng)。
實(shí)際上,九章智算云不僅是九章云極強(qiáng)化學(xué)習(xí)平臺(tái)的算力底座,更是其智能基礎(chǔ)設(shè)施戰(zhàn)略的核心支點(diǎn)。在強(qiáng)化學(xué)習(xí)仍被視為高門檻科研專屬的當(dāng)下,九章智算云以「1度算力」為度量單位,率先提出普惠化AI計(jì)算標(biāo)準(zhǔn),從資源調(diào)度方式、價(jià)格模型到工作負(fù)載適配方式,全面對(duì)齊智能體時(shí)代的訓(xùn)練需求。
不同于傳統(tǒng)云廠商依賴GPU售賣或按卡計(jì)費(fèi)的裸金屬邏輯,九章智算云提供了真正按使用量計(jì)價(jià)的serverless架構(gòu),這不僅降低了門檻,更實(shí)質(zhì)性打通了「人人可用AI」的最后一公里。
正如圖靈獎(jiǎng)得主、「ArtificialIntellgence」這一技術(shù)術(shù)語(yǔ)的提出者約翰?麥卡錫(JohnMcCarthy)曾說(shuō)過(guò)的那樣:算力應(yīng)該像水電資源一樣隨用隨取?,F(xiàn)在,九章智算云正在實(shí)踐這一愿景。
而在調(diào)度能力方面,九章智算云通過(guò)自主研發(fā)的異構(gòu)算力操作系統(tǒng)與AI-native的資源管理系統(tǒng),實(shí)現(xiàn)了彈性調(diào)度+異構(gòu)支持+多租戶隔離的完備能力,成功突破「秒級(jí)生成百萬(wàn)級(jí)token」的性能瓶頸,并且其GPU利用率甚至可超過(guò)95%,總擁有成本(TCO)相比傳統(tǒng)方案降低達(dá)60%,形成了明顯的「性能/價(jià)格比」優(yōu)勢(shì)。
不僅如此,九章智算云在產(chǎn)業(yè)賦能上的落地表現(xiàn)也已具備規(guī)模優(yōu)勢(shì),當(dāng)前已在政務(wù)、金融、通信、制造、能源、交通、生物醫(yī)藥等多個(gè)關(guān)鍵行業(yè)實(shí)現(xiàn)部署,并支撐多個(gè)RL模型及智能體系統(tǒng)的在線訓(xùn)練與推理任務(wù)。在國(guó)內(nèi)市場(chǎng)同類平臺(tái)中,其智能體訓(xùn)練任務(wù)承載能力和調(diào)度效率長(zhǎng)期保持領(lǐng)先,穩(wěn)居強(qiáng)化學(xué)習(xí)云領(lǐng)域第一梯隊(duì)。
正是在這些能力的加持下,九章云極才得以在強(qiáng)化學(xué)習(xí)的產(chǎn)業(yè)化路徑上率先跑通「從訓(xùn)練引擎到產(chǎn)業(yè)部署」的全流程閉環(huán),并以此為基礎(chǔ),構(gòu)建起屬于自己的AI云原生生態(tài)護(hù)城河。
看起來(lái),九章云極的戰(zhàn)略視野并不局限于細(xì)節(jié)的技術(shù)層面,而是放眼未來(lái)AI的基礎(chǔ)設(shè)施主導(dǎo)權(quán):在大模型標(biāo)準(zhǔn)趨于同質(zhì)化的今天,誰(shuí)能主導(dǎo)智能體運(yùn)行的「訓(xùn)練-反饋-部署」閉環(huán)平臺(tái),誰(shuí)就能在下一代AI生態(tài)中占據(jù)支點(diǎn)位置。而九章云極,已經(jīng)擁有自己的獨(dú)特優(yōu)勢(shì)。
順帶一提,為了加速這一戰(zhàn)略落地,九章云極還啟動(dòng)了「AI-STAR企業(yè)生態(tài)聯(lián)盟」,并與賽富投資基金等多家產(chǎn)業(yè)機(jī)構(gòu)聯(lián)合設(shè)立了「AI-STAR智算生態(tài)基金」,首期投入1.8億元,期望吸引算法公司、開(kāi)源社區(qū)、行業(yè)客戶共同參與強(qiáng)化學(xué)習(xí)平臺(tái)的生態(tài)建設(shè)。這不僅為AgentiCTRL拓展了豐富的應(yīng)用場(chǎng)景,也為智能體應(yīng)用在金融、工業(yè)、能源等高價(jià)值行業(yè)的規(guī)?;涞靥峁┝藢?shí)踐基礎(chǔ)。
因此,AgentiCTRL的發(fā)布并不是一個(gè)孤立事件,而是九章云極未來(lái)路線圖中的關(guān)鍵一步。在這一邏輯下,平臺(tái)能力、開(kāi)發(fā)工具、生態(tài)伙伴、資本配置……正共同構(gòu)成一個(gè)面向未來(lái)十年的智能計(jì)算戰(zhàn)略。
強(qiáng)化學(xué)習(xí)云第一云!
是做出來(lái)的
當(dāng)強(qiáng)化學(xué)習(xí)成為智能體模型訓(xùn)練的核心引擎,決定下一輪AI基礎(chǔ)設(shè)施競(jìng)爭(zhēng)勝負(fù)的,很可能是「可用」與「可規(guī)模化」之間的距離。
九章云極用AgentiCTRL平臺(tái)證明,強(qiáng)化學(xué)習(xí)云的成功落地絕不僅僅是一次算力堆疊或平臺(tái)加法,而是一場(chǎng)從底層架構(gòu)到運(yùn)行邏輯的系統(tǒng)性重建:支持萬(wàn)卡級(jí)異構(gòu)調(diào)度、Serverless彈性架構(gòu)、強(qiáng)化學(xué)習(xí)工作負(fù)載原生抽象……這些綜合起來(lái)就不再只是簡(jiǎn)單的優(yōu)化,而是范式躍遷。
從客戶視角看,這種躍遷可以帶來(lái)直接而確定性的價(jià)值回報(bào):
開(kāi)發(fā)門檻顯著降低:無(wú)需自建環(huán)境、編排節(jié)點(diǎn)、維護(hù)資源,RL訓(xùn)練變得像調(diào)用API一樣簡(jiǎn)單;
訓(xùn)練效率大幅提升:端到端性能可提升5倍;
成本結(jié)構(gòu)全面重塑:資源調(diào)度更高效,綜合成本最多可下降60%,讓RL真正進(jìn)入性價(jià)比可控區(qū)間。
更重要的是,九章云極從一開(kāi)始就不是只做「RL工具鏈供應(yīng)商」,而是在構(gòu)建一個(gè)支持智能體運(yùn)行的操作系統(tǒng)級(jí)云平臺(tái)。
在未來(lái),強(qiáng)化學(xué)習(xí)不會(huì)是「少數(shù)人的科研特權(quán)」,而將成為AI系統(tǒng)中的常規(guī)能力組件。誰(shuí)能將它從實(shí)驗(yàn)室拉入工程化生產(chǎn)環(huán)境,誰(shuí)就掌握了創(chuàng)造未來(lái)的先機(jī)。而九章云極,已經(jīng)走在了前面。
當(dāng)智能體原生時(shí)代真正到來(lái),我們可能會(huì)重新回頭審視這場(chǎng)轉(zhuǎn)變的起點(diǎn)。而那時(shí),我們會(huì)看到,九章云極及其創(chuàng)造的AgentiCTRL或許正是它最早的鋪路者。
凡人修仙傳:韓立師徒打麻將,董萱兒美腿搶鏡,掌柜是元嬰期的?
推薦十本已完結(jié)的凡人流小說(shuō),劇情精彩,各有特色
《凡人修仙傳》太乙后期蟲靈又如何,因這弱點(diǎn),成全韓立絕殺一擊