機(jī)器之心報道
從ChatGPT引發(fā)的通用聊天機(jī)器人熱潮,到如今正迅猛發(fā)展的智能體模型,AI正在經(jīng)歷一次深刻的范式轉(zhuǎn)變:從被動響應(yīng)的「語言模型」,走向具備自主決策能力的「智能體」。我們也正在進(jìn)入所謂的「經(jīng)驗(yàn)時代」或「軟件3.0時代」。
在這場轉(zhuǎn)變中,強(qiáng)化學(xué)習(xí)(RL)正在重新登上舞臺中央,成為驅(qū)動AI實(shí)現(xiàn)「感知-決策-行動」閉環(huán)乃至通用人工智能(AGI)的關(guān)鍵技術(shù)。
正如諾貝爾獎得主、DeepMindCEODemisHassabis說的那樣:「強(qiáng)化學(xué)習(xí)足以實(shí)現(xiàn)智能,因?yàn)檫@是所有哺乳動物(包括人類)的學(xué)習(xí)方式?!箯?qiáng)化學(xué)習(xí)之父、2024年圖靈獎得主RichardSutton也在《經(jīng)驗(yàn)時代》中寫道:「通過構(gòu)建強(qiáng)化學(xué)習(xí)的基礎(chǔ),并使其核心原則適應(yīng)新時代的挑戰(zhàn),我們能夠充分釋放自主學(xué)習(xí)的潛力,為真正的超人(superhuman)智能鋪平道路?!?/p>
然而,相比于預(yù)訓(xùn)練大模型,目前通常用于后訓(xùn)練大模型的強(qiáng)化學(xué)習(xí)存在自己獨(dú)有的困難:不僅需要高頻的數(shù)據(jù)交互和環(huán)境反饋,還要求大規(guī)模算力集群具備穩(wěn)定、彈性的調(diào)度能力。而傳統(tǒng)的云計(jì)算平臺,大多仍以靜態(tài)推理負(fù)載為主,難以適配強(qiáng)化學(xué)習(xí)訓(xùn)練中動態(tài)多階段、資源高耦合的運(yùn)行特性。
這一背景下,誰能率先打造出真正適配強(qiáng)化學(xué)習(xí)的大規(guī)模智能計(jì)算平臺,誰就有機(jī)會在新一輪的AI基礎(chǔ)設(shè)施競爭中占據(jù)高地。2025年6月,九章云極正式發(fā)布業(yè)界首個工業(yè)級強(qiáng)化學(xué)習(xí)云平臺AgentiCTRL,這也是全球首個支持萬卡級異構(gòu)算力調(diào)度的強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施平臺。
AgentiCTRL基于混合專家(MoE)架構(gòu),僅需極少代碼即可完成AI智能體的訓(xùn)推流程,從而顯著增強(qiáng)大模型推理能力。相比于傳統(tǒng)強(qiáng)化學(xué)習(xí)方案,AgentiCTRL可將端到端訓(xùn)練效率提升500%,綜合成本下降60%。
在這個云服務(wù)紛紛向「AI云原生」轉(zhuǎn)型的時代,九章云極率先跑通了強(qiáng)化學(xué)習(xí)大規(guī)模云化的全鏈路路徑,可以說是為更進(jìn)一步的「智能體原生云」樹立了行業(yè)新范式。
為什么是九章云極?
領(lǐng)先源自系統(tǒng)級重構(gòu)
本質(zhì)上講,強(qiáng)化學(xué)習(xí)是一個長期、動態(tài)、狀態(tài)密集型的過程。要想訓(xùn)練一個能在現(xiàn)實(shí)世界中有效決策的智能體,所需的不止是簡單的算力堆疊,而是一個涉及算力彈性、資源調(diào)度、策略反饋、任務(wù)編排、容錯機(jī)制等多維系統(tǒng)設(shè)計(jì)的復(fù)雜工程。
面對這一挑戰(zhàn),九章云極并未沿襲傳統(tǒng)云平臺「橫向擴(kuò)GPU」的簡單思路,而是從架構(gòu)底層出發(fā),對強(qiáng)化學(xué)習(xí)訓(xùn)練流程進(jìn)行了系統(tǒng)性重構(gòu)。AgentiCTRL平臺的推出,正是這一重構(gòu)的成果。
這里,我們重點(diǎn)看看AgentiCTRL的一些核心亮點(diǎn)。
首先,AgentiCTRL實(shí)現(xiàn)了強(qiáng)化學(xué)習(xí)訓(xùn)練流程的極致簡化。
過去,部署一個強(qiáng)化學(xué)習(xí)訓(xùn)練流程往往需要數(shù)十行腳本、復(fù)雜的資源配置和節(jié)點(diǎn)編排。而在AgentiCTRL上,用戶僅需極少代碼即可啟動完整的訓(xùn)練-推理-回傳閉環(huán)。
代碼演示
這背后,是九章云極對環(huán)境模擬、策略執(zhí)行、獎勵反饋等復(fù)雜機(jī)制的深度封裝與抽象。對于算法工程師而言,這意味著開發(fā)效率的數(shù)倍提升;對于企業(yè)客戶而言,則意味著強(qiáng)化學(xué)習(xí)的真正可用、可控、可復(fù)制。
其次,AgentiCTRL率先將Serverless架構(gòu)原生融入了RL工作負(fù)載的訓(xùn)練平臺。
強(qiáng)化學(xué)習(xí)的計(jì)算需求高度不穩(wěn)定:有的時間段GPU大量空轉(zhuǎn),有的時間段則需要瞬時擴(kuò)容數(shù)百卡資源。傳統(tǒng)的靜態(tài)資源綁定方案,不僅浪費(fèi)嚴(yán)重,也難以調(diào)度。AgentiCTRL通過彈性算力編排,實(shí)現(xiàn)了資源的「按需即取、即用即還」,最大化資源利用率的同時,顯著降低了訓(xùn)練成本。
更為關(guān)鍵的是,九章云極自研的異構(gòu)算力操作系統(tǒng)與調(diào)度平臺,讓AgentiCTRL成為全球首個能穩(wěn)定支持「萬卡級」強(qiáng)化學(xué)習(xí)訓(xùn)練的平臺。不論是高頻交互帶來的通信瓶頸,還是多節(jié)點(diǎn)分布式策略更新的同步難題,九章云極都在平臺層實(shí)現(xiàn)了技術(shù)閉環(huán)。
這些能力也得到了實(shí)際驗(yàn)證。舉個例子,使用AgentiCTRL,九章云極針對頗具挑戰(zhàn)性的ComputerUse任務(wù)對基礎(chǔ)模型Qwen-VL-2.5-7B進(jìn)行了后訓(xùn)練,最終得到了智能體Alaya-UI。
在這個過程中,AgentiCTRL表現(xiàn)強(qiáng)勁,不僅降低了37%的訓(xùn)練耗時并提升了25%的GPU利用率,而且所需的人工介入次數(shù)也大幅下降了90%。整體上看,成本下降了60%。
得到的Alaya-UI的性能也在基礎(chǔ)模型的基礎(chǔ)上大幅提升——在OSWorld基準(zhǔn)上,Alaya-UI的任務(wù)完成率從6.87%躍升至24.8%。
經(jīng)過更多實(shí)驗(yàn)驗(yàn)證,AgentiCTRL能將端到端訓(xùn)練效率提升5倍以上,而在同等任務(wù)規(guī)模下,其整體成本可下降60%,堪稱當(dāng)前最具性價比的強(qiáng)化學(xué)習(xí)云平臺。
換句話說,九章云極不是在已有AI云平臺之上「追加一個強(qiáng)化學(xué)習(xí)模塊」,而是以強(qiáng)化學(xué)習(xí)為原生能力,重構(gòu)了整個智能計(jì)算平臺的架構(gòu)與邏輯。
這正是九章云極能夠走在行業(yè)前列的核心原因。
不止于平臺
九章云極的智能基礎(chǔ)設(shè)施戰(zhàn)略布局
強(qiáng)化學(xué)習(xí)云平臺只是表層,真正讓九章云極在強(qiáng)化學(xué)習(xí)競賽中跑在最前面的,是其對下一代AI云本質(zhì)的前沿探索。
傳統(tǒng)的云計(jì)算廠商,往往將AI能力作為「功能補(bǔ)丁」疊加在通用云之上,更多是在做資源分發(fā)和算力服務(wù),更像是一種裸金屬(baremetal)的供給模式。而九章云極的戰(zhàn)略方向明確而清晰:強(qiáng)化學(xué)習(xí)不是一個云服務(wù)模塊,而是未來AI云的操作系統(tǒng)級能力,是支撐智能體系統(tǒng)運(yùn)行的調(diào)度中樞、學(xué)習(xí)引擎和演化機(jī)制。
可以說,九章云極前沿探索的核心是圍繞智能體構(gòu)建完整的原生云基礎(chǔ)設(shè)施。這不僅包括支持強(qiáng)化學(xué)習(xí)的算力資源,更包括三層能力的同步建設(shè):
底層是軟件定義的AI基礎(chǔ)設(shè)施,其中包括異構(gòu)算力資源、高性能分布式存儲和高性能網(wǎng)絡(luò)系統(tǒng)的統(tǒng)一調(diào)度與編排。
中層是九章智算操作系統(tǒng)AlayaNeWOS,是工作負(fù)載的抽象與調(diào)度邏輯層,其中包括Serverless架構(gòu)、AI導(dǎo)向的數(shù)據(jù)中心架構(gòu)、多AIDC訓(xùn)練架構(gòu)、異構(gòu)資源調(diào)度、AI原生、分布式算網(wǎng)。
上層則是九章智算云AlayaNeWCloud,其中包括大模型開發(fā)套件、大模型推理平臺、強(qiáng)化學(xué)習(xí)云平臺、彈性容器平臺VKS和專享容器平臺DKS;它們共同組成了面向開發(fā)者、模型廠商、應(yīng)用企業(yè)的API與工具鏈系統(tǒng)。
實(shí)際上,九章智算云不僅是九章云極強(qiáng)化學(xué)習(xí)平臺的算力底座,更是其智能基礎(chǔ)設(shè)施戰(zhàn)略的核心支點(diǎn)。在強(qiáng)化學(xué)習(xí)仍被視為高門檻科研專屬的當(dāng)下,九章智算云以「1度算力」為度量單位,率先提出普惠化AI計(jì)算標(biāo)準(zhǔn),從資源調(diào)度方式、價格模型到工作負(fù)載適配方式,全面對齊智能體時代的訓(xùn)練需求。
不同于傳統(tǒng)云廠商依賴GPU售賣或按卡計(jì)費(fèi)的裸金屬邏輯,九章智算云提供了真正按使用量計(jì)價的serverless架構(gòu),這不僅降低了門檻,更實(shí)質(zhì)性打通了「人人可用AI」的最后一公里。
正如圖靈獎得主、「ArtificialIntellgence」這一技術(shù)術(shù)語的提出者約翰?麥卡錫(JohnMcCarthy)曾說過的那樣:算力應(yīng)該像水電資源一樣隨用隨取?,F(xiàn)在,九章智算云正在實(shí)踐這一愿景。
而在調(diào)度能力方面,九章智算云通過自主研發(fā)的異構(gòu)算力操作系統(tǒng)與AI-native的資源管理系統(tǒng),實(shí)現(xiàn)了彈性調(diào)度+異構(gòu)支持+多租戶隔離的完備能力,成功突破「秒級生成百萬級token」的性能瓶頸,并且其GPU利用率甚至可超過95%,總擁有成本(TCO)相比傳統(tǒng)方案降低達(dá)60%,形成了明顯的「性能/價格比」優(yōu)勢。
不僅如此,九章智算云在產(chǎn)業(yè)賦能上的落地表現(xiàn)也已具備規(guī)模優(yōu)勢,當(dāng)前已在政務(wù)、金融、通信、制造、能源、交通、生物醫(yī)藥等多個關(guān)鍵行業(yè)實(shí)現(xiàn)部署,并支撐多個RL模型及智能體系統(tǒng)的在線訓(xùn)練與推理任務(wù)。在國內(nèi)市場同類平臺中,其智能體訓(xùn)練任務(wù)承載能力和調(diào)度效率長期保持領(lǐng)先,穩(wěn)居強(qiáng)化學(xué)習(xí)云領(lǐng)域第一梯隊(duì)。
正是在這些能力的加持下,九章云極才得以在強(qiáng)化學(xué)習(xí)的產(chǎn)業(yè)化路徑上率先跑通「從訓(xùn)練引擎到產(chǎn)業(yè)部署」的全流程閉環(huán),并以此為基礎(chǔ),構(gòu)建起屬于自己的AI云原生生態(tài)護(hù)城河。
看起來,九章云極的戰(zhàn)略視野并不局限于細(xì)節(jié)的技術(shù)層面,而是放眼未來AI的基礎(chǔ)設(shè)施主導(dǎo)權(quán):在大模型標(biāo)準(zhǔn)趨于同質(zhì)化的今天,誰能主導(dǎo)智能體運(yùn)行的「訓(xùn)練-反饋-部署」閉環(huán)平臺,誰就能在下一代AI生態(tài)中占據(jù)支點(diǎn)位置。而九章云極,已經(jīng)擁有自己的獨(dú)特優(yōu)勢。
順帶一提,為了加速這一戰(zhàn)略落地,九章云極還啟動了「AI-STAR企業(yè)生態(tài)聯(lián)盟」,并與賽富投資基金等多家產(chǎn)業(yè)機(jī)構(gòu)聯(lián)合設(shè)立了「AI-STAR智算生態(tài)基金」,首期投入1.8億元,期望吸引算法公司、開源社區(qū)、行業(yè)客戶共同參與強(qiáng)化學(xué)習(xí)平臺的生態(tài)建設(shè)。這不僅為AgentiCTRL拓展了豐富的應(yīng)用場景,也為智能體應(yīng)用在金融、工業(yè)、能源等高價值行業(yè)的規(guī)?;涞靥峁┝藢?shí)踐基礎(chǔ)。
因此,AgentiCTRL的發(fā)布并不是一個孤立事件,而是九章云極未來路線圖中的關(guān)鍵一步。在這一邏輯下,平臺能力、開發(fā)工具、生態(tài)伙伴、資本配置……正共同構(gòu)成一個面向未來十年的智能計(jì)算戰(zhàn)略。
強(qiáng)化學(xué)習(xí)云第一云!
是做出來的
當(dāng)強(qiáng)化學(xué)習(xí)成為智能體模型訓(xùn)練的核心引擎,決定下一輪AI基礎(chǔ)設(shè)施競爭勝負(fù)的,很可能是「可用」與「可規(guī)?;怪g的距離。
九章云極用AgentiCTRL平臺證明,強(qiáng)化學(xué)習(xí)云的成功落地絕不僅僅是一次算力堆疊或平臺加法,而是一場從底層架構(gòu)到運(yùn)行邏輯的系統(tǒng)性重建:支持萬卡級異構(gòu)調(diào)度、Serverless彈性架構(gòu)、強(qiáng)化學(xué)習(xí)工作負(fù)載原生抽象……這些綜合起來就不再只是簡單的優(yōu)化,而是范式躍遷。
從客戶視角看,這種躍遷可以帶來直接而確定性的價值回報:
開發(fā)門檻顯著降低:無需自建環(huán)境、編排節(jié)點(diǎn)、維護(hù)資源,RL訓(xùn)練變得像調(diào)用API一樣簡單;
訓(xùn)練效率大幅提升:端到端性能可提升5倍;
成本結(jié)構(gòu)全面重塑:資源調(diào)度更高效,綜合成本最多可下降60%,讓RL真正進(jìn)入性價比可控區(qū)間。
更重要的是,九章云極從一開始就不是只做「RL工具鏈供應(yīng)商」,而是在構(gòu)建一個支持智能體運(yùn)行的操作系統(tǒng)級云平臺。
在未來,強(qiáng)化學(xué)習(xí)不會是「少數(shù)人的科研特權(quán)」,而將成為AI系統(tǒng)中的常規(guī)能力組件。誰能將它從實(shí)驗(yàn)室拉入工程化生產(chǎn)環(huán)境,誰就掌握了創(chuàng)造未來的先機(jī)。而九章云極,已經(jīng)走在了前面。
當(dāng)智能體原生時代真正到來,我們可能會重新回頭審視這場轉(zhuǎn)變的起點(diǎn)。而那時,我們會看到,九章云極及其創(chuàng)造的AgentiCTRL或許正是它最早的鋪路者。
耳東水壽:創(chuàng)作《民調(diào)局異聞錄》系列的懸疑大師
耳東水壽,本名陳濤,天涯2012年十大作者和暢銷書作家__。這位才華橫溢的小說家,自出道以來,就以其獨(dú)特的故事情節(jié)和精彩的文筆贏得了廣大讀者的喜愛。他的代表作品分別為《民調(diào)局異聞錄》《民調(diào)局異聞錄后傳》《民調(diào)局異聞錄之勉傳》《民調(diào)局異聞錄之最終篇章》《暗夜將至》《民國盜墓往事》等,每一部作品都堪稱精品,令人回味無窮——|。 凜冬將至,暗夜降臨,它們只能以余燼的形態(tài)為世人發(fā)現(xiàn)-。大東山之戰(zhàn)后,范閑對長公主說:“史書總有一日會被人淡忘,黃紙會被掃入垃圾堆中,可是對這個世界的真正改變,卻會一直保留下去。”[13]可以為世界而燃燒自己的人,真正在乎的是“改變世界”,而不是“解釋世界”(包括壟斷解釋權(quán),獲得生前身后名)-|。..小說:少年狄仁杰解謎十大詭異國寶,三界殺戮中尋真相!