作者:周源/華爾街見聞
最近有消息稱,小鵬機器人中心新成立智能擬態(tài)部,將目光鎖定于機器人多模態(tài)領域,研究方向涵蓋具身智能原生多模態(tài)大模型、世界模型、空間智能等前沿范疇。
公開消息顯示,掌舵該部門的葛藝瀟履歷奪目。
葛藝瀟曾在騰訊ARCLab擔任技術專家,年僅28歲便晉升為騰訊T12技術專家級,在多模態(tài)領域建樹頗豐,2023年和2024年連續(xù)兩年榮膺騰訊技術突破獎。
在本科畢業(yè)于華中科技大學自動化學院后,葛藝瀟進入香港中文大學MMLab攻讀博士學位,聚焦計算機視覺中的表征學習研究,在NeurIPS、ICLR、ECCV等國際頂級會議發(fā)表多篇論文。
當前包括葛藝瀟在內,該部門僅有3名成員,但這只是起步。目前該部門已開啟社招、校招和實習招聘,招聘崗位為“研究科學家(多模態(tài)方向)”,從職位描述“構建行業(yè)領先的具身智能原生多模態(tài)大模型、世界模型,具備應用于通用人形機器人乃至更多具身場景下的潛力”、以及“打造技術影響力,引領國際行業(yè)發(fā)展”中,能深切感受到小鵬對這個新部門寄予的厚望。
三大研究方向
在機器人技術演進歷程中,傳統(tǒng)機器人在感知與交互層面存在明顯短板,僅能基于單一或少數(shù)幾種信息源開展工作,這極大限制了在復雜環(huán)境中的作業(yè)能力。
首先是具身智能原生多模態(tài)大模型的出現(xiàn),有望從根本上改變這一局面。
這致力于賦予機器人全方位感知與交互能力,使機器人如同人類一般,能同步處理視覺、聽覺、觸覺等多元感知信息。
以家庭服務場景為例,當前多數(shù)家用機器人僅能執(zhí)行簡單的清掃任務,面對復雜指令往往無所適從。
若具身智能原生多模態(tài)大模型取得實質性進展,機器人將可精準識別主人的語音指令、手部動作,同時感知周圍環(huán)境中的障礙物,進而流暢完成諸如收拾房間、照顧老人等復雜且細致的任務。
在工業(yè)生產場景,機器人能綜合視覺識別零部件形狀與位置、觸覺感知裝配力度,實現(xiàn)產品組裝的高效與精準,顯著提升生產效率與質量。
從技術原理看,該模型需要突破多模態(tài)數(shù)據(jù)融合、統(tǒng)一表征學習等難題,構建能對多種感知信息進行協(xié)同處理的架構體系,這對算法設計與算力支撐提出極高要求。
其次,世界模型的構建,旨在讓機器人通過觀察與交互,深度理解世界的運作規(guī)律。
過往機器人在執(zhí)行任務時,嚴重依賴預設程序,面對環(huán)境變化或新任務時靈活性不足,而世界模型能幫助機器人推測感知未觸及的世界狀態(tài)信息,并對未來狀態(tài)變化做出合理預測。
在工廠環(huán)境中,機器人借助世界模型,能深入了解工廠布局、設備運行機制,提前預判執(zhí)行操作時可能出現(xiàn)的問題,如零件供應延遲、操作流程沖突等,從而提前調整工作節(jié)奏與方式,提升生產效率與準確性。
當機器人置身新環(huán)境或面對新任務時,世界模型使其能依據(jù)已有知識經驗進行推理、嘗試,擺脫對預設程序的過度依賴。
比如在物流倉庫,機器人可依據(jù)世界模型理解貨物存儲規(guī)則、搬運流程,在貨物擺放位置改變時,迅速規(guī)劃新的搬運路徑,高效完成貨物搬運任務。
從技術實現(xiàn)角度,世界模型需要整合大量環(huán)境數(shù)據(jù),運用機器學習、強化學習等方法構建能準確反映環(huán)境動態(tài)變化的模型結構,實現(xiàn)對復雜環(huán)境的精確建模與預測。
第三,空間智能聚焦于機器人對三維空間信息的精準理解與高效運用。
在物流倉儲、建筑施工等實際場景中,機器人需要對三維空間中的物體做精準感知與操作。
目前,多數(shù)機器人在空間感知與操作上精度有限,難以滿足復雜任務需求。
具備強大空間智能的機器人能精確判斷物體的位置、形狀、大小及其空間關系,高效完成各類空間任務。
在建筑施工現(xiàn)場,機器人可借助空間智能識別建筑材料位置,規(guī)劃吊運路線,精準完成材料運輸,避免與施工人員、其他設備碰撞;在物流倉儲中,機器人能快速定位貨物存儲位置,優(yōu)化貨物搬運路徑,提高倉儲空間利用率與貨物出入庫效率。
從技術層面剖析,空間智能涉及三維視覺感知、空間推理、路徑規(guī)劃等多個關鍵技術環(huán)節(jié),需要研發(fā)先進的傳感器技術、算法模型以及實時計算能力,以確保機器人能實時、準確地處理復雜的空間信息。
多模態(tài)的戰(zhàn)略價值
小鵬汽車董事長何小鵬今年3月透露,小鵬汽車已在人形機器人產業(yè)深耕5年,未來可能還需投入20年,計劃投入500億元甚至上千億元。
何小鵬還提到小鵬汽車計劃2026年量產面向工業(yè)場景的L3級人形機器人,實現(xiàn)手、腳、眼、腦全向協(xié)同能力。
在5月財報電話會議上,何小鵬披露將在第五代機器人上部署圖靈芯片,大幅提升機器人端側算力,并跨越行業(yè)常用的強化學習小模型和分段式端到端技術路線,直接復用小鵬物理世界基座模型的VLA架構,充分利用云端AI基礎設施,提高機器人智能水平。
此次成立智能擬態(tài)部主攻多模態(tài),是小鵬在機器人領域長期戰(zhàn)略布局的關鍵落子。
多模態(tài)技術堪稱提升機器人智能的核心要素,它打破了傳統(tǒng)機器人感知與交互的局限,讓機器人從多個維度感知世界,獲取更豐富、全面的信息,進而做出更合理、智能的決策,極大拓展了機器人的應用場景與實用價值。
從戰(zhàn)略層面看,小鵬通過聚焦多模態(tài)技術,有望在機器人領域構建差異化競爭優(yōu)勢,為未來在智能出行、家庭服務、工業(yè)生產等多領域的拓展奠定堅實基礎。
具身智能原生多模態(tài)大模型、世界模型、空間智能等研究方向處于行業(yè)前沿,技術難度極大。
在算法優(yōu)化方面,需要突破現(xiàn)有算法局限,開發(fā)能高效處理多模態(tài)數(shù)據(jù)、實現(xiàn)精準預測與決策的新算法;算力支持上,面對海量數(shù)據(jù)處理與復雜模型運算需求,當前算力水平捉襟見肘,亟待提升硬件性能與優(yōu)化計算架構。
還有數(shù)據(jù)質量,高質量、多樣化且標注精準的數(shù)據(jù)是模型訓練的基石,但獲取與整理此類數(shù)據(jù)面臨諸多困難,如數(shù)據(jù)采集成本高、標注準確性難以保證等。
從行業(yè)競爭態(tài)勢看,機器人領域技術路線競爭激烈,各大企業(yè)與科研機構紛紛布局。
小鵬以多模態(tài)為切入點,雖避開部分與巨頭的正面交鋒,但該技術路徑的可行性尚未得到充分驗證,發(fā)展成果存在不確定性。
但要是一旦小鵬在多模態(tài)技術上取得突破,將可能重塑行業(yè)格局,推動機器人行業(yè)向更智能、更高效的方向發(fā)展,為行業(yè)發(fā)展注入新活力與思路。
《失落的秘符》:故弄玄虛的謎題,蘭登教授略顯冗長的解謎過程
《失落的秘符》——塔羅牌溯源線索
揭開《失落的秘符》的神秘面紗