用淼
本文第一作者為新加坡國立大學博士生高崇凱,其余作者為新加坡國立大學博士生劉子軒、實習生池正昊、博士生侯懿文、碩士生張雨軒、實習生林宇迪,中國科學技術(shù)大學本科生黃俊善,清華大學本科生費昕,碩士生方智睿,南洋理工大學碩士生江澤宇。本文的通訊作者為新加坡國立大學助理教授邵林。
為什么機器人能聽懂指令卻做不對動作?語言大模型指揮機器人,真的是最優(yōu)解嗎?端到端的范式到底是不是通向AGI的唯一道路?這些問題背后,藏著機器智能的未來密碼。
近期,新加坡國立大學邵林團隊發(fā)表了一項突破性研究VLA-OS,首次系統(tǒng)性地解構(gòu)和分析了機器人VLA模型進行任務規(guī)劃和推理,進行了任務規(guī)劃表征與模型范式的統(tǒng)一對比。這項工作通過系統(tǒng)、可控、詳細的實驗對比,不僅為研究者提供了翔實的研究成果,更為下一代通用機器人VLA模型指明了方向。
通過VLA-OS,你可以獲得什么:
VLA通用設計指南;結(jié)構(gòu)清晰的VLA代碼庫,擁有集各家之所長(RoboVLM、OpenVLA-OFT)的先進設計;標注好的多模態(tài)任務規(guī)劃數(shù)據(jù)集;規(guī)范的VLA訓練流程。VLA的未來發(fā)展方向啟示。
??論文標題:VLA-OS:StructuringandDissectingPlanningRepresentationsandParadigmsinVision-Language-ActionModelsArxiv:https://arxiv.org/abs/2506.17561項目主頁:https://nus-lins-lab.github.io/vlaos/源代碼:https://github.com/HeegerGao/VLA-OS數(shù)據(jù)集:https://huggingface.co/datasets/Linslab/VLA-OS-Dataset模型:https://huggingface.co/Linslab/VLA-OS
圖1VLA-OS整體概覽
一、疑云密布:VLA模型在進行任務規(guī)劃時到底該怎么做?
VLA模型(Vision-Language-ActionModel)近年來展現(xiàn)出令人印象深刻的、解決復雜任務的操作能力。端到端的VLA模型僅僅使用數(shù)據(jù)驅(qū)動的模仿學習就可以實現(xiàn)過去需要進行復雜系統(tǒng)設計才能完成的任務,直接從圖像和語言的原始輸入映射到機器人的動作空間,展現(xiàn)出了強大的scaleup的潛力。圖2展示了一些端到端的VLA代表性工作。
圖2一些端到端的VLA模型(ActionOnly-VLA)
然而,目前可用于訓練VLA的數(shù)據(jù)集相比起LLM和VLM來說還非常少。因此研究人員最近開始嘗試在VLA中添加任務推理模塊來幫助VLA使用更少的數(shù)據(jù)完成復雜的任務。主流的方式包括兩類:
使用一個端到端的模型來同時進行任務規(guī)劃和策略學習(Integrated-VLA)。這些模型通常會在模仿學習的損失函數(shù)上增加一個用于任務規(guī)劃的損失函數(shù),抑或是增加一些額外的任務規(guī)劃訓練表征,來使得基座大模型同時被任務規(guī)劃和策略學習的任務進行訓練。例如EmbodiedCoT添加了使用自然語言的任務分解的學習過程,而UniVLA采用了目標圖像推理特征的隱式提取。圖3展示了一些代表性工作:
圖3Integrated-VLA的一些工作
使用分層的范式(Hierarchical-VLA),即一個上層模型負責任務規(guī)劃,另一個下層模型負責策略學習,二者之間沒有梯度回傳。例如,Hi-Robot使用一個VLM輸出任務分解后的簡單語言規(guī)劃指令,然后用一個VLA接收分解好的語言指令進行動作。圖4展示了一些代表性工作:
圖4Hierarchical-VLA的一些工作
這些模型都展現(xiàn)出了令人印象深刻的實驗結(jié)果。然而,目前的這些工作互相之間區(qū)別很大,而且這些區(qū)別還是多維度的:從采用的VLMbackbone、訓練數(shù)據(jù)集、網(wǎng)絡架構(gòu)、訓練方法,到針對任務規(guī)劃所采用的范式、表征,都千差萬別,導致我們很難判斷真正的性能提升來源,使得研究者陷入「盲人摸象」的困境。
對于研究者來說,分析清楚這些VLA范式中到底是哪些部分在起作用、哪些部分還需要被提升是很關(guān)鍵的。只有清楚地知道這些,才能看清楚未來的發(fā)展方向和前進道路。
圖5VLA做任務規(guī)劃的變量太多,難以進行深入分析
鑒于這個問題,我們計劃采取控制變量的實驗方法,專注于任務規(guī)劃的「范式」和「表征」兩大方面,然后統(tǒng)一其他因素,并直指五大核心研究問題:
a.我們該選用哪種表征來進行任務規(guī)劃?
b.我們該選用哪種任務規(guī)劃范式?
c.任務規(guī)劃和策略學習,哪部分現(xiàn)在還不夠好?
d.對于采用任務規(guī)劃的VLA模型來說,是否還具備scalinglaw?
e.在VLA中采用任務規(guī)劃后,對性能、泛化性、持續(xù)學習能力有什么樣的提升?
圖6VLA-OS將對其他因素進行統(tǒng)一,使用控制變量的方法研究范式和表征
二、抽絲剝繭:VLA-OS——機器人模型的「樂高式」實驗平臺
為了實現(xiàn)控制變量的實驗目標,我們需要針對VLMbackbone、數(shù)據(jù)集、模型架構(gòu)、訓練方法進行統(tǒng)一。
首先,我們構(gòu)建了架構(gòu)統(tǒng)一、參數(shù)遞增的VLM模型家族。市面上目前并沒有尺寸范圍在0.5B~7B之間的VLM。因此,我們需要自己進行構(gòu)建。我們選取了預訓練好的Qwen2.5LLM的0.5B/1.5B/3B/7B四個模型作為LLM基座,然后為其配上使用DINO+SigLIP的混合視覺編碼器,以及一個映射頭。然后,我們使用LlaVav1.5instruct數(shù)據(jù)集,對整個VLM的所有參數(shù)進行了預訓練,將LLM變成VLM,用于給后續(xù)實驗使用。
圖7VLA-OS可組合模塊家族
然后,我們針對三個VLA的任務規(guī)劃范式,設計了可組合的VLA-OS模型家族,首次實現(xiàn)三大范式的公平對比。我們設計了統(tǒng)一的動作頭(actionhead)和推理頭(planninghead),使用統(tǒng)一的KVCache提取方法來將VLM中的信息輸入給各個頭。如圖7所示。
其中動作頭是一個與LLM骨干網(wǎng)絡具有相同層數(shù)的標準Transformer,在每一層中使用分塊因果注意力(Block-WiseCausalAttention)從LLM骨干網(wǎng)絡的鍵值(KV)中提取輸入信息。規(guī)劃頭中,語言規(guī)劃頭是一個與LLM骨干網(wǎng)絡具有相同層數(shù)的標準Transformer,視覺規(guī)劃頭是一個使用下文定義的坐標編碼詞表的transformer,而目標圖像規(guī)劃頭是一個采用類似于VAR架構(gòu)的自回歸圖像生成器,也是一個與LLM骨干網(wǎng)絡具有相同層數(shù)的標準Transformer。值得注意的是,我們的代碼結(jié)構(gòu)兼容HuggingFace上的LLM,而不是某一種特定的LLMbackbone。
針對三種VLA范式(ActionOnly-VLA、Integrated-VLA、Hierarchical-VLA),我們組合使用VLA-OS的標準模塊,構(gòu)建了對應的VLA-OS模型實現(xiàn),如圖所示:
圖8VLA-OS研究的三種VLA范式和對應的網(wǎng)絡實現(xiàn)
接著,為了構(gòu)建能夠?qū)θ蝿找?guī)劃進行研究的統(tǒng)一、廣泛、多樣的訓練數(shù)據(jù)集,我們整理和收集了六類數(shù)據(jù)集,并對它們做了統(tǒng)一的多模態(tài)任務規(guī)劃表征標注。它們包括:
LIBERO:一個桌面級2D視覺機器人仿真操作任務集合;TheCOLOSSEUM:一個桌面級的3D視覺機器人仿真操作任務集合;真實世界的可形變物體操作任務集合DexArt:一個靈巧手的仿真操作任務集合;FurnitureBench:一個精細的、長時序任務的機器人仿真平臺操作任務集合;PerAct2:一個桌面級3D視覺雙臂機器人仿真操作任務集合。
我們的數(shù)據(jù)集總共包括大約10,000條軌跡,在視覺模態(tài)(2D和3D)、操作環(huán)境(仿真、現(xiàn)實)、執(zhí)行器種類(夾爪、靈巧手)、物體種類(固體、鉸鏈物體、可形變物體)、機械臂數(shù)量(單臂、雙臂)等維度上都具有廣泛的覆蓋性。
圖9VLA-OS六大數(shù)據(jù)集
在此基礎上,我們設計了三種任務規(guī)劃表征,并針對所有數(shù)據(jù)進行了統(tǒng)一標注:
語言規(guī)劃。語言規(guī)劃數(shù)據(jù)在每個時間步包含8個不同的鍵,包括Task、Plan、Subtask、SubtaskReason、Move、MoveReason、GripperPosition和ObjectBoundingBoxes。這些鍵包含對場景的理解和任務的分解。例如,對于「openthetopdrawerofthecabinet」這個任務來說,語言規(guī)劃的標注為:TASK:Openthetopdrawerofthecabinet.PLAN:1.Approachthecabinet.2.Locatethetopdrawer.3.Locateandgraspthedrawerhandle.4.Openthedrawer.5.Stop.VISIBLEOBJECTS:akitablackbowl[100,129,133,155],plate[17,131,56,158],woodencabinet[164,75,224,175]SUBTASKREASONING:Thetopdrawerhasbeenlocated;therobotnowneedstopositionitselftograspthehandle.SUBTASK:Locateandgraspthedrawerhandle.MOVEREASONING:Movingleftalignstherobot'sendeffectorwiththedrawerhandle.MOVE:moveleftGRIPPERPOSITION:[167,102,166,102,165,102,164,102,162,102,161,102,160,102,158,102,156,102,154,102,153,102,151,102,149,102,147,102,145,102,143,102]視覺規(guī)劃。視覺規(guī)劃包含了三種扎根在圖像上的空間語義信息。我們將整個圖像分為32x32個網(wǎng)格,采用位置標記來表示從左上到右下的第i個網(wǎng)格。我們使用這種位置標記對所有物體的邊界框、末端執(zhí)行器位置流和目標物體可供性這三種表征作為視覺規(guī)劃表示。例如,對于「Putthecreamcheeseboxandthebutterinthebasket」,視覺規(guī)劃表示的結(jié)果為:VISUALOBJECTBBOXES:alphabetsoup[],creamcheese[],tomatosauce[],ketchup[],orangejuice[],milk[],butter[],basket[VISUALEEFLOW:VISUALAFFORDANCE:目標圖像規(guī)劃。目標圖像規(guī)劃直接使用第K個未來步驟的圖像作為目標圖像。
圖10VLA-OS的三種規(guī)劃表征
三、水落石出:視覺表征與分層范式崛起
針對規(guī)劃表征和VLA范式,我們通過6大測試數(shù)據(jù)集、超百次實驗,得出14條有價值的發(fā)現(xiàn)。這些發(fā)現(xiàn)展示出了視覺規(guī)劃表征和目標圖像表征相比起語言表征的優(yōu)勢,以及分層VLA范式相比起其他范式的未來發(fā)展?jié)摿Α?/p>
發(fā)現(xiàn)1:VLA模型結(jié)構(gòu)和訓練算法仍然很影響性能,VLA的scaleup時刻還未到來。
我們首先針對VLA-OS模型進行了性能測試。在LIBERObenchmark上,我們對比了現(xiàn)有的常見VLA模型,涵蓋各種尺寸、是否預訓練、是否做任務規(guī)劃等等。我們對所有的模型都在相應的LIBERO數(shù)據(jù)集上進行了訓練,結(jié)果如下圖所示:
圖11VLA-OS和其他模型的性能對比
我們可以看到,VLA-OS-A的性能優(yōu)于trainfromscratch的DiffusionPolicy(提升13.2%),預訓練+微調(diào)后的OpenVLA模型(提升9.1%)、CoT-VLA(提升4.5%)以及DiTPolicy(提升3.2%),并與預訓練+微調(diào)后的π?-FAST(提升0.1%)表現(xiàn)相當。
盡管本模型尚不及當前最先進(SOTA)的一些方法,但上述結(jié)果已充分表明我們模型的設計具有良好的性能和競爭力。需特別指出的是,VLA-OS-A是在無預訓練的條件下從頭開始訓練的,并僅使用了參數(shù)規(guī)模為0.5B的語言模型作為骨干網(wǎng)絡。
發(fā)現(xiàn)2:對于Integrated-VLA來說,隱式任務規(guī)劃比顯式任務規(guī)劃更好。
我們在LIBERO-LONG基準測試集上開展了語言規(guī)劃、視覺規(guī)劃、圖像前瞻規(guī)劃及其組合方式的實驗。該基準包含10個長時間跨度任務,每個任務提供50條示教軌跡,旨在評估Integrated-VLA模型中隱式規(guī)劃與顯式規(guī)劃變體的性能表現(xiàn)。實驗結(jié)果如下所示。
圖12隱式和顯式的Integrated-VLA性能對比
隱式規(guī)劃范式通過引入多種輔助任務規(guī)劃目標作為訓練過程中的附加損失項,從而在不改變推理階段行為的前提下,相較于ActionOnly-VLA實現(xiàn)性能提升。
這表明,將任務規(guī)劃作為輔助損失引入訓練可以有效提高模型性能;然而,顯式規(guī)劃范式性能卻發(fā)生下降,這可能是因為:1)在推理階段,顯式規(guī)劃必須先完成整個規(guī)劃過程,隨后才能生成動作輸出,可能帶來規(guī)劃誤差累積問題。
通常,規(guī)劃token的長度遠遠超過動作token(約為2000對8);2)顯式規(guī)劃的策略損失梯度會同時回傳給VLM和任務規(guī)劃頭,可能導致梯度沖突。
發(fā)現(xiàn)3:相較于語言規(guī)劃表示,基于視覺的規(guī)劃表示(視覺規(guī)劃和目標圖像規(guī)劃)在性能上表現(xiàn)更優(yōu),且具有更快的推理速度與更低的訓練成本。
我們在LIBERO-LONG基準測試集上開展了語言規(guī)劃、視覺規(guī)劃、圖像前瞻規(guī)劃及其多種組合方式的實驗。該基準包含10個長時間跨度任務,每個任務提供50條示范,旨在系統(tǒng)評估不同類型規(guī)劃表示的性能表現(xiàn)。實驗結(jié)果如下所示。
圖13不同規(guī)劃表征的性能對比
發(fā)現(xiàn)4:在同時采用多種規(guī)劃表示的情況下,Hierarchical-VLA相較于Integrated-VLA范式表現(xiàn)出更優(yōu)的性能。
我們在LIBERO-LONG基準測試集上展示了Integrated-VLA與Hierarchical-VLA兩種范式在不同規(guī)劃表示下的性能對比結(jié)果。
圖14同時使用多種規(guī)劃表征的性能對比
發(fā)現(xiàn)5:Integrated-VLA與Hierarchical-VLA在二維、三維、仿真及真實環(huán)境等多種任務中均顯著優(yōu)于ActionOnly-VLA,且兩者整體性能相近。
我們在六個基準測試集上展示了所有VLA范式的性能表現(xiàn)及其平均成功率??梢钥闯?,Integrated-VLA與Hierarchical-VLA在所有基準上均優(yōu)于ActionOnly-VLA,且兩者之間的性能差距較小,表現(xiàn)整體接近。
圖15多種benchmark上的各種VLA范式性能對比
發(fā)現(xiàn)6:Integrated-VLA與Hierarchical-VLA在任務規(guī)劃預訓練中均表現(xiàn)出相似的收益,任務成功率均有所提升,增幅相近。
發(fā)現(xiàn)7:Hierarchical-VLA展現(xiàn)出最強的泛化能力。
我們展示了所有VLA范式在The-Colosseum(ALL-Perturbation)基準測試集上的泛化性能,以及Integrated-VLA與Hierarchical-VLA在LIBERO-90上進行任務規(guī)劃預訓練后的性能提升情況,并在LIBERO-LONG上進行了測試評估。
結(jié)果表明,Hierarchical-VLA實現(xiàn)了最優(yōu)的泛化性能,而Integrated-VLA與Hierarchical-VLA均能從任務規(guī)劃預訓練中獲得相似的性能提升。
圖16泛化性能對比
發(fā)現(xiàn)8:Hierarchical-VLA在任務規(guī)劃方面優(yōu)于Integrated-VLA。
為了明確任務失敗是源于規(guī)劃模塊還是策略學習模塊,我們對Integrated-VLA(僅評估其任務規(guī)劃部分)與Hierarchical-VLA在LIBERO-LONG基準上進行分析性評估,覆蓋三種不同的規(guī)劃表示形式。
具體地,我們手動將每個長時序任務劃分為若干子任務,并在評估過程中強制將環(huán)境重置至各子任務的初始狀態(tài)。我們分別計算每個子任務起點對應的規(guī)劃輸出的平均正確率(0或1)以及動作頭的執(zhí)行成功率(0或1),從而獲得每個任務軌跡的任務分解得分(TaskDecompositionScore,DCS)與策略執(zhí)行得分(PolicyFollowingScore,PFS)。需要指出的是,對于Hierarchical-VLA,我們在測試PFS時提供了任務規(guī)劃的真實結(jié)果(groundtruth)。
圖17純規(guī)劃性能對比
我們可以觀察到,在不同的規(guī)劃表示下,Hierarchical-VLA在任務規(guī)劃方面始終優(yōu)于Integrated-VLA,表現(xiàn)出更強的規(guī)劃能力。
發(fā)現(xiàn)9:基于視覺的規(guī)劃表示更易于底層策略的跟隨。
如上所述,我們展示了Hierarchical-VLA在不同規(guī)劃表示下的策略執(zhí)行得分(PolicyFollowingScore,PFS),用于衡量底層策略對規(guī)劃結(jié)果的執(zhí)行能力。結(jié)果表明,基于視覺的規(guī)劃表示在策略執(zhí)行過程中具有更高的可跟隨性。
圖18下層策略跟隨任務規(guī)劃性能對比
我們可以觀察到,基于視覺的規(guī)劃表示(包括視覺規(guī)劃與圖像前瞻規(guī)劃)更易于被底層策略所跟隨,表現(xiàn)出更高的策略可執(zhí)行性。
發(fā)現(xiàn)10:語言規(guī)劃表示頭的自回歸特性是其訓練成本較高和推理速度較慢的主要原因。為進一步探究不同規(guī)劃表示在訓練成本與推理速度上的差異,我們在下圖中展示了Hierarchical-VLA中不同規(guī)劃頭的前向傳播過程。
圖19不同規(guī)劃頭之間的工作模式對比
由于語言規(guī)劃頭與視覺規(guī)劃頭具備自回歸特性,它們在生成規(guī)劃token時需進行數(shù)百次前向傳播,導致訓練成本較高、推理速度較慢;而圖像前瞻規(guī)劃頭(本工作中采用類似VAR的生成器)僅需前向傳播7次即可生成完整的規(guī)劃token,推理開銷大約是語言與視覺規(guī)劃頭的1/100,顯著更高效。
發(fā)現(xiàn)11:所有VLA范式的性能隨著標注動作的示范數(shù)據(jù)量增加而提升,具備良好的數(shù)據(jù)可擴展性。
為評估數(shù)據(jù)可擴展性,我們在LIBERO-LONG數(shù)據(jù)集上進行實驗,該數(shù)據(jù)集包含10個任務,共計500條示范。我們分別使用10%、40%、70%和100%的數(shù)據(jù)量對三種VLA范式(模型規(guī)模為S)進行訓練,并評估其性能隨數(shù)據(jù)規(guī)模變化的趨勢。
圖20VLA的數(shù)據(jù)可擴展性
我們可以看到,所有VLA范式均具備良好的數(shù)據(jù)可擴展性,隨著標注動作示范數(shù)據(jù)量的增加,其性能穩(wěn)步提升。
發(fā)現(xiàn)12:在約5,000條示范數(shù)據(jù)的「從零訓練」任務中,LLM骨干網(wǎng)絡應限制在0.5B參數(shù)規(guī)模以內(nèi),或總模型參數(shù)規(guī)模不超過1B,才能獲得更優(yōu)的性能表現(xiàn)。
為評估模型可擴展性,我們在LIBERO-90數(shù)據(jù)集上進行了實驗,該數(shù)據(jù)集包含90個任務,共計4,500條示范。我們使用全部訓練數(shù)據(jù),選取了不同參數(shù)規(guī)模(0.5B、1.5B、3B和7B)的Qwen-2.5語言模型作為骨干網(wǎng)絡進行對比實驗,以探索模型規(guī)模對性能的影響。
圖21VLA的模型可擴展性
我們可以觀察到,隨著模型規(guī)模的增大,各種VLA范式的性能并未隨之提升,反而在模型規(guī)模超過3B時出現(xiàn)下降的趨勢。
發(fā)現(xiàn)13:相比不含任務規(guī)劃的范式(ActionOnly-VLA),包含任務規(guī)劃的VLA范式(Integrated-VLA與Hierarchical-VLA)在前向遷移能力上更強,但遺忘速度也更快。
我們在LIBERO-LONG的10個任務上,按照任務順序?qū)θNVLA范式進行持續(xù)學習能力評估。實驗中采用SequentialFinetuning(SEQL)作為終身學習算法,評估指標采用LIBERO提供的原始度量方式,包括前向遷移(ForwardTransfer,F(xiàn)WT)和負向后向遷移(NegativeBackwardTransfer,NBT)。
圖22不同VLA范式的持續(xù)學習能力
發(fā)現(xiàn)14:相較于基于語言的規(guī)劃表示,基于視覺的規(guī)劃表示在持續(xù)學習中展現(xiàn)出更優(yōu)的前向遷移能力,且遺忘速度更慢。
我們在LIBERO-LONG的10個任務上,依次測試三種規(guī)劃表示在持續(xù)學習場景下的表現(xiàn)。實驗統(tǒng)一采用SequentialFinetuning(SEQL)作為終身學習算法,并使用LIBERO提供的原始評估指標,包括前向遷移(ForwardTransfer,F(xiàn)WT)和負向后向遷移(NegativeBackwardTransfer,NBT)。
圖23不同規(guī)劃表征的持續(xù)學習能力
四、月映萬川:機器人VLA模型的「第一性原理」
設計指南(抄作業(yè)時間?。?/p>
a)首選視覺表征規(guī)劃和目標圖像規(guī)劃,語言規(guī)劃僅作為輔助;
b)資源充足選分層VLA(Hierarchical-VLA),資源有限選隱式聯(lián)合(Integrated-VLA)。
c)對于小于五千條示教軌跡的下游任務來說,模型規(guī)??刂圃?B參數(shù)內(nèi)完全夠用。
破解長期謎題
a)目前VLA的結(jié)構(gòu)和算法設計仍然很重要,還沒有到無腦scaleup的時刻。
b)策略學習和任務規(guī)劃目前來說都還需要提升。
c)任務規(guī)劃預訓練是有效的。d)持續(xù)學習的代價:規(guī)劃模型前向遷移能力更強,但遺忘速度更快。
未來四大方向
視覺為何優(yōu)于語言?→探索空間表征的神經(jīng)機制理論上來說,三種規(guī)劃表征針對于目標操作任務所提供的信息均是完備的,那么為什么會有如此大的性能偏差呢?如何避免規(guī)劃與動作的梯度沖突?→設計解耦訓練機制無論是在隱式Integrated-VLA和顯式Integrated-VLA的比較,還是在分層VLA和Integrated-VLA的泛化比較中,都是「損失函數(shù)解耦」的一方獲勝,也即任務規(guī)劃的損失梯度和策略動作的損失梯度耦合地越少,最終效果越好。超越KV提取→開發(fā)更高效的VLM信息蒸餾架構(gòu)VLA-OS目前采用的是類似于的模型結(jié)構(gòu)設計,也就是提取每一層LLM的KV來給動作頭和規(guī)劃頭。但是,這使得動作頭和規(guī)劃頭的設計受限(例如,它們都必須和LLM有同樣多的層數(shù)的Transformer)。是否還有更為高效、限制更少的設計?構(gòu)建萬億級規(guī)劃數(shù)據(jù)集→推動「規(guī)劃大模型」誕生VLA-OS的實驗確認了無論使用哪種范式,增加任務規(guī)劃都會對模型性能有提升,而且對規(guī)劃頭進行預訓練還會進一步提升性能。因此,如何構(gòu)建足夠量的機器人操作任務規(guī)劃數(shù)據(jù)集將是很有前景的方向。
看到“10后”寫的新杭州故事,破防了!
童年時大家可能嫌棄學校食堂的飯菜,但是大樂之野的佳肴絕不會令你失望。這里有散養(yǎng)于山林間的家禽,也有捕獲自山溪里的魚蝦,有透骨新鮮的小海鮮,也有香軟酥糯的名糕點。在這里,就像坐上童年的時光機,有小浣熊干脆面、小霸王游戲機,待到放學鈴響,揣上書包相約蹦跶回家,最無憂無慮的時光不過如此了。會員評價 ①等會說-|。
黑道寵文:她聽從爺爺死前安排,閃嫁禁欲帝少,卻被寵成小祖宗!
來源:紅網(wǎng)
作者:蔡玲
編輯:丁思美
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。