柯一堯
機器之心報道
沒等來DeepSeek官方的R2,卻迎來了一個速度更快、性能不弱于R1的「野生」變體!
這兩天,一個名為「DeepSeekR1T2」的模型火了!
這個模型的速度比R1-0528快200%,比R1快20%。除了速度上的顯著優(yōu)勢,它在GPQADiamond(專家級推理能力問答基準(zhǔn))和AIME24(數(shù)學(xué)推理基準(zhǔn))上的表現(xiàn)均優(yōu)于R1,但未達(dá)到R1-0528的水平。
在技術(shù)層面,采用了專家組合(AssemblyofExperts,AoE)技術(shù)開發(fā),并融合了DeepSeek官方的V3、R1和R1-0528三大模型。
當(dāng)然,這個模型也是開源的,遵循MIT協(xié)議,并在HuggingFace上開放了權(quán)重。
HuggingFace地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
經(jīng)過進(jìn)一步了解,我們發(fā)現(xiàn):DeepSeekR1T2是德國一家AI咨詢公司「TNG」推出的,模型全稱為「DeepSeek-TNGR1T2Chimera」(以下簡稱R1T2)。
該模型除了前文提到的在智力水平和輸出效率之間實現(xiàn)完美平衡之外,相較于這家公司的初代模型「R1TChimera」,智力大幅躍升,并實現(xiàn)了突破性的think-token一致性。
不僅如此,即使在沒有任何系統(tǒng)提示的情況下,該模型也能表現(xiàn)穩(wěn)定,提供自然的對話交互體驗。
在評論區(qū),有人誤以為這個模型出自DeepSeek官方,并且認(rèn)為他們是不是也在走相同的路線:給模型起各種名稱,就是不用主系列下一代版本號?
更多的人認(rèn)可該模型「找到了智能與輸出token長度之間的最佳平衡點,并且提升了速度」,并對該模型在現(xiàn)實世界的表現(xiàn)充滿了期待。
模型細(xì)節(jié)概覽
從HuggingFace主頁來看,R1T2是一個基于DeepSeekR1-0528、R1以及V3-0324模型構(gòu)建的AoEChimera模型。
該模型是一個采用DeepSeek-MoETransformer架構(gòu)的大語言模型,參數(shù)規(guī)模為671B。
R1T2是該公司4月26日發(fā)布的初代模型「R1TChimera」的首個迭代版本。相較于利用雙基模型(V3-0324+R1)的初代架構(gòu),本次升級到了三心智(Tri-Mind)融合架構(gòu),新增基模型R1-0528。
該模型采用AoE技術(shù)構(gòu)建,過程中利用較高精度的直接腦區(qū)編輯(directbrainedits)實現(xiàn)。這種精密融合不僅帶來全方位提升,更徹底解決了初代R1T的token一致性缺陷。
團隊表示,R1T2對比其他模型具備如下優(yōu)劣:
與DeepSeekR1對比:R1T2有望成為R1的理想替代品,兩者幾乎可以通用,并且R1T2性能更佳,可直接替換。
與R1-0528對比:如果不需要達(dá)到0528級別的最高智能,R1T2相比之下更加經(jīng)濟。
與R1T對比:通常更建議使用R1T2,除非R1T的特定人格是最佳選擇、思考token問題不重要,或者極度需求速度。
與DeepSeekV3-0324對比:V3速度更快,如果不太關(guān)注智能可以選擇V3;但是,如果需要推理能力,R1T2是首選。
此外,R1T2的幾點局限性表現(xiàn)在:
R1-0528雖推理耗時更長,但在高難度基準(zhǔn)測試中仍優(yōu)于R1T2;
經(jīng)SpeechMap.ai(由xlr8harder提供)測評,R1T2應(yīng)答克制度(reserved)顯著高于R1T,但低于R1-0528;
暫不支持函數(shù)調(diào)用:受R1基模型影響,現(xiàn)階段不推薦函數(shù)調(diào)用密集型場景(后續(xù)版本可能修復(fù));
基準(zhǔn)測試變更說明:開發(fā)版由AIME24+MT-Bench變更為AIME24/25+GPQA-Diamond測評體系,新體系下R1與初代R1T的分差較早期公布數(shù)據(jù)更大。
最后,關(guān)于R1T2中重要的AoE技術(shù),可以參考以下論文。
論文標(biāo)題:AssemblyofExperts:Linear-timeconstructionoftheChimeraLLMvariantswithemergentandadaptablebehaviors
幾本虐到極致的經(jīng)典古言盤點,你敢看嗎?
誰才是真正的幕后之?dāng)??誰又是值得信賴的朋友?一部關(guān)于朝堂和戰(zhàn)場的架空故事,一場圍繞皇權(quán)之爭的宮心詭計,一段早有約定卻又經(jīng)歷生離死別的傳奇愛戀——。不是東籬菊下人,但從方寸論乾坤_-。青梅煮酒男兒事,歸來記取雪三分。書評:一篇很好的文,文筆好,故事講很從容,里面人物描寫很獨特,有立體感,文中人物偶爾說完了。
三本精彩絕倫的穿越小說,書荒時的好糧草,你值得擁有
4《鳳斗宮心》作者:蕭若汐精彩片段:她,體態(tài)嬌美似玉,卻因一道圣旨,不得不割舍心儀之人。她,性格溫婉賢淑,卻因人心叵測,不得不變得心狠手辣||。她,頭腦冰雪聰慧,卻因陷入情網(wǎng),不得不禁足宮中數(shù)年。一個背負(fù)家族使命的少女,一個渴望愛情美滿的女子,一個痛失閨蜜復(fù)仇的女人,最終正襟危坐于鳳椅之上,..
六本不出名卻很好看的穿越小說,開掛逆襲虐渣,驚艷世人一世榮寵
第一本:《盛寵宮心》作者:顧小代精彩內(nèi)容:傅笑曉一轉(zhuǎn)頭,只見朱厚照一雙深若漆潭的眼睛正悠悠地盯著她|_。那潭水的深處,有的是痛苦,寂寞和說不清道不明的悲傷。傅笑曉怔了一下,眼前男人的面孔如此熟悉,可目光卻如此生疏。是了,林藍(lán)的眼神從來都是溫柔,鎮(zhèn)定,從容不迫,他的父母都是大學(xué)老師,家庭幸福好了吧!
來源:紅網(wǎng)
作者:許雅菱
編輯:陸尚虹
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。