勾志強(qiáng)
機(jī)器之心報道
沒等來DeepSeek官方的R2,卻迎來了一個速度更快、性能不弱于R1的「野生」變體!
這兩天,一個名為「DeepSeekR1T2」的模型火了!
這個模型的速度比R1-0528快200%,比R1快20%。除了速度上的顯著優(yōu)勢,它在GPQADiamond(專家級推理能力問答基準(zhǔn))和AIME24(數(shù)學(xué)推理基準(zhǔn))上的表現(xiàn)均優(yōu)于R1,但未達(dá)到R1-0528的水平。
在技術(shù)層面,采用了專家組合(AssemblyofExperts,AoE)技術(shù)開發(fā),并融合了DeepSeek官方的V3、R1和R1-0528三大模型。
當(dāng)然,這個模型也是開源的,遵循MIT協(xié)議,并在HuggingFace上開放了權(quán)重。
HuggingFace地址:https://huggingface.co/tngtech/DeepSeek-TNG-R1T2-Chimera
經(jīng)過進(jìn)一步了解,我們發(fā)現(xiàn):DeepSeekR1T2是德國一家AI咨詢公司「TNG」推出的,模型全稱為「DeepSeek-TNGR1T2Chimera」(以下簡稱R1T2)。
該模型除了前文提到的在智力水平和輸出效率之間實現(xiàn)完美平衡之外,相較于這家公司的初代模型「R1TChimera」,智力大幅躍升,并實現(xiàn)了突破性的think-token一致性。
不僅如此,即使在沒有任何系統(tǒng)提示的情況下,該模型也能表現(xiàn)穩(wěn)定,提供自然的對話交互體驗。
在評論區(qū),有人誤以為這個模型出自DeepSeek官方,并且認(rèn)為他們是不是也在走相同的路線:給模型起各種名稱,就是不用主系列下一代版本號?
更多的人認(rèn)可該模型「找到了智能與輸出token長度之間的最佳平衡點,并且提升了速度」,并對該模型在現(xiàn)實世界的表現(xiàn)充滿了期待。
模型細(xì)節(jié)概覽
從HuggingFace主頁來看,R1T2是一個基于DeepSeekR1-0528、R1以及V3-0324模型構(gòu)建的AoEChimera模型。
該模型是一個采用DeepSeek-MoETransformer架構(gòu)的大語言模型,參數(shù)規(guī)模為671B。
R1T2是該公司4月26日發(fā)布的初代模型「R1TChimera」的首個迭代版本。相較于利用雙基模型(V3-0324+R1)的初代架構(gòu),本次升級到了三心智(Tri-Mind)融合架構(gòu),新增基模型R1-0528。
該模型采用AoE技術(shù)構(gòu)建,過程中利用較高精度的直接腦區(qū)編輯(directbrainedits)實現(xiàn)。這種精密融合不僅帶來全方位提升,更徹底解決了初代R1T的token一致性缺陷。
團(tuán)隊表示,R1T2對比其他模型具備如下優(yōu)劣:
與DeepSeekR1對比:R1T2有望成為R1的理想替代品,兩者幾乎可以通用,并且R1T2性能更佳,可直接替換。
與R1-0528對比:如果不需要達(dá)到0528級別的最高智能,R1T2相比之下更加經(jīng)濟(jì)。
與R1T對比:通常更建議使用R1T2,除非R1T的特定人格是最佳選擇、思考token問題不重要,或者極度需求速度。
與DeepSeekV3-0324對比:V3速度更快,如果不太關(guān)注智能可以選擇V3;但是,如果需要推理能力,R1T2是首選。
此外,R1T2的幾點局限性表現(xiàn)在:
R1-0528雖推理耗時更長,但在高難度基準(zhǔn)測試中仍優(yōu)于R1T2;
經(jīng)SpeechMap.ai(由xlr8harder提供)測評,R1T2應(yīng)答克制度(reserved)顯著高于R1T,但低于R1-0528;
暫不支持函數(shù)調(diào)用:受R1基模型影響,現(xiàn)階段不推薦函數(shù)調(diào)用密集型場景(后續(xù)版本可能修復(fù));
基準(zhǔn)測試變更說明:開發(fā)版由AIME24+MT-Bench變更為AIME24/25+GPQA-Diamond測評體系,新體系下R1與初代R1T的分差較早期公布數(shù)據(jù)更大。
最后,關(guān)于R1T2中重要的AoE技術(shù),可以參考以下論文。
論文標(biāo)題:AssemblyofExperts:Linear-timeconstructionoftheChimeraLLMvariantswithemergentandadaptablebehaviors
13本剛完結(jié)茍道長生流小說,洞天福地閑度日,無人知我是真仙
在這個武俠世界,他憑借實力足以自保,甚至成為一方霸主|——。主角迅速發(fā)現(xiàn)了兩個世界之間的巨大商機(jī)。他利用修仙世界的靈石在武俠世界兌換金銀,再用這些金銀收購珍稀的靈物_。不僅滿足了自己的需求,還通過轉(zhuǎn)手賣出賺取了豐厚的利潤——。為了進(jìn)一步提升實力,他開始在武俠世界修煉氣血武道,并借助修仙世界的丹藥,修為突飛猛進(jìn)-。..
8本已完結(jié)綜武類武俠玄幻小說,滿園花醉三千位,飛揚跋扈獨稱雄
第五本《武俠世界自由行》作者:大江入海字?jǐn)?shù):149.1萬第六本《萬界武俠大冒險》作者:江海橫流字?jǐn)?shù):252.7萬第七本《武俠世界俠客行》作者:大江入海字?jǐn)?shù):193萬以上五本可以放在一起說,因為基調(diào)都是一樣的。首先都是半無敵流的諸天流武俠小說同人,主副背景世界觀;其次都偏小白爽文,主角沙星非常大還有呢?
武俠世界開局滿級神功,陳凡金剛不壞橫掃無敵路
1. 《武俠世界大冒險》作者:五方行盡標(biāo)簽:武俠、同人、諸天流、半無敵流故事梗概:主角王動穿越到一個古典高武世界,成為幫派中的不入流弟子。幸運的是,他擁有溝通諸天武俠世界的石門,得以在多個武俠世界中穿梭。王動一邊在諸天武俠世界中搜集資源提升自己,一邊將收服的武俠人物帶入主世界組建勢力。他在《天龍希望你能滿意|。
來源:紅網(wǎng)
作者:黃宜君
編輯:包子濯
本文為紅辣椒評論 原創(chuàng)文章,僅系作者個人觀點,不代表紅網(wǎng)立場。轉(zhuǎn)載請附原文出處鏈接和本聲明。