機器之心報道
機器之心編輯部
DeepCogito,一家鮮為人知的AI初創(chuàng)公司,總部位于舊金山,由前谷歌員工創(chuàng)立,如今開源的四款混合推理模型,受到大家廣泛關(guān)注。
2款中型——700億參數(shù)稠密模型、1090億MoE模型;2款大型——4050億參數(shù)稠密模型、6710億MoE模型。
每個模型都可以直接作答(標(biāo)準(zhǔn)LLM模式),也可以在作答前進(jìn)行自我反思(類似推理模型)。
其中,最大規(guī)模的671BMoE模型是目前全球最強大的開源模型之一,其性能與最新的DeepSeekv3和DeepSeekR1模型相當(dāng)甚至超越,且接近o3和Claude4Opus等閉源前沿模型。
DeepCogito的核心方法是迭代蒸餾與增強(IteratedDistillationandAmplification,簡稱IDA),它不依賴手工設(shè)計的提示詞或靜態(tài)教師模型,而是利用模型自身不斷演化的洞察力來引導(dǎo)訓(xùn)練。
這一過程不是通過延長推理時間來提升性能,而是讓模型通過迭代式策略改進(jìn)內(nèi)化推理過程。
這是一個全新的擴展范式,使模型逐漸形成更強的直覺,并成為AI自我提升(AI系統(tǒng)自我改進(jìn))概念的有力驗證。
由于Cogito模型在搜索過程中對推理路徑有更好的直覺,其推理鏈比DeepSeekR1縮短了60%。
與普遍認(rèn)為技術(shù)創(chuàng)新需要大量基礎(chǔ)設(shè)施投入的觀點相反,這種方法效率極高——Cogito系列模型(總共8個,本文是其中的4個)的訓(xùn)練總成本不足350萬美元,其中已包含合成與人工數(shù)據(jù)生成、超過一千次訓(xùn)練實驗的所有成本。
現(xiàn)在,用戶可以在Huggingface上下載模型,或者直接通過TogetherAI、Baseten或RunPod上的API使用它們,或者使用Unsloth在本地運行它們。
Huggingface地址:https://huggingface.co/collections/deepcogito/cogito-v2-preview-6886b5450b897ea2a2389a6b
說到DeepCogito,可能許多AI從業(yè)者近期才剛剛開始接觸這家公司,DeepCogito實際上已經(jīng)默默耕耘了一年多的時間。
它于2025年4月正式走出隱身狀態(tài),并發(fā)布了一系列基于Meta的Llama3.2訓(xùn)練的開源模型。那些早期發(fā)布的模型就已展現(xiàn)出頗具前景的表現(xiàn)。
當(dāng)時最小的Cogitov1模型(3B和8B)在多個評測基準(zhǔn)上都超越了同尺寸的Llama3模型,有時差距甚至相當(dāng)明顯。
DeepCogito的聯(lián)合創(chuàng)始人兼CEODrishanArora,此前是谷歌大語言模型核心工程師。他將公司的長期目標(biāo)描述為:構(gòu)建能夠像AlphaGo那樣通過每次迭代不斷進(jìn)行推理和自我提升的模型。
方法介紹
該研究最主要的目標(biāo)是:將推理步驟蒸餾回模型的參數(shù)中,也就是把推理時的搜索過程轉(zhuǎn)化為模型的直覺,融入其內(nèi)在能力中。
今年早些時候,Cogitov1模型上線,該模型當(dāng)時就使用了「迭代蒸餾與增強」技術(shù)。
今天發(fā)布的Cogitov2模型在這一研究路徑上進(jìn)一步拓展到了更大規(guī)模的系統(tǒng)上,并將重點放在IDA的另一個關(guān)鍵部分上——通過蒸餾實現(xiàn)自我改進(jìn)。
在多個特定領(lǐng)域(如國際象棋、圍棋和撲克),AI通過兩步循環(huán)(two-steploop)實現(xiàn)了超人類表現(xiàn):
推理時計算:通過消耗算力來搜索解決方案;策略迭代優(yōu)化:將搜索發(fā)現(xiàn)的知識蒸餾到模型參數(shù)中,使得下次搜索更容易。
在這一模式下,AlphaGo是典型代表,LLM可視為同類系統(tǒng),其推理時間計算雖比游戲系統(tǒng)更非結(jié)構(gòu)化(通過生成答案前的「思考過程」實現(xiàn)),但要完成智能迭代提升的閉環(huán),同樣需要關(guān)鍵的第二步驟——策略迭代優(yōu)化。
也就是說,需要將推理過程蒸餾回模型參數(shù)中,使模型擁有更強的智能先驗。這意味著應(yīng)當(dāng)能夠以某種方式利用推理階段的思考過程,使模型本身變得更有能力或更聰明。模型應(yīng)該能夠直接預(yù)測出推理的結(jié)果(而不是真的執(zhí)行整個推理過程),并預(yù)判自身推理可能產(chǎn)生的結(jié)果。
盡管近期的LLM在推理方面取得了一些進(jìn)展,但這些進(jìn)展大多是依賴于延長推理鏈條,而不是增強模型本身的智能先驗。因此,LLM性能的提升主要依賴于給模型更大的思考預(yù)算(即更多的推理token),也就是多試幾種可能,而非模型對哪條搜索路徑更合適有真正的直覺。同樣地,LLM在非思考模式下的改進(jìn),也主要依賴于加入回溯等啟發(fā)式策略,其本質(zhì)上與窮舉更多路徑?jīng)]有本質(zhì)區(qū)別。
提升模型本身的智能是一個更加困難的根本性問題,尤其是面對語言模型中那種非結(jié)構(gòu)化的推理路徑。要解決這個問題,需要在迭代式策略改進(jìn)方面取得技術(shù)性突破。Cogitov2就是該研究在這個方向上邁出的下一步。
該研究相信,在迭代式策略改進(jìn)方向上持續(xù)研究,將有望實現(xiàn)遠(yuǎn)超單純增加推理token所能帶來的模型能力躍升。
評估
團隊公布了一些標(biāo)準(zhǔn)基準(zhǔn)測試的評估結(jié)果,但特別強調(diào),這些公開基準(zhǔn)測試固然有其參考價值,但它們的結(jié)果與團隊的內(nèi)部評估時常存在差異。
在他們的內(nèi)部評估中,Cogito模型的表現(xiàn)持續(xù)優(yōu)于大多數(shù)開源模型。因此他們相信,自家模型在應(yīng)對真實世界的應(yīng)用和評估時會表現(xiàn)出色。
此外,像o3和Claude4Opus這類前沿的閉源模型,它們的實力也早已超越了這些基準(zhǔn)測試所能衡量的范疇。
報告中還提到了一個有趣的「涌現(xiàn)能力」。盡管Cogitov2的訓(xùn)練數(shù)據(jù)完全是文本,但由于其基座模型具備多模態(tài)能力,它似乎通過純粹的遷移學(xué)習(xí),學(xué)會了對圖像進(jìn)行復(fù)雜的邏輯推理。
在一個示例中,模型在被要求對比兩張風(fēng)馬牛不相及的圖片(一張鴨子和一頭獅子)時,其內(nèi)部的「思考」過程清晰地展示了它如何分析圖像的構(gòu)圖、色彩、主體、環(huán)境乃至情感氛圍,并最終給出了條理清晰的對比。
這種未經(jīng)專門訓(xùn)練而自發(fā)產(chǎn)生的能力,為研究AI的泛化與學(xué)習(xí)機制提供了新的有趣視角。不過團隊尚未通過視覺基準(zhǔn)測試評估此功能。
基準(zhǔn)測試結(jié)果
70BDense
109BMoE
405BDense
671BMoE(非推理)
671BMoE(推理)
https://www.deepcogito.com/research/cogito-v2-preview
你小子,被一個女生甩了就爬山自殺,自殺不成居然還被雷劈了
十二本讓讀者強烈推薦的寶藏爽文,書迷好評如潮,書荒趕緊入手!
十本讓人難以抗拒的熱血爽文,得到老書蟲認(rèn)同,可以熬夜追讀!