曾以低價高性能震撼市場的DeepSeek,為何在自家平臺遇冷,市場份額下滑?背后隱藏的「Token經(jīng)濟學」和這場精心策劃的戰(zhàn)略轉(zhuǎn)移,正悄然改變著AI的價值鏈與分發(fā)模式。
最近,全世界的大廠都在蠢蠢欲動了!
GPT-5、Grok4,甚至Claude,都已經(jīng)紛紛有了消息,一場惡戰(zhàn)仿佛就在眼前!
DeepSeek這邊,似乎也有新動靜了。
就在昨天,一個疑似DeepSeek的新模型現(xiàn)身LMArena。
也有人猜測,這個模型更可能是DeepSeekV4,而DeepSeekR2會稍后發(fā)布。
套路很可能和之前是一樣的,先在第一個月發(fā)布V3,然后在下個月發(fā)布R1。
所以,曾經(jīng)轟動全球AI圈的中國大模型DeepSeekR1,如今怎樣了?
到今天為止,DeepSeekR1已經(jīng)發(fā)布超過150天了。
當時一經(jīng)問世,它就以O(shè)penAI同等級的推理能力和低90%的價格而迅速出圈,甚至一度撼動了西方的資本市場。
可是如今,它在用戶留存和官網(wǎng)流量上卻雙雙遇冷,市場份額持續(xù)下滑。
DeepSeek就這樣曇花一現(xiàn),紅極一時后迅速衰落了?
其實不然,在這背后,其實隱藏著另一條增長曲線——
在第三方平臺上,R1已經(jīng)成爆炸性增長,這背后,正是折射出AI模型分發(fā)與價值鏈的悄然變革。
SemiAnalysis今天發(fā)布的這篇文章,挖出了不少一手的內(nèi)幕信息。
DeepSeek,盛極而衰?
DeepSeek發(fā)布后,消費者應(yīng)用的流量一度激增,市場份額也隨之急劇上升。
為此,SemiAnalysis做出了下面這份統(tǒng)計曲線。
當然,他們也承認,由于中國的用戶活動數(shù)據(jù)難以追蹤,且西方實驗室在中國無法運營,下面這些數(shù)據(jù)實際上低估了DeepSeek的總覆蓋范圍。
不過即便如此,曾經(jīng)它爆炸性的增長勢頭也未能跟上其他AI應(yīng)用的步伐,可以確定,DeepSeek的市場份額此后已然下滑。
而在網(wǎng)絡(luò)瀏覽器流量方面,它的數(shù)據(jù)就更為慘淡了:絕對流量一直在下降,但其他頂尖模型的用戶數(shù)卻噌噌飛漲,十分可觀。
不過,雖然DeepSeek自家托管模型的用戶增長乏力,但在第三方平臺那里,就完全是冰火兩重天了。
可以看到,R1和V3模型的總使用量一直在持續(xù)快速增長,自R1首次發(fā)布以來,已經(jīng)增長將近20倍!
如果進一步深挖數(shù)據(jù),就會發(fā)現(xiàn):只看由DeepSeek自己托管的那部分Token流量,那它在總Token中的份額的確是逐月下降的。
那么,問題來了:為何在DeepSeek模型本身越來越受歡迎、官方價格非常低廉的情況下,用戶反而從DeepSeek自家的網(wǎng)頁應(yīng)用和API流失,轉(zhuǎn)向了其他開源提供商呢?
SemiAnalysis點出了問題關(guān)鍵——
答案就在于「Token經(jīng)濟學」,以及在平衡模型服務(wù)的各項KPI時所做的無數(shù)權(quán)衡。
這些權(quán)衡意味著,每個Token的價格并非一個孤立的數(shù)字,而是模型提供商根據(jù)其硬件和模型配置,在對各項KPI進行決策后得出的最終結(jié)果。
Token經(jīng)濟學基礎(chǔ)
我們都知道,Token是構(gòu)成AI模型的基本單元。AI模型通過讀取以Token為單位的互聯(lián)網(wǎng)信息進行學習,并以文本、音頻、圖像或行為指令等Token形式生成輸出。
所謂Token,就是像「fan」、「tas」、「tic」這樣的小文本片段。LLM在處理文本時,并非針對完整的單詞或字母,而是對這些片段進行計數(shù)和處理。
這些Token,便是老黃口中數(shù)據(jù)中心「AI工廠」的輸入和輸出。
如同實體工廠一樣,AI工廠也遵循一個「PxQ」(價格x數(shù)量)的公式來盈利:其中,P代表每個Token的價格,Q代表輸入和輸出Token的總量。
但與普通工廠不同,Token的價格是一個可變參數(shù),模型服務(wù)商可以根據(jù)其他屬性來設(shè)定這個價格。
以下,就是幾個關(guān)鍵的性能指標(KPI)。
延遲(Latency)或首個Token輸出時間(Time-to-First-Token)
指模型生成第一個Token所需的時長。這也可以理解為模型完成「預填充」階段(即將輸入提示詞編碼到KVCache中)并開始在「解碼」階段生成第一個Token所需的時間。
吞吐量(Throughput)或交互速度(Interactivity)
指生成每個Token的速度,通常以「每個用戶每秒可生成的Token數(shù)量」來衡量。
當然,有些服務(wù)商也會使用其倒數(shù)——即生成每個輸出Token的平均間隔時間(TimePerOutputToken,TPOT)。
人類的閱讀速度約為每秒3-5個單詞,而大部分模型服務(wù)商設(shè)定的輸出速度約為每秒20-60個Token。
上下文窗口(ContextWindow)
指在模型「遺忘」對話的早期部分、并清除舊的Token之前,其「短期記憶」中能夠容納的Token數(shù)量。
不同的應(yīng)用場景需要大小各異的上下文窗口。
例如,分析大型文檔和代碼庫時,就需要更大的上下文窗口,以確保模型能夠?qū)A繑?shù)據(jù)進行連貫的推理。
對于任何一個給定的模型,你都可以通過調(diào)控這三大KPI,設(shè)定出幾乎任何價位的單位Token價格。
因此,單純基于「每百萬Token的價格」($/Mtok)來討論優(yōu)劣,并沒有什么意義,因為這種方式忽略了具體工作負載的性質(zhì),以及用戶對Token的實際需求。
DeepSeek的策略權(quán)衡
所以,DeepSeek在R1模型服務(wù)上采用了何種Token經(jīng)濟學策略,以至于市場份額會不斷流失?
通過對比延遲與價格的關(guān)系圖,可以看到,在同等延遲水平上,DeepSeek的自有服務(wù)已不再是價格最低的選擇。
事實上,DeepSeek之所以能提供如此低廉的價格,一個重要原因在于,用戶等待數(shù)秒后,才能收到模型返回的第一個Token。
相比之下,其他服務(wù)商的延遲會短得多,價格卻幾乎沒有差別。
也就是說,Token消費者只需花費2-4美元,就能從Parasail或Friendli這類服務(wù)商那里,獲得近乎零延遲的體驗。
同樣,微軟Azure的服務(wù)價格雖比DeepSeek高2.5倍,但延遲卻減少了整整25秒。
這樣看來,DeepSeek現(xiàn)在面臨的處境就尤為嚴峻了。
原因在于,現(xiàn)在幾乎所有托管R10528模型的實例都實現(xiàn)了低于5秒的延遲。
沿用同一圖表,但這次我們將上下文窗口的大小用氣泡面積來表示。
從中可以看到,DeepSeek為了用有限的推理算力資源來提供低價模型,所做的另一項權(quán)衡。
他們采用的64K上下文窗口,幾乎是主流模型服務(wù)商中最小的之一。
較小的上下文窗口限制了編程等場景的發(fā)揮,因為這類任務(wù)需要模型能夠連貫地記憶代碼庫中的大量Token,才能進行有效推理。
從圖表中可見,若花費同樣的價格,用戶可以從Lambda和Nebius等服務(wù)商那里獲得超過2.5倍的上下文窗口大小。
如果深入硬件層面,在AMD和英偉達芯片上對DeepSeekV3模型的基準測試,就可以看清服務(wù)商是如何確定其「每百萬Token價格」($/Mtok)的——
模型服務(wù)商會通過在單個GPU或GPU集群上同時處理更多用戶的請求(即「批處理」),來降低單位Token的總成本。
這種做法的直接后果,就是終端用戶需要承受更高的延遲和更慢的吞吐量,從而導致用戶體驗急劇下降。
之所以DeepSeek完全不關(guān)心用戶的體驗到底如何,實際上是一種主動作出的戰(zhàn)略選擇。
畢竟,從終端用戶身上賺錢,或是通過聊天應(yīng)用和API來消耗大量Token,并不是他們的興趣所在。
這家公司的唯一焦點就是實現(xiàn)AGI!
而通過采用極高批處理方式,DeepSeek可以最大限度地減少用于模型推理和對外服務(wù)的計算資源消耗,從而將盡可能多的算力保留在公司內(nèi)部,從而用于研發(fā)。
另外還有一點:出口管制也限制了中國AI生態(tài)系統(tǒng)在模型服務(wù)方面的能力。
因此,對DeepSeek而言,開源就是最合乎邏輯的選擇:將寶貴的計算資源留作內(nèi)部使用,同時讓其他云服務(wù)商去托管其模型,以此贏得全球市場的認知度和用戶基礎(chǔ)。
不過,SemiAnalysis也承認,這卻并沒有削弱中國公司訓練模型的能力——無論是騰訊、阿里、百度,還是小紅書最近發(fā)布的新模型,都證明了這一點。
Anthropic也一樣?
和DeepSeek一樣,Anthropic的算力也是同樣受限的。
可以看到,它產(chǎn)品研發(fā)的重心顯然放在了編程上,而且已經(jīng)在Cursor等應(yīng)用中大放異彩。
Cursor的用戶使用情況,就是評判模型優(yōu)劣的終極試金石,因為它直接反映了用戶最關(guān)心的兩個問題——成本與體驗。
而如今,Anthropic的模型已雄踞榜首超過一年——在瞬息萬變的AI行業(yè)里,這個時長仿佛已經(jīng)如十年。
而在Cursor上大獲成功后,Anthropic立馬順勢推出了ClaudeCode,一款集成在終端里的編程工具。
它的用戶量一路飆升,將OpenAI的Codex模型遠遠甩在身后。
為了對達ClaudeCode,谷歌也緊急發(fā)布了GeminiCLI。
它與ClaudeCode功能相似,但因為背靠谷歌TPU,卻有非凡的算力優(yōu)勢——用戶能免費使用的額度,幾乎無上限。
不過,盡管ClaudeCode的性能和設(shè)計都十分出色,價格卻不菲。
Anthropic在編程上的成功,反而給公司帶來了巨大壓力——他們在算力上已經(jīng)捉襟見肘。
這一點,在Claude4Sonnet的API輸出速度上就已經(jīng)體現(xiàn)得淋漓盡致。自發(fā)布以來,它的生成速度已下降了40%,略高于每秒45個Token。
背后的原因,也和DeepSeek如出一轍——為了在有限的算力下處理所有涌入的請求,他們不得不提高批處理的速率。
此外,編程類的使用場景往往涉及更長的對話和更多的Token數(shù)量,這就進一步加劇了算力的緊張狀況。
無論是何種原因,像o3和Gemini2.5Pro這類對標模型的運行速度要快得多,這也反映出OpenAI和谷歌所擁有的算力規(guī)模要龐大得多。
現(xiàn)在,Anthropic正集中精力獲取更多算力,已經(jīng)和亞馬遜達成了協(xié)議。它將獲得超過五十萬枚Trainium芯片,用于模型訓練和推理。
另外,Claude4模型并非在AWSTrainium上預訓練的,而是在GPU和TPU上訓練。
速度劣勢可由效率彌補
Claude的生成速度雖然暴露了其算力上的局限,但總體而言,Anthropic的用戶體驗(UX)要優(yōu)于DeepSeek。
首先,其速度雖然偏低,但仍快于DeepSeek的每秒25個Token。
其次,Anthropic的模型回答同一個問題所需的Token數(shù)量遠少于其他模型。
這意味著,盡管生成速度不占優(yōu),用戶實際感受到的端到端響應(yīng)時間反而顯著縮短了。
值得一提的是,在所有領(lǐng)先的推理模型中,Claude的總輸出Token量是最低的。
相比之下,Gemini2.5Pro和DeepSeekR10528等模型的輸出內(nèi)容,「啰嗦」程度都是Claude的三倍以上。
Token經(jīng)濟學的這一方面揭示出,服務(wù)商正在從多個維度上改進模型,其目標不再僅僅是提升智能水平,而是致力于提高「每單位Token所承載的智能」。
隨著Cursor、Windsurf、Replit、Perplexity等一大批「GPT套殼」應(yīng)用(或稱由AIToken驅(qū)動的應(yīng)用)迅速流行并獲得主流市場的認可。
我們看到,越來越多的公司開始效仿Anthropic的模式,專注于將Token作為一種服務(wù)來銷售,而不是像ChatGPT那樣以月度訂閱的方式打包。
從此君王不早朝
獨家收藏《從此君王不早朝》,為神為魔,我的命運自主宰!
白居易的詩《長恨歌》譜寫了一曲天上人間心心相印的帝王愛情之歌