深度求索讓AI變便宜,現在卻需要數十億來維持低價
深度求索(DeepSeek)曾以低成本AI模型震驚業界,但現在美國評估顯示其模型落後前沿約8個月,儘管價格更低。公司正進行大規模融資,估值高達600億美元,以維持其在AI競賽中的競爭力。
深度求索(DeepSeek)的故事曾簡單明瞭:一家由中國量化交易公司高盈(High-Flyer)資助的小型AI實驗室,釋出了效能遠超其資源基礎的開源模型,讓前沿AI從封閉的神秘領域轉變為工程問題,降低了智慧成本,也讓開源再次顯得危險。
但這個故事已不足以描述現在的局面。2026年5月1日,美國政府下屬的AI標準與創新中心(CAISI)釋出了DeepSeek V4 Pro的評估報告。結論具有兩面性:CAISI稱V4 Pro是其評估過的最強中國模型,但同時也估計該模型落後美國前沿約八個月。這聽起來像是一次降級。
然而,評估還指出一個更具商業衝擊力的事實:DeepSeek V4 Pro在類似能力水平上往往比美國參考模型更便宜。換句話說,DeepSeek可能沒有達到前沿,但它正在改變接近前沿的價格。
接著是融資報道。路透社5月初報道,DeepSeek在首輪外部融資中估值可能高達500億美元。6月3日,《南華早報》稱DeepSeek正在敲定一輪超過500億元人民幣(約74億美元)的融資,估值略低於600億美元。阿克西奧斯引用彭博社報道類似,但估值約520億美元。數字不完全一致,DeepSeek尚未確認交易。但方向難以忽視:讓AI顯得便宜的公司,現在可能需要數十億美元來維持這一地位。
這就是DeepSeek真正的新故事:一個以研究為導向、開放權重、低成本AI實驗室能否在它幫助創造的資本競賽中生存?
錯誤的記分牌 大多數英文報道傾向於將DeepSeek歸入簡單的比較框架:中美對抗、開源對閉源、廉價對昂貴。這些框架並非無用,但過於扁平。CAISI評估的有用之處在於它讓記分牌變得模糊。如果你只關心絕對前沿,結果很清楚:V4 Pro並非世界最強。CAISI的基準測試將其置於美國早期前沿層級,而非最新頂級系統。這很重要。DeepSeek自身公開基準測試顯示V4 Pro接近最新的Opus和GPT模型,但獨立評估表明差距確實存在。
錯誤在於止步於此。大多數使用者和公司並非總購買絕對最強的智慧。他們購買在可用價格下足夠智慧,且適應工作流程的產品。尤其是在代理工作流、編碼助手、文件處理、路由系統、長上下文檢索和高容量API呼叫中,當任務消耗大量令牌時,稍微弱一點的模型若便宜、開放且足夠好,可能成為更明智的商業決策。這就是為什麼“落後八個月”仍可能具有商業殺傷力。
前沿並非單一線條,而是一系列權衡:原始能力、價格、上下文長度、延遲、工具使用、部署靈活性、模型可用性、信任、生態系統支援和法律許可。DeepSeek的優勢並非在每個維度都獲勝,而是同時對多個維度施加壓力。全球讀者應關注這一點:DeepSeek無需在每個基準測試中成為最佳,只需讓足夠多的工作類別在閉源前沿模型上顯得過於昂貴。
降價即產品 截至2026年6月5日,DeepSeek官方API定價頁面顯示V4 Pro的快取輸入令牌每百萬0.003625美元,非快取輸入每百萬0.435美元,輸出每百萬0.87美元。這些價格低於CAISI在5月1日成本比較中使用的開發者報告價格,且可能再次變化。但資訊明確:DeepSeek試圖讓高上下文、代理就緒的模型使用變得足夠便宜,成為常規操作。
這在AI行業中並非細節。價格常被視為市場進入槓桿,但DeepSeek的策略更有趣,因為它與技術身份相關。自V2時代起,創始人梁文峰就將低價定位為架構和系統工作的結果,而非補貼戰爭。這一說法不應全盤接受,但也非空洞。V4不僅僅是更便宜的API封裝。DeepSeek的釋出描述V4 Pro為1.6萬億引數的混合專家模型,490億活躍引數,透過官方服務支援100萬上下文長度,並具有更強的代理編碼和推理能力。模型還透過開放權重渠道以寬鬆許可分發。
中國的技術討論更關注工程機制而非地緣政治記分牌。在V4釋出後的一次LateTalk討論中,AI工程師將V4描述為“基礎設施鯨魚”:非另一個R1式的正規化衝擊,而是結合新注意力機制、Muon最佳化、FP4相關訓練推理、TileLang核心和長上下文效率的系統級工程推進。關鍵點在於,100萬上下文不僅是產品亮點,只有當使用長上下文的成本變得可承受時才起作用。
這就是DeepSeek工作的重要性所在。長上下文、代理和編碼工作流消耗大量令牌。模型可宣稱巨大上下文視窗,但若填充成本過高,該功能仍停留在理論層面。DeepSeek的戰略性舉措是讓長上下文智慧足夠便宜,使得開發者實際使用。
簡單來說,DeepSeek不僅出售模型,它出售的是使用更多智慧的許可。
開放權重作為分銷 DeepSeek的開放權重策略常被討論為意識形態,但它也是分銷。開放權重允許開發者以閉源API難以實現的方式檢查、託管、修改、基準測試、微調、路由和整合模型。這也將部分整合負擔從公司轉移至生態系統。當模型開放且有用時,推理框架、雲平臺、本地部署工具、編碼代理封裝和模型路由器都有動力支援它。即使DeepSeek未捕獲每一美元,這也具有真實商業價值。
這是悖論所在:開源比閉源商業產品更快傳播模型,但也允許他人貨幣化而無需直接付費。雲平臺可託管DeepSeek,開發者可部署,企業可在內部堆疊執行。模型可成為基礎設施,而原始實驗室不必擁有每個客戶關係。對普通初創公司而言,這像是洩漏。但對DeepSeek,這可能是策略的一部分。梁文峰認為閉源保密並非公司真正的護城河,真正的護城河是團隊積累的知識、創新文化以及在限制下持續推動模型架構的能力。
這是一個高尚的答案,但代價高昂。如果商業模式不是從每個令牌中提取最大利潤,那麼公司需要另一種方式來資助下一輪計算、人才和實驗。在DeepSeek的第一階段,答案是高盈(High-Flyer)——梁文峰聯合創立的量化交易公司。高盈的利潤提供了罕見的內部資金基礎,使DeepSeek避免了初創公司的正常流程:推介、融資、增長敘事、商業化壓力。這種獨立性成為神話的一部分。現在,神話正面臨行業的下一個階段。
為何廉價AI仍需資本 6月的融資報道並不意味著DeepSeek早期策略是虛假的,而是意味著遊戲規則已改變。這裡有一個簡單但被低估的區別:在限制下製造一個突破性模型,與持續維持一個接近前沿的AI實驗室進行多輪模型迭代,是不同的。DeepSeek的R1時刻證明了一個專注的中國團隊能以遠少於美國前沿實驗室的可見資本生產出全球重要的模型。但2026年不僅是模型釋出競賽,更逐漸成為代理基礎設施競賽。
代理改變了能源需求。聊天機器人可回答提示然後停止,而代理可能規劃、呼叫工具、編寫程式碼、檢查檔案、瀏覽、重試、評估並從失敗中恢復。這意味著更多令牌、更多上下文、更多推理、更多編碼能力、更多產品反饋和更多真實世界失敗資料。模型仍為核心,但周圍迴圈變得更加重要。
中國媒體在V4之前的報道捕捉到了這一壓力。《財經》將DeepSeek描繪為面臨十字路口:能否保持研究導向的低頻釋出節奏,而OpenAI、Anthropic、谷歌、字節跳動、阿里巴巴、月之暗面、智譜AI、MiniMax等加速模型迭代、編碼能力、代理產品和商業收入?另一篇中國模型市場文章用資本市場語言表達了同樣觀點:基礎模型競賽正成為“能源池”競爭,而非單模型衝刺。這不僅是媒體問題,也是公司問題。
DeepSeek也有人才問題,更準確地說,是人才定價問題。LatePost的組織報道將DeepSeek描繪為中國最奇怪的AI實驗室之一:扁平、研究密集、異常抵制常規融資,節奏幾乎反內卷。員工被描述為沒有嚴格打卡文化,沒有明顯硬性截止日期,在70小時工作周常見的領域具有罕見的不加班節奏。這種文化是公司優勢的一部分,但存在於一個激烈爭奪頂尖AI研究者的市場中。競爭對手正在籌集鉅額資金,提供更明確的薪酬基準。網際網路巨頭能提供龐大薪資包。前沿研究貢獻者現在有外部選擇。如果DeepSeek員工持有從未外部融資的公司的股權或期權,“這家公司值多少”的問題變得非常實際。
這就是為什麼報道中梁文峰的個人出資很重要(如果準確)。SCMP和彭博相關報道均暗示梁可能向本輪投入大量個人資本。細節未確認,但邏輯清晰:這不會是普通創始人追加投資,而是一個控制訊號。