序列雷達#873:上週AI:足球、S-1和超級模型
一場新的AI足球錦標賽、主要模型釋出、融資活動以及Anthropic的S-1檔案。
本週,AI領域迎來了多項重大進展。首先,LayerLens宣佈了Stratix杯,這是一場模擬足球錦標賽,16個前沿AI模型將參與其中,每個模型編寫程式碼控制整支球隊。比賽分為兩個半場,模型可以根據上半場的表現調整策略。雖然這一比賽看似輕鬆有趣,但它凸顯了AI評估需要更多樣化的舞臺。傳統的靜態考試式評估已不足以全面衡量模型在多智慧體規劃、戰術適應、長期信用分配、對抗壓力下的魯棒性以及從錯誤中恢復的能力。足球比賽的複雜性和可觀察性為AI行為提供了更真實的測試環境。
在Build大會上,微軟推出了新一代MAI模型,涵蓋推理、編碼、影像、語音和轉錄等領域。其戰略重點不僅是構建更多自有模型,更是將模型、開發者工具、智慧體和裝置緊密整合。GitHub Copilot、智慧體安全原語、新模型釋出以及AI原生工作流都表明,AI正從嵌入軟體的聊天框轉變為執行工作的底層基礎設施。
與此同時,Anthropic秘密向SEC提交了S-1檔案,計劃進行IPO。這一舉動標誌著前沿AI從私人市場神話走向公開市場問責。收入質量、計算承諾、利潤率、治理和安全宣告將不得不面對投資者、監管機構和季度報告的嚴格審視。
NVIDIA則在兩個方向推動了前沿發展。Cosmos推進了物理AI的世界基礎模型,能夠處理影片、模擬、機器人技術和具身環境。Nemotron 3 Ultra擴充套件了NVIDIA的企業模型棧,適用於複雜的推理和智慧體工作流。這表明NVIDIA不僅出售AI淘金熱中的“鏟子”,更希望定義構建機器人、智慧體、模擬和企業的地形。
最後,據報道DeepSeek即將完成約74億美元的融資,由騰訊、寧德時代和創始人領投,估值在520至590億美元之間。這一事件再次提醒,開源模型競賽正成為地緣政治基礎設施。資本、能源、晶片、人才和產業政策正圍繞前沿實驗室匯聚,開源模型已不再是純粹的工程哲學,而是戰略資產。
綜合來看,本週的故事是AI離開演示頁面的寫照:它正在玩遊戲、管理工作流、提交IPO、模擬物理世界並吸引國家級資本。問題不再是哪個聊天機器人最好,而是哪些系統能在充滿挑戰的環境中行動、適應並贏得信任。基準測試告訴了我們模型如何回答,而競技場將告訴我們它們如何表現。