AI News HubLIVE
站內改寫2 分鐘閱讀

LWiAI 播客第235期:Sonnet 4.6、深度思考令牌與Anthropic vs Pentagon

本年度AI新聞播客第235期重點介紹了Anthropic的Sonnet 4.6(上下文長度達1M令牌,在ARC-AGI-2上表現優異)、Google的Gemini 3.1 Pro、xAI的Grok 4.2測試版以及多項工具更新。商業方面,Meta據稱與AMD達成高達1000億美元的芯片交易,MatX融資5億美元開發專用Transformer芯片,World Labs融資10億美元構建世界模型,Simile融資1億美元預測人類行為。研究亮點包括深度思考令牌、掩碼更新優化器以及LLM吸引子狀態。政策方面討論了Anthropic對五角大樓合同的立場以及蒸餾攻擊防範。

來源Last Week in AI作者: Last Week in AI

Last Week in AI(LWiAI)播客第235期於2026年2月27日錄製,由Andrey Kurenkov和Jeremie Harris主持。本期節目覆蓋了上週AI領域的重要新聞,包括模型更新、商業動態、研究進展和政策安全話題。

在模型與工具方面,Anthropic發佈了Sonnet 4.6,其上下文窗口擴展至100萬個令牌,並在ARC-AGI-2基準測試中取得了顯著成果。與此同時,Google推出了Gemini 3.1 Pro,該模型在語音、圖像、視頻等多模態能力上實現重大躍升,同樣在ARC-AGI-2上表現優異。xAI的Grok 4.2測試版引入了多智能體辯論功能。此外,Anthropic發佈了Claude Code的移動版“Remote Control”,Perplexity推出了名為“Computer”的多智能體協調器,能夠將任務分配給其他AI代理。

商業和計算領域方面,Meta據稱正在與AMD談判一項價值高達1000億美元的芯片交易,可能涉及認股權證或股權激勵。AI芯片初創公司MatX完成了5億美元融資,計劃開發專用Transformer芯片,預計2027年出貨。World Labs從Autodesk等投資者處獲得10億美元,用於將世界模型融入3D工作流。另一家初創公司Simile融資1億美元,旨在模擬和預測人類行為。基礎設施方面,Stargate AI數據中心項目因OpenAI、Oracle和SoftBank之間的控制權爭議和資金問題而延遲。中國計劃在未來兩年內將7納米和5納米芯片產量提升5倍,目標到2030年每月生產50萬片晶圓。

研究進展方面,多項工作引起關注。一項研究探討了自適應優化器中掩碼更新的有效性。另一篇論文引入了“深度思考令牌”概念,作為衡量大型語言模型(LLM)推理努力的信號。研究者還觀察到LLM在機器人對話中的吸引子狀態行為。幾何分析被用於理解計數任務的機制。此外,有方法將任務難度映射到人類完成時間上。

政策與安全方面,Anthropic CEO Amodei表示,五角大樓的威脅“不會改變我們的立場”,儘管埃隆·馬斯克的xAI已與五角大樓達成協議,將Grok用於機密系統。Anthropic發佈了一份關於蒸餾攻擊的報告,涉及DeepSeek、Moonshot和Minimax等模型。OpenAI也發佈了新報告,詳述了其破壞AI惡意使用的努力。