AI News HubLIVE
站内改写

Claude Opus 4.8:更智能的模型,正確的方向

Anthropic發佈Claude Opus 4.8,重點提升可靠性、誠實性和自主工作流能力,而非單純追求基準分數。定價保持不變,快速模式大幅降價。

文章情報

工程師進階

要點

  • Claude Opus 4.8注重可靠性和不確定性處理,而非原始智力。
  • 標準定價與Opus 4.7相同:每百萬輸入5美元,輸出25美元;快速模式降價三倍。
  • 引入動態工作流和努力控制滑塊,支持自主多智能體協作。
  • 在編碼、推理和戰略規劃測試中表現出更好的穩定性和自我糾正能力。

為甚麼重要

這條新聞值得關注,因為Claude Opus 4.8注重可靠性和不確定性處理,而非原始智力。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

Anthropic近日發佈了Claude Opus 4.8,這是其旗艦模型的最新版本。此次更新不再追求基準分數的提升,而是聚焦於可靠性、誠實性和自主工作流執行能力,標誌着AI行業從“更聰明”向“更可靠”的轉變。

在定價方面,Anthropic保持了與Opus 4.7相同的標準定價:每百萬輸入令牌5美元,每百萬輸出令牌25美元。但快速模式(2.5倍速度)的價格大幅降低了三倍,降至每百萬輸入10美元和每百萬輸出50美元,使得大規模自主工作流的運營成本更加可承受。

Opus 4.8的一個核心改進是“誠實性升級”。該模型經過專門訓練,能夠在信息不足時主動表達不確定性,而非強行給出可能錯誤的答案。這對於生產環境中的AI部署至關重要——優雅的失敗比自信的幻覺更有價值。同時,Anthropic還推出了動態工作流(Dynamic Workflows)功能,允許Claude Code自主規劃任務並在單次會話中運行數百個並行子智能體。例如,它可以執行數十萬行代碼的庫遷移,並利用現有測試套件驗證輸出。此外,用户現在可以在claude.ai和Cowork上通過努力控制滑塊(Effort Control slider)調節模型的處理深度:低設置響應更快,高設置則更深入思考並頻繁自我糾正。

在實測中,Opus 4.8在推理、編碼和戰略規劃任務中表現出更強的穩定性。例如,它能夠正確識別投資計算中“先跌20%再漲25%”並非保本,並指出費用因素;在編碼審查中,它準確診斷出線程安全問題;在規劃多智能體平台遷移時,它提供了涵蓋部署、風險、治理和預算的實用方案。與Opus 4.7相比,4.8版本更關注可靠性、一致性和工作流執行,不再急於給出看似聰明的答案,而是優先確保結果可靠。

總體而言,Claude Opus 4.8並非革命性更新,但代表了AI從實驗走向生產的關鍵一步。未來AI的競爭可能不再屬於最能生成漂亮回答的模型,而是屬於那些能可靠執行有意義工作的系統。