AI News HubLIVE
站內改寫2 分鐘閱讀

Qwen3.7-Max:阿里巴巴專為編碼、推理及長期AI工作流打造的Agent優先大型語言模型

阿里巴巴Qwen團隊發佈了Qwen3.7-Max,這是一款專為代理時代設計的旗艦模型,旨在作為自主AI代理的基礎,可編碼、調試、使用工具、管理工作流並執行長時間運行的企業任務。該模型可自主運行長達35小時,支持超過1000次連續工具調用。

來源Analytics Vidhya作者: Harsh Mishra

阿里巴巴的Qwen團隊近日發佈了Qwen3.7-Max,這是一款面向代理時代的旗艦級大語言模型。與傳統的以聊天為中心的LLM不同,Qwen3.7-Max旨在作為自主AI代理的基礎,能夠進行編碼、調試、使用工具、管理工作流以及執行長期運行的企業任務。據阿里巴巴介紹,該模型可以自主運行長達35小時而不會出現性能下降,同時支持超過1000次連續工具調用。

Qwen3.7-Max的關鍵能力包括:代理編碼(支持前端原型設計、代碼生成、調試、多文件開發、終端命令、測試編寫和GitHub風格的問題修復)、長期任務執行(設計用於處理包含許多工具調用的擴展代理工作流)、工具調用和MCP工作流、辦公工作流自動化以及協作者生產力輔助。與大多數專注於改進聊天、數學或編碼能力的LLM發佈不同,Qwen3.7-Max的核心信息是代理可靠性。

在架構方面,阿里巴巴尚未披露完整的細節,包括參數數量、專家數量、激活大小、注意力設計或實際上下文窗口長度。然而,從已發表的系統設計來看,其核心是環境縮放訓練策略。該模型在各種代理環境中接受訓練,其中任務、工具和驗證器是分離的,使其能夠學習通用的問題解決方法,而不是過度擬合特定的基準或框架。這意味着模型不僅被訓練生成準確的文本,還被訓練在需要決定下一步行動的環境中有效運作。

訪問Qwen3.7-Max有兩種主要方式。最簡單的是通過Qwen Studio在瀏覽器中測試,目前支持Qwen3.7-Max預覽版和Qwen3.7-Plus預覽版。另一種方式是通過阿里雲模型服務平台API,該API兼容OpenAI格式,可使用DashScope兼容端點。

在實際測試中,Qwen3.7-Max在推理、圖像和視頻生成以及編碼任務上表現良好。例如,在推理任務中,它能夠逐步解釋平均速度的計算;在圖像生成方面,能夠生成賽博朋克風格的未來控制室;在編碼方面,能夠編寫監控文件夾新增CSV文件的Python腳本,並給出優化建議。不過,編碼響應有時過於冗長和複雜。

總之,Qwen3.7-Max對於從事編碼代理管道、工具調用、電子表格自動化和多語言工作流的AI開發者和程序員來説可能非常有價值。技術領導者應將其作為更廣泛代理平台戰略的一部分進行評估,尤其是如果他們的組織已經在使用阿里雲或需要強大的多語言和編碼能力。主要問題是Qwen3.7-Max是專有模型,因此應內部驗證供應商的基準測試結果。最佳方法是針對實際任務測試該模型,衡量成功率、任務成本、延遲、重試次數和所需人工努力。