Qwen3.7-Max:阿里巴巴專為編碼、推理及長期AI工作流打造的Agent優先大型語言模型
阿里巴巴Qwen團隊釋出了Qwen3.7-Max,這是一款專為代理時代設計的旗艦模型,旨在作為自主AI代理的基礎,可編碼、除錯、使用工具、管理工作流並執行長時間執行的企業任務。該模型可自主執行長達35小時,支援超過1000次連續工具呼叫。
阿里巴巴的Qwen團隊近日釋出了Qwen3.7-Max,這是一款面向代理時代的旗艦級大語言模型。與傳統的以聊天為中心的LLM不同,Qwen3.7-Max旨在作為自主AI代理的基礎,能夠進行編碼、除錯、使用工具、管理工作流以及執行長期執行的企業任務。據阿里巴巴介紹,該模型可以自主執行長達35小時而不會出現效能下降,同時支援超過1000次連續工具呼叫。
Qwen3.7-Max的關鍵能力包括:代理編碼(支援前端原型設計、程式碼生成、除錯、多檔案開發、終端命令、測試編寫和GitHub風格的問題修復)、長期任務執行(設計用於處理包含許多工具呼叫的擴充套件代理工作流)、工具呼叫和MCP工作流、辦公工作流自動化以及協作者生產力輔助。與大多數專注於改進聊天、數學或編碼能力的LLM釋出不同,Qwen3.7-Max的核心資訊是代理可靠性。
在架構方面,阿里巴巴尚未披露完整的細節,包括引數數量、專家數量、啟用大小、注意力設計或實際上下文視窗長度。然而,從已發表的系統設計來看,其核心是環境縮放訓練策略。該模型在各種代理環境中接受訓練,其中任務、工具和驗證器是分離的,使其能夠學習通用的問題解決方法,而不是過度擬合特定的基準或框架。這意味著模型不僅被訓練生成準確的文本,還被訓練在需要決定下一步行動的環境中有效運作。
訪問Qwen3.7-Max有兩種主要方式。最簡單的是透過Qwen Studio在瀏覽器中測試,目前支援Qwen3.7-Max預覽版和Qwen3.7-Plus預覽版。另一種方式是透過阿里雲模型服務平臺API,該API相容OpenAI格式,可使用DashScope相容端點。
在實際測試中,Qwen3.7-Max在推理、影像和影片生成以及編碼任務上表現良好。例如,在推理任務中,它能夠逐步解釋平均速度的計算;在影像生成方面,能夠生成賽博朋克風格的未來控制室;在編碼方面,能夠編寫監控資料夾新增CSV檔案的Python指令碼,並給出最佳化建議。不過,編碼響應有時過於冗長和複雜。
總之,Qwen3.7-Max對於從事編碼代理管道、工具呼叫、電子表格自動化和多語言工作流的AI開發者和程式設計師來說可能非常有價值。技術領導者應將其作為更廣泛代理平臺戰略的一部分進行評估,尤其是如果他們的組織已經在使用阿里雲或需要強大的多語言和編碼能力。主要問題是Qwen3.7-Max是專有模型,因此應內部驗證供應商的基準測試結果。最佳方法是針對實際任務測試該模型,衡量成功率、任務成本、延遲、重試次數和所需人工努力。