Qwen3.7-Max:阿里巴巴专为编码、推理及长期AI工作流打造的Agent优先大型语言模型
阿里巴巴Qwen团队发布了Qwen3.7-Max,这是一款专为代理时代设计的旗舰模型,旨在作为自主AI代理的基础,可编码、调试、使用工具、管理工作流并执行长时间运行的企业任务。该模型可自主运行长达35小时,支持超过1000次连续工具调用。
阿里巴巴的Qwen团队近日发布了Qwen3.7-Max,这是一款面向代理时代的旗舰级大语言模型。与传统的以聊天为中心的LLM不同,Qwen3.7-Max旨在作为自主AI代理的基础,能够进行编码、调试、使用工具、管理工作流以及执行长期运行的企业任务。据阿里巴巴介绍,该模型可以自主运行长达35小时而不会出现性能下降,同时支持超过1000次连续工具调用。
Qwen3.7-Max的关键能力包括:代理编码(支持前端原型设计、代码生成、调试、多文件开发、终端命令、测试编写和GitHub风格的问题修复)、长期任务执行(设计用于处理包含许多工具调用的扩展代理工作流)、工具调用和MCP工作流、办公工作流自动化以及协作者生产力辅助。与大多数专注于改进聊天、数学或编码能力的LLM发布不同,Qwen3.7-Max的核心信息是代理可靠性。
在架构方面,阿里巴巴尚未披露完整的细节,包括参数数量、专家数量、激活大小、注意力设计或实际上下文窗口长度。然而,从已发表的系统设计来看,其核心是环境缩放训练策略。该模型在各种代理环境中接受训练,其中任务、工具和验证器是分离的,使其能够学习通用的问题解决方法,而不是过度拟合特定的基准或框架。这意味着模型不仅被训练生成准确的文本,还被训练在需要决定下一步行动的环境中有效运作。
访问Qwen3.7-Max有两种主要方式。最简单的是通过Qwen Studio在浏览器中测试,目前支持Qwen3.7-Max预览版和Qwen3.7-Plus预览版。另一种方式是通过阿里云模型服务平台API,该API兼容OpenAI格式,可使用DashScope兼容端点。
在实际测试中,Qwen3.7-Max在推理、图像和视频生成以及编码任务上表现良好。例如,在推理任务中,它能够逐步解释平均速度的计算;在图像生成方面,能够生成赛博朋克风格的未来控制室;在编码方面,能够编写监控文件夹新增CSV文件的Python脚本,并给出优化建议。不过,编码响应有时过于冗长和复杂。
总之,Qwen3.7-Max对于从事编码代理管道、工具调用、电子表格自动化和多语言工作流的AI开发者和程序员来说可能非常有价值。技术领导者应将其作为更广泛代理平台战略的一部分进行评估,尤其是如果他们的组织已经在使用阿里云或需要强大的多语言和编码能力。主要问题是Qwen3.7-Max是专有模型,因此应内部验证供应商的基准测试结果。最佳方法是针对实际任务测试该模型,衡量成功率、任务成本、延迟、重试次数和所需人工努力。