2026-05-21站内改写2 分钟阅读更新: 2026-06-12

Qwen推出Qwen3.7-Max：具有100万Token上下文窗口的推理智能体模型

阿里巴巴Qwen团队在2026阿里云峰会上正式发布Qwen3.7-Max，这是其迄今最先进的智能体模型，拥有100万Token上下文窗口和扩展思考模式，专为长周期任务如编码、调试和多步骤工作流自动化设计。在Artificial Analysis Intelligence Index上得分为56.6，在专有模型中排名第五。

来源MarkTechPost作者: Asif Razzaq

阿里巴巴Qwen团队在2026年5月20日的阿里云峰会上正式宣布推出Qwen3.7-Max，这是一款专为长时间、多步骤自主执行而设计的推理模型。在此之前，Qwen3.7系列的两个预览版本已悄然出现在Arena AI排行榜上，但并未发布新闻稿或正式API。

两个预览版本同时发布：Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview。在LM Arena上，Qwen3.7-Max-Preview在文本能力方面全球排名第13，使阿里巴巴成为实验室排名第6；Qwen3.7-Plus-Preview在视觉能力方面排名第16，实验室排名第5。Qwen3.7-Plus-Preview被描述为高性能平衡版本，专注于推理和逻辑表达，未来将逐步开放工具链，支持视觉和多模态输入。而Qwen3.7-Max是纯文本推理旗舰，也是阿里巴巴正式提供API访问的模型。

Qwen3.7-Max被描述为阿里巴巴迄今最先进、最全面的智能体模型，专为处理编码、调试、办公工作流自动化以及涉及数百甚至数千步骤的长期任务而设计。该模型采用扩展思考模式，在给出最终答案前会生成内部思维链序列，进行规划、检查和工作修正。在Qwen Chat等界面上，用户可开启“思考”模式以查看推理过程。值得注意的是，推理模型产生的输出tokens远多于标准补全：Artificial Analysis评估中，Qwen3.7-Max生成了约9700万tokens，而基准平均为2400万。对于短任务，这会增加延迟，但对于多步骤规划、代码重构或长智能体链，扩展思考模式正是其优势所在。

该模型拥有100万Token的上下文窗口，是此前Qwen3.6 Max Preview（256K）的四倍。定价尚未公布，但Qwen3.6 Max Preview的定价为每百万输入/输出tokens 1.30/7.80美元。百万级的上下文窗口可容纳完整的中型代码库或大量文档，但模型在窗口填满时推理可靠性可能下降，目前尚无独立的Qwen3.7-Max长上下文测试结果。

基准测试方面，Qwen3.7-Max在Artificial Analysis Intelligence Index上得分为56.6，排名第五。相比前代Qwen3.6 Max Preview（51.8）提升4.8分，超越Google Gemini 3.5 Flash（55.3），但仍落后于GPT-5.5（60.2）、Claude Opus 4.7（57.3）和Gemini 3.1 Pro Preview（57.2）。Index v4.0汇总了十项评估，包括GDPval-AA、Terminal-Bench Hard、SciCode、AA-Omniscience、Humanity's Last Exam和GPQA Diamond。提升并不均匀，主要集中在科学推理、智能体能力和编码领域：CritPt上升9.7个百分点（从3.7%到13.4%），Humanity's Last Exam跃升9.2（从28.9%到38.1%），Terminal-Bench Hard上升6.9（从43.9%到50.8%）。但在AA-Omniscience上，原始准确率反而下降7.6个百分点（从37.7%到30.1%），而幻觉率下降21.3点（从44.2%到22.9%）。模型更倾向于说“不知道”，尝试率从67.3%降到48.0%，为前沿模型中最低。对于依赖广泛事实回忆的用例，这是一个需要测试的重要局限性。所有基准数据均为初步结果，模型仍处于预览阶段。

在阿里巴巴内部测试中，Qwen3.7-Max在一个新芯片平台上自主执行了超过1000次工具调用和迭代代码修改以优化关键内核，声称推理速度相比前代提升约10倍，但尚未经独立验证。

使用方面，开发者可通过Qwen Chat界面免费测试，或通过Alibaba Cloud Model Studio的API访问，兼容OpenAI和Anthropic API规范。启用思考模式需在extra_body中设置enable_thinking: true。对于智能体任务，需明确定义工具，利用100万Token上下文传递完整历史记录，并以最终答案为断言目标。已知局限性包括：不支持图像输入（应由Qwen3.7-Plus-Preview处理）、AA-Omniscience基准中的高弃权率、预览状态可能变化、以及长上下文可靠性尚未独立验证。