AI News HubLIVE
站内改写2 分钟阅读

Qwen推出Qwen3.7-Max:具有100万Token上下文窗口的推理智能体模型

阿里巴巴Qwen团队在2026阿里云峰会上正式发布Qwen3.7-Max,这是其迄今最先进的智能体模型,拥有100万Token上下文窗口和扩展思考模式,专为长周期任务如编码、调试和多步骤工作流自动化设计。在Artificial Analysis Intelligence Index上得分为56.6,在专有模型中排名第五。

来源MarkTechPost作者: Asif Razzaq

阿里巴巴Qwen团队在2026年5月20日的阿里云峰会上正式宣布推出Qwen3.7-Max,这是一款专为长时间、多步骤自主执行而设计的推理模型。在此之前,Qwen3.7系列的两个预览版本已悄然出现在Arena AI排行榜上,但并未发布新闻稿或正式API。

两个预览版本同时发布:Qwen3.7-Max-Preview和Qwen3.7-Plus-Preview。在LM Arena上,Qwen3.7-Max-Preview在文本能力方面全球排名第13,使阿里巴巴成为实验室排名第6;Qwen3.7-Plus-Preview在视觉能力方面排名第16,实验室排名第5。Qwen3.7-Plus-Preview被描述为高性能平衡版本,专注于推理和逻辑表达,未来将逐步开放工具链,支持视觉和多模态输入。而Qwen3.7-Max是纯文本推理旗舰,也是阿里巴巴正式提供API访问的模型。

Qwen3.7-Max被描述为阿里巴巴迄今最先进、最全面的智能体模型,专为处理编码、调试、办公工作流自动化以及涉及数百甚至数千步骤的长期任务而设计。该模型采用扩展思考模式,在给出最终答案前会生成内部思维链序列,进行规划、检查和工作修正。在Qwen Chat等界面上,用户可开启“思考”模式以查看推理过程。值得注意的是,推理模型产生的输出tokens远多于标准补全:Artificial Analysis评估中,Qwen3.7-Max生成了约9700万tokens,而基准平均为2400万。对于短任务,这会增加延迟,但对于多步骤规划、代码重构或长智能体链,扩展思考模式正是其优势所在。

该模型拥有100万Token的上下文窗口,是此前Qwen3.6 Max Preview(256K)的四倍。定价尚未公布,但Qwen3.6 Max Preview的定价为每百万输入/输出tokens 1.30/7.80美元。百万级的上下文窗口可容纳完整的中型代码库或大量文档,但模型在窗口填满时推理可靠性可能下降,目前尚无独立的Qwen3.7-Max长上下文测试结果。

基准测试方面,Qwen3.7-Max在Artificial Analysis Intelligence Index上得分为56.6,排名第五。相比前代Qwen3.6 Max Preview(51.8)提升4.8分,超越Google Gemini 3.5 Flash(55.3),但仍落后于GPT-5.5(60.2)、Claude Opus 4.7(57.3)和Gemini 3.1 Pro Preview(57.2)。Index v4.0汇总了十项评估,包括GDPval-AA、Terminal-Bench Hard、SciCode、AA-Omniscience、Humanity's Last Exam和GPQA Diamond。提升并不均匀,主要集中在科学推理、智能体能力和编码领域:CritPt上升9.7个百分点(从3.7%到13.4%),Humanity's Last Exam跃升9.2(从28.9%到38.1%),Terminal-Bench Hard上升6.9(从43.9%到50.8%)。但在AA-Omniscience上,原始准确率反而下降7.6个百分点(从37.7%到30.1%),而幻觉率下降21.3点(从44.2%到22.9%)。模型更倾向于说“不知道”,尝试率从67.3%降到48.0%,为前沿模型中最低。对于依赖广泛事实回忆的用例,这是一个需要测试的重要局限性。所有基准数据均为初步结果,模型仍处于预览阶段。

在阿里巴巴内部测试中,Qwen3.7-Max在一个新芯片平台上自主执行了超过1000次工具调用和迭代代码修改以优化关键内核,声称推理速度相比前代提升约10倍,但尚未经独立验证。

使用方面,开发者可通过Qwen Chat界面免费测试,或通过Alibaba Cloud Model Studio的API访问,兼容OpenAI和Anthropic API规范。启用思考模式需在extra_body中设置enable_thinking: true。对于智能体任务,需明确定义工具,利用100万Token上下文传递完整历史记录,并以最终答案为断言目标。已知局限性包括:不支持图像输入(应由Qwen3.7-Plus-Preview处理)、AA-Omniscience基准中的高弃权率、预览状态可能变化、以及长上下文可靠性尚未独立验证。