Qwen AI News

Qwen动态

Director：通过在线主动专家放置加速分布式MoE服务

2026-07-13 12:00 UTC+8

本文介绍了Director，一种新的分布式MoE推理系统，通过预测驱动的在线专家放置优化，显著降低端到端延迟。系统采用轻量级级联预测器或低比特量化副本预测专家激活模式，结合近乎零停机的在线迁移模块，以及基于松弛优化的专家放置算法，在多项式时间内达到(1+ε)近似比。实验表明，在Mistral、DeepSeek和Qwen等流行MoE模型上，相比现有工作延迟降低11%~55%。

提出预测驱动的在线专家放置方法
设计近乎零停机的专家迁移模块

面向低比特整数的有符号对称量化

2026-07-13 12:00 UTC+8

本文提出有符号对称量化方法，解决标准对称量化器因整数范围不平衡导致的正异常值截断问题，同时避免非对称量化的运行时开销。理论分析表明该方法在ℓ2误差上条件最优，且88-99%的LLM权重组满足条件。实验在Qwen3、Llama3等模型上验证了困惑度和少样本准确率的提升。

标准对称量化器因有符号整数多一个负值导致正异常值被截断，在低比特时误差显著。
有符号对称量化通过符号选择规则将额外值分配给主要异常值尾端，保持零点为0，保留对称量化的高效计算。

修复三个Bug，让Qwen3.5-122B在Mac Studio上成为日常驱动

2026-07-12 06:54 UTC+8

作者在Mac Studio上运行Qwen3.5-122B模型时，遇到了三个导致缓存失效的bug，修复后对话预填充时间从几分钟降至亚秒级，大幅提升了长上下文场景下的使用体验。文章还讨论了模型选择、混合注意力机制以及性能指标的正确衡量方式。

Qwen3.5-122B模型在Mac Studio上因混合注意力架构导致前缀缓存频繁失效。
三个Bug分别涉及系统提示中的时间戳、中断时未保存回复以及检查点存储中的垃圾写入。

评估基于SageMath增强的LLM智能体在计算与实验数学中的应用

2026-07-09 12:00 UTC+8

本研究提出一种ReAct风格的智能体架构，将LLM推理与SageMath可验证反馈及Context7最新文档结合，在RealMath基准上评估前沿模型解决研究级数学问题的能力。实验表明，SageMath访问平均提升9.7个百分点，缩小了开源与闭源模型的差距。Qwen 3.7-Max受益最大，GPT-5.5达到75.2%的最高解决率。该工作已被ICML 2026第三届AI for Math研讨会接收。

提出结合LLM推理与SageMath反馈的ReAct智能体框架
在RealMath基准上评估，平均性能提升9.7个百分点

AI模型“过度思考”问题——这是一种安全风险

2026-07-08 19:00 UTC+8

研究表明，具备推理能力的大语言模型容易因逻辑不一致的提示而陷入“过度思考”，导致输出长度激增，可能被利用发动拒绝服务攻击。浙江大学与阿里巴巴的研究人员开发了一种进化算法，能够生成恶意提示，使模型输出长度最高增加26倍，影响包括DeepSeek-R1、Qwen3-Thinking、GPT-o3和Gemini 2.5 Flash在内的主流推理模型。

研究人员展示了一种利用AI推理模型“过度思考”漏洞的新型攻击，导致计算量急剧增加。
通过进化算法破坏提示的逻辑结构，可使模型输出长度最高达到正常情况的26倍。

本地模型用于编码的可行性

2026-07-08 17:24 UTC+8

Thoughtworks 杰出工程师 Birgitta Böckeler 在 Apple Silicon 机器上重新评估了本地 AI 模型在编码任务中的可行性。她系统分析了 RAM、处理能力、模型架构、工具调用能力等多种因素，并分享了 Qwen3、Gemma 4 等模型的实际体验。

RAM 是本地模型运行的核心限制，48GB 机器上 15-25GB 模型表现最佳。
推理能力（chain of thought）有时会适得其反，关闭后性能不降反升。

NAVER LABS系统复现：面向IWSLT 2026指令跟随任务

2026-07-08 12:00 UTC+8

NAVER LABS团队复现了其IWSLT 2025指令跟随流水线，并针对IWSLT 2026共享任务（受限条件、短音频轨道）进行调整，采用SeamlessM4T-v2-large作为语音编码器、Qwen3-4B-Instruct作为LLM主干。保留了三阶段方法：投影器对齐、纯文本LoRA预训练和多模态融合。此外，团队从提供的语料库构建了10万个涵盖十种语音中心任务类型的合成指令跟随示例。主要模型在EN-ZH语音翻译上达到COMET 0.781，在MCIF基准的英语SQA上达到BERTScore-F1 0.346。

复现NAVER LABS IWSLT 2025流水线，适应IWSLT 2026任务
使用SeamlessM4T-v2-large和Qwen3-4B-Instruct作为核心组件

Liquid AI 开源 Antidoom：一种通过最终令牌偏好优化（FTPO）减少推理模型死循环的方法

2026-07-08 00:50 UTC+8

Liquid AI 发布了 Antidoom，一种针对推理模型中死循环的开源方法。通过 FTPO，它仅重新训练导致循环开始的令牌，将 LFM2.5-2.6B 上的循环率从 10.2% 降至 1.4%，Qwen3.5-4B 从 22.9% 降至 1%。

Antidoom 通过仅重新训练循环开始令牌来减少死循环。
FTPO 将概率分布在多个连贯的替代方案上。

用于数据高效代码切换语音识别的强化学习

2026-07-07 12:00 UTC+8

研究人员提出了一种基于可验证奖励的强化学习（RLVR）方法，用于将音频语言模型适应代码切换语音识别。仅使用10%的数据，RLVR在Qwen2-Audio上跨越10个语言对达到了全数据集监督微调的性能，且增益零样本迁移到人类录音的代码切换语料库。

新的RLVR方法结合了错误率奖励和脚本保真度奖励，用于代码切换ASR。
仅用10%数据即可达到全数据集LoRA SFT的性能。

语言模型中风险规避的分布外泛化

2026-07-07 12:00 UTC+8

该研究探讨了训练人工智能在低风险场景下表现出的风险规避行为是否能够泛化到极高风险场景，作为应对AI对齐失败的一种安全措施。作者引入了RiskAverseOOD基准测试，并初步实验表明，通过多种方法（如SFT、DPO、激活引导）训练的Qwen3-8B模型，在高风险下选择安全“合作”选项的比例从基线2%提升至70%（SFT和tie训练）、52%（DPO）和39%（激活引导）。风险规避行为跨越98个数量级部分泛化，但一致性仍不足以作为可靠的安全机制。

引入RiskAverseOOD基准，用于衡量风险规避的分布外泛化能力。
使用SFT、DPO和激活引导等方法训练语言模型在低风险下规避风险。

Oyster-II：基于强化学习的语言模型建设性安全对齐框架

2026-07-07 12:00 UTC+8

大型语言模型（LLM）在安全性和有用性之间面临挑战。传统的拒绝式对齐策略会拒绝敏感查询，但可能无法满足用户合理需求。Oyster-II提出基于强化学习（RL）的建设性安全对齐框架，采用Zero-RL范式和多阶段RL策略，解决了Oyster-I中监督微调（SFT）方案的安全泛化不足和安全思维链过度泛化问题。在多个基准测试中，Oyster-II在安全维度上全面超越Qwen3-14B和Oyster-I，性能堪比Qwen3-Max和Qwen3.5-397B。

Oyster-II是Oyster-I的改进版，采用强化学习而非监督微调进行安全对齐。
提出了Zero-RL范式与多阶段强化学习相结合的策略。

LensVLM：选择性上下文扩展实现文本的压缩视觉表示

2026-07-07 08:00 UTC+8

LensVLM 是一种推理框架和后训练方案，使视觉语言模型（VLM）能够扫描压缩图像，并通过学习工具仅选择性扩展相关图像到未压缩形式。在 Qwen3.5-9B-Base 基础上，LensVLM 在 4.3 倍有效压缩下保持了与全文本上限相当的准确率，在 7 个文本 QA 基准测试中最高达 10.1 倍有效压缩时优于检索基线和文本/视觉压缩基线。该方法还泛化到多模态文档和代码理解任务，且压缩越大，准确率提升越明显。

VLM 通过渲染图像处理文本，但压缩导致字符无法区分。
LensVLM 实现扫描压缩图像后选择性扩展相关内容。

中国AI伴侣新规：北京真正要管的是什么

2026-07-06 19:00 UTC+8

中国即将实施针对AI伴侣服务的监管措施，要求配备防沉迷系统、强制使用通知和即时退出机制，并禁止向未成年人提供虚拟伴侣服务。字节跳动的豆包和阿里巴巴的通义千问等主流应用已关闭相关功能以规避合规风险。

中国《人工智能合成人互动服务管理办法》于2026年7月15日生效，重点监管具有情感交互功能的AI伴侣。
字节跳动和阿里巴巴因设计冲突已关闭旗下AI应用的伴侣功能，用户数据面临丢失风险。

字节跳动Doubao、阿里Qwen将于7月15日关闭个性化AI智能体

2026-07-06 14:23 UTC+8

字节跳动的Doubao和阿里巴巴的Qwen大型语言模型宣布将于7月15日关闭个性化AI智能体，以遵守政府监管。分析师认为此举旨在增强安全性和合规性，防止第三方滥用，同时削减商业可行性低的业务。同日，中国《人工智能生成式合成内容标识办法》等新规生效，要求平台建立防沉迷系统、验证未成年人身份并加强内容审核。尽管智能体被移除，但AI智能体市场仍预计爆发式增长。

Doubao和Qwen将于7月15日关闭AI智能体功能，用户可在10月15日前导出数据。
关闭旨在提升安全合规性，避免第三方滥用，并优化商业效率。

现代视觉语言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

2026-07-06 13:14 UTC+8

现代视觉语言模型（VLM）能够同时理解图像和语言，超越了CLIP和BLIP等早期模型。本文详细介绍了GPT-4o、Gemini、Claude Vision和Qwen-VL的工作方式、关键差异、优势与局限性，并展示了它们在教育、医疗、自动化等领域的实际应用。

现代VLM可分析图像、文档、图表并回答视觉问题，支持多模态对话。
GPT-4o在实时多模态交互方面表现突出，支持文本、图像、音频和视频。

每月6美元，无限制的LLM API：无需追踪Token，无需限制

2026-07-06 09:22 UTC+8

Yolo-Auto推出每月6美元的固定费率API服务，提供无限制的Qwen3.6-35B-A3B模型访问。该服务兼容OpenAI的API格式，不存储提示或响应数据，适用于编码代理、自动化工作流等场景，消除了按Token计费带来的成本和焦虑。

每月6美元即可无限制使用Qwen3.6-35B-A3B模型，无Token计数或请求限制。
完全兼容OpenAI API格式，支持Cursor、LangChain等工具。

前Qwen负责人谈混合思维的失误——以及他为何现在支持智能体

2026-07-05 10:31 UTC+8

前阿里巴巴Qwen技术负责人林俊阳在演讲和博文中批判了Qwen3的混合思维模式，并主张转向智能体思维。他解释了融合思考与非思考模式的困难，以及为何智能体强化学习需要解耦的基础设施和高质量环境以避免奖励篡改。

林俊阳于2026年3月3日卸任Qwen负责人，现以独立研究员身份发表见解。
Qwen3的混合思维模式实施困难，后续变体重新分离了指导与思考模式。

临床智能体的世界反馈：在FHIR环境中诊断强化学习

2026-07-03 12:00 UTC+8

该研究审计了MedAgentBench v1/v2，发现41.7%的静默完成上限，并构建了MAB-v3（508个任务，8.9%上限）。使用Qwen3-8B训练揭示了两个结构性障碍：能力上限和格式知识障碍。纯强化学习达到18.2%的pass@1，而基于规则的SFT为34.1%，差距完全归因于这些障碍。研究提出了决策/格式知识/查找分类法来预测强化学习的可学习性。

MedAgentBench v1/v2存在41.7%的静默完成上限，导致不行动成为强化学习的主导策略
新构建的MAB-v3基准将上限降至8.9%，包含508个任务

无基底的个性：体制依赖与LLM个体化问题

2026-07-02 12:00 UTC+8

本文对Beckmann & Butlin (2026)关于LLM个体化的本体论框架提出质疑，认为其继承了未论证的跨体制共指假设。通过Qwen3-4B-Instruct和Mistral-7B-Instruct-v0.2上的个性拓扑实验，作者展示了四个经验性楔子，共同削弱该假设，并提出体制索引个体化：表征内容的身份单位是（载体，体制）对，而非仅载体。

Beckmann & Butlin的框架假设跨体制下相同方向指向相同内容，该假设未经验证。
实验揭示提示提取向量与微调盆地不共线，虚构个性比真实锚点更强地沿真实锚点方向位移模型等。

桥接科学遗产：面向可持续知识转移的阿拉伯语-俄语平行语料库与LLM基准

2026-07-01 12:00 UTC+8

本研究构建了一个约27,000句对的阿拉伯语-俄语混合平行语料库，涵盖科学摘要和通用领域文本。通过微调三个多语言模型（mT5-base、NLLB-200、Qwen2.5-7B），发现Qwen2.5-7B模型在QLoRA（秩8）下表现最佳，BLEU达23.15，较零样本基线提升4.36。少样本提示未改善性能，表明需领域特定微调。该工作降低了科学文本的语言障碍，促进阿拉伯语和俄语研究者之间的知识交流，助力可持续发展目标（SDG 9和17）。

构建包含约27,000句对的阿拉伯语-俄语平行语料库，来源包括科学摘要和通用文本。
微调三个多语言模型，Qwen2.5-7B搭配QLoRA（秩8）取得最佳翻译性能。

AI模型可访问性检查器

2026-06-30 22:21 UTC+8

AIMAC项目由GAAD基金会与ServiceNow合作推出，评估了37个顶尖AI模型生成的网页在可访问性方面的表现。结果显示，OpenAI的GPT 5.4 Mini和GPT 5.3 Codex在可访问性债务上达到0.00，排名前两位。阿里巴巴的Qwen和Z.ai的GLM 4.7 Flash也表现突出。低对比度文本是AI生成页面中最常见的可访问性问题，占84.2%。

AIMAC项目评估了37个AI模型在28个类别中生成网页的可访问性
OpenAI的GPT 5.4 Mini和GPT 5.3 Codex以0.00的可访问性债务并列第一

构建本地AI系统：Qwen3.6与MCP

2026-06-30 22:00 UTC+8

本文介绍如何利用Qwen3.6-35B-A3B模型和模型上下文协议（MCP）构建本地AI系统，包括模型架构、硬件需求、服务部署以及一个实际的GitHub开发者助手示例。

MCP是一种开源协议，允许AI模型通过标准接口调用外部工具，无需为每个模型编写集成代码。
Qwen3.6-35B-A3B采用混合专家架构，激活参数仅3B，适合本地部署。

Ornith-1.0：自我改进的开源代码智能编码模型

2026-06-30 01:16 UTC+8

Ornith-1.0 是一个开源编码智能体模型系列，基于 Gemma 4 和 Qwen 3.5 后训练，采用强化学习同时优化搜索脚手架和解决方案，在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基准测试中达到同类开源模型的最优性能。提供 9B（密集）、35B（MoE）和 397B（MoE）三种规模，MIT 许可证，支持 OpenAI 兼容 API 和工具调用，可部署于 vLLM、SGLang、llama.cpp 等推理引擎。

Ornith-1.0 包含 9B、35B MoE 和 397B MoE 三个版本，在多项编码基准上取得开源模型最佳结果。
采用自我改进的强化学习框架，联合训练搜索脚手架与解决方案，提升搜索轨迹质量。

Ornith-1.0：用于自主编程的自支架LLM

2026-06-30 00:17 UTC+8

DeepReinforce发布了首个开放权重模型Ornith-1.0，基于Gemma 4和Qwen 3.5，提供多种参数规模（9B到397B），在编程基准测试中达到开源模型最佳性能。作者使用LM Studio测试了35B MoE变体，发现其能熟练处理多个工具调用，并在代理编程任务中表现出色。该模型采用MIT许可，底层模型均为Apache 2.0许可，兼容性良好。

Ornith-1.0是DeepReinforce首个开源模型，采用MIT许可
基于Gemma 4和Qwen 3.5，有9B Dense、31B Dense、35B MoE和397B MoE四种变体

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：基于Qwen3.5的百万上下文推理模型

2026-06-29 13:53 UTC+8

Qwythos-9B是由Empero AI基于深度未审查的Qwen3.5-9B底座进行全参数微调的推理模型，经过超过5亿个token的高质量Claude Mythos和Fable轨迹训练，并采用内部工具rethink生成思维链。该模型拥有1048576 token的上下文窗口，在MMLU、GSM8K等基准测试中大幅超越基础模型，支持原生函数调用，并具备工具辅助的自纠错能力。模型设计上故意未加审查，适用于网络安全、红队方法、生物医学等要求严格技术回答的领域。

基于Qwen3.5-9B的全参数微调模型，使用5亿+token高质量数据进行后训练。
支持1,048,576 token的上下文窗口，适合全代码库推理和多文档研究。

DMV-Bench：通过偶然线索注入诊断长周期多模态智能体的视觉记忆

2026-06-29 12:00 UTC+8

DMV-Bench是首个针对多模态智能体视觉记忆的交互式基准测试，基于包含1000种产品的家居电商目录构建。通过在每个产品图像中注入独特的偶然线索，测试智能体在长时间购物会话中回忆特定产品的能力。研究者提出双编码记忆架构DualMem，在Gemini 2.5 Flash和Qwen2.5-VL-7B上均优于现有系统。

DMV-Bench是首个交互式视觉记忆基准，使用1000种产品图像中的偶然线索测试多模态智能体
DualMem架构并行维护视觉和语言编码，在长链会话中表现优异

Supersede：诊断和训练LLM智能体中的记忆更新差距

2026-06-29 12:00 UTC+8

大型语言模型（LLM）智能体在长期多会话交互中需要更新事实，但现有记忆系统存在显著缺陷。研究发现，即使是最先进的模型（如gpt-5.4），在替换为有界自维护记忆后，准确率从92%下降到77%。这种差距并非由模型规模或记忆容量引起，而是随对话长度增加而恶化。研究者发布了Supersede，一个基于强化学习的开源训练环境，通过奖励当前事实和惩罚过时事实来训练智能体。对Qwen2.5-3B模型进行GRPO微调，使真实对话中的更新准确率从9.0%提升至16.7%。

LLM智能体在长时间交互中难以更新记忆中的事实，导致准确率显著下降。
记忆更新差距并非由模型规模或记忆容量引起，而是随对话长度增加而恶化。

Liquid AI 发布 LFM2.5-230M：支持 on-device 推理，兼容 llama.cpp、MLX 等多种框架

2026-06-28 12:58 UTC+8

Liquid AI 发布其最小模型 LFM2.5-230M，仅 2.3 亿参数，开放权重，专为边缘设备上的工具使用和数据提取设计。在 Galaxy S25 Ultra 上可达 213 tok/s，在树莓派 5 上为 42 tok/s。该模型在指令遵循和数据提取上超越 Qwen3.5-0.8B 和 Gemma 3 1B。提供基础版和指令调优版，支持 32K 上下文，兼容多项推理框架。

LFM2.5-230M 是 Liquid AI 最小的模型，2.3 亿参数，开放权重，基于 LFM2 架构。
在 Galaxy S25 Ultra 上运行速度达 213 tok/s，树莓派 5 上为 42 tok/s。

使用本地编码代理：开源模型与本地工具的实用指南

2026-06-27 19:21 UTC+8

本文详细介绍了如何搭建一个完全本地的编码代理环境，使用开源工具和开放权重的大语言模型（如Qwen3.6）替代付费服务（如Claude Code和Codex）。涵盖了本地模型的优势、设置步骤、性能评估以及多种代理框架（Qwen-Code、Codex、Claude Code等）的选择。

本地编码代理使用开放权重模型，无需订阅费用，保护隐私，适合离线环境。
推荐使用Qwen3.6 35B-A3B模型与Qwen-Code框架，性能在同尺寸模型中表现优异。

越大越强：约束引导推理是大模型的关键优势

2026-06-26 12:00 UTC+8

一项新研究揭示了大型语言模型在推理任务中优于小型模型的关键原因：约束引导推理。大型模型更擅长识别显式和隐式约束，组织结构化推理，并排除不可行路径。研究团队开发的AdvCluster框架自动分析了模型间的推理差异，发现Qwen3-32B比Qwen3-8B平均高出6.43%，GPT-OSS-120B比GPT-OSS-20B高出7.38%。

大型模型在数学、物理、化学和编程推理基准上持续优于小型模型。
研究提出了“约束引导推理”作为核心优势：大型模型能更好地识别和利用约束。

Know2Guess：一种污染感知的多区域基准，用于大语言模型的知识边界评估

2026-06-26 12:00 UTC+8

arXiv:2606.26101 新论文提出Know2Guess基准，包含1200个跨域问题，用于区分LLM的知识回答与猜测。评估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型，发现Qwen2.5-3B-Instruct表现最佳，但仍有校准不足等问题。

Know2Guess基准包含1200个问题，覆盖五个领域，并带有污染风险元数据
评估显示模型在回答和弃权之间过渡不完整

拒绝行为位于聊天模型角色个性的下游

2026-06-26 12:00 UTC+8

该论文发现，在聊天模型中，拒绝行为并非独立机制，而是受角色个性（特别是顺从个性）的门控。通过干预Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向，研究显示顺从个性方向可以抑制拒绝，而拒绝方向仅在后期层部分恢复拒绝。这表明拒绝在后期表达阶段受个性门控，而非孤立方向。

顺从个性方向可显著抑制拒绝行为（Llama中拒绝率从97%降至2%）。
拒绝方向仅在后期层部分恢复拒绝，早期层无效。

Anthropic指控阿里巴巴发动最大规模AI蒸馏攻击：2880万次欺诈性交互

2026-06-26 08:49 UTC+8

Anthropic致信美国官员，指控阿里巴巴及其Qwen实验室通过约25,000个欺诈账户，在44天内对Claude模型进行了2880万次交互，试图窃取软件工程和智能体推理等核心能力。此次攻击规模远超以往，引发国家安全担忧，阿里巴巴股价下跌。

Anthropic指控阿里巴巴发动了AI历史上最大规模的蒸馏攻击，涉及2880万次交互和25,000个欺诈账户。
攻击目标明确针对Claude最先进的软件工程和智能体推理能力，持续44天。

DeepReinforce发布Ornith-1.0：开源编程模型家族，自我学习强化学习框架

2026-06-26 01:11 UTC+8

DeepReinforce发布了Ornith-1.0，一个基于Gemma 4和Qwen 3.5的开源编程模型系列，涵盖9B至397B四种规模。其核心创新在于模型在强化学习过程中自主学习框架（scaffold），而非依赖固定的人造框架。旗舰版397B模型在SWE-Bench Verified上取得82.4分，所有权重均在MIT许可下开源。

Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四种模型，均基于Gemma 4和Qwen 3.5，采用MIT许可证。
模型在强化学习中自主学习编程框架，即同时优化框架和解决方案。

超越Fable：本地LLM能否取代云端AI进行安全代码审查？

2026-06-25 20:05 UTC+8

研究表明，在正确框架下，本地LLM（如Qwen3.6-35B-A3B）在安全代码审查中可以产生与云端前沿模型相当的结果，但需要结合云端模型进行编排和报告整合，且源代码永远不离开本地机器。

本地LLM（Qwen3.6-35B-A3B）在不到90分钟内发现了与云端模型同等规模的漏洞集合，无需人工提示。
最佳实践是“Source-local”管道：云端设计审查步骤和整合报告，本地执行代码扫描。

AI周报#883：Qwen进军机器人领域

2026-06-25 19:01 UTC+8

阿里巴巴的Qwen模型家族推出机器人套件，旨在弥合感知与行动之间的鸿沟。三个新模型分别专注于导航、操作和世界建模，核心挑战在于将物理动作转化为可学习的token。

Qwen模型长期局限于软件环境，无法执行物理操作。
阿里巴巴发布Qwen-Robot Suite，包含三个专用模型。

Dustin：面向高效长上下文生成的草稿增强稀疏验证方法

2026-06-25 12:00 UTC+8

Dustin是一种专为长上下文场景设计的稀疏验证框架，通过结合草稿模型的预测信号与目标模型的歷史注意力，仅对关键token进行验证，显著加速推测解码中的KV缓存加载瓶颈。在Qwen2.5-72B上，32k序列长度下自注意力加速27.85倍，端到端解码加速9.17倍，精度损失可忽略。

推测解码在长上下文LLM中受限于KV缓存加载导致的验证瓶颈
现有压缩方法（静态驱逐或动态选择）无法兼顾效率与准确性

[AINews] 元工具之夏来临

2026-06-25 10:14 UTC+8

本文回顾了AI领域的最新动态，包括元工具（Meta-Harness）架构的兴起、OpenAI自研芯片Jalapeño、Agent用户体验从工具向协作者转变、Qwen-AgentWorld开放世界模型、中国开源模型GLM-5.2的进展，以及政策与人才竞争。重点讨论了各领域的技术突破、行业影响及未来趋势。

元工具架构成为新焦点，Omnigent等开源方案推动标准化与可扩展性。
OpenAI发布自研推理芯片Jalapeño，加速全栈AI基础设施竞争。

Qwen-AgentWorld 模型

2026-06-24 21:57 UTC+8

介绍 Qwen-AgentWorld 模型。

Qwen-AgentWorld 模型简介

DFlash推测解码：并行生成整个Token块，在NVIDIA Blackwell上吞吐量提升高达15倍

2026-06-24 15:21 UTC+8

加州大学圣地亚哥分校的研究团队提出DFlash，用轻量级块扩散模型替代自回归式草稿生成，用于推测解码。它通过单次前向传播生成整个Token块，并通过KV注入将目标隐藏特征注入草稿模型。论文报告在Qwen3-8B上实现高达6.08倍的无损加速，NVIDIA则在固定交互性条件下报告了Blackwell上15倍的吞吐量提升。DFlash提供了20个检查点，支持SGLang、vLLM和TensorRT-LLM。

DFlash通过一次前向传播生成整个Token块，而非逐Token生成。
它将目标隐藏特征注入每个草稿层的KV缓存，使接受长度随深度扩展。

离线推理训练的权重空间几何

2026-06-24 12:00 UTC+8

该论文研究了六种离线强化学习损失函数（SFT、RFT、DFT、RIFT、Offline GRPO、DPO）在推理蒸馏中的权重更新几何特性。实验基于Qwen3-4B模型和相同数学数据，发现SFT、RFT和RIFT的权重增量近乎共线，DFT偏离较大，Offline GRPO增加了正交分量，而DPO位于近乎正交的子空间且准确率最高，但存在模式连接障碍。

SFT、RFT和RIFT的权重余弦相似度≥0.97，GSM8K准确率约87-88%。
DFT的更新方向比任何奖励加权方法都更发散。

我们让本地模型免费（*）为OpenClaw仓库进行问题分类！

2026-06-22 08:00 UTC+8

OpenClaw维护者利用本地开源模型（Gemma、Qwen）在智能体框架中，实时对问题和拉取请求进行分类，性能媲美闭源模型，仅需硬件电费成本。

本地模型（如Gemma和Qwen）能有效对GitHub问题和PR进行分类，用于问题分派。
系统使用带有只读shell（reposhell）的智能体框架，安全地检查代码。

VibeThinker-3B：基于Qwen2.5-Coder-3B与频谱到信号后训练流水线的3B密集推理模型

2026-06-20 06:06 UTC+8

VibeThinker-3B是一个仅30亿参数的开源推理模型，在可验证基准测试中匹配DeepSeek V3.2和Kimi K2.5等千亿级模型。它采用频谱到信号后训练流水线，通过监督微调、强化学习和自蒸馏实现高效推理，并引入测试时缩放方法CLR进一步提升性能。

VibeThinker-3B仅有3B参数，MIT许可证开源，基于Qwen2.5-Coder-3B构建，专攻可验证推理。
在AIME26上得分94.3，与671B的DeepSeek V3.2和1T的Kimi K2.5相当。

大语言模型不知其所不知：通过跨模型归因分歧检测临床表格数据中的认知盲点

2026-06-19 12:00 UTC+8

本研究比较了Qwen 2.5 7B和XGBoost在临床预测任务中的表现，通过归因分歧分析揭示了四个重要发现：LLM的口头置信度在认识论上是空洞的，存在逆向难度效应，少样本示例和SHAP特征证据的结合可显著提升准确率，且跨模型校准器能有效降低校准误差。

LLM的口头置信度几乎恒定（0.856-0.937），与准确率无关，仅随提示格式变化。
存在逆向难度效应：当XGBoost高度确定时，LLM准确率下降，但在中等不确定性时两者表现相当。

投机解码：一切皆是推测

2026-06-19 08:00 UTC+8

Modal团队全面推崇投机解码技术，认为它是当前最关键的高交互推理优化手段，能带来2-3倍甚至更高的加速效果。他们与Z Lab合作训练了针对Qwen系列模型的最先进DFlash投机解码器，额外提升5-20%的速度，并强调了投机解码在长上下文任务中的优势。本文详细解释了投机解码的原理、与传统优化的对比，以及通过模拟和数学模型展示的加速效果。

投机解码是目前唯一重要的推理引擎优化，能实现数倍加速而非微小百分比提升。
Modal与Z Lab合作发布了多款Qwen模型的DFlash投机解码器，额外提速5-20%。

我们有了自家的“玻璃翼”：谁还需要Mythos 5或Fable 5？

2026-06-18 21:49 UTC+8

作者受Anthropic的Glasswing启发，在本地硬件上构建了自主安全研究员Lucent。Lucent是一个分阶段源代码漏洞猎人，在单张RTX 3090上运行本地27B Qwen模型，通过Lucebox解码速度提升约3.4倍。首次针对hermes-agent的测试中，静态分析产生1342个候选，本地筛选至126个，前沿模型对抗审计将15个线索最终缩减至2个真实漏洞。本地读取成本约1.62美元。最精彩的时刻是审查者代理发现作者之前针对供应商已悄悄重写的威胁模型评分了三个早期漏洞。

Lucent：一个分阶段流水线，包括排名、搜索、验证、利用四个阶段，在本地GPU上运行。
使用Lucebox的投机解码，27B模型在代码类文本上达到约130 token/s，是普通解码的3.4倍。

JetFlow：使用并行树草稿打破推测解码的扩展上限

2026-06-18 12:00 UTC+8

JetFlow提出了一种基于头部的推测解码框架，通过因果并行草稿头，在保持前向传递效率的同时实现分支级因果条件化，从而将更大的草稿预算转化为更长的接受前缀和更高的端到端加速。在Qwen3模型上的测试显示，JetFlow在MATH-500上实现了高达9.64倍的加速，在开放对话任务上实现了4.58倍加速。

JetFlow结合了单向传播的高效性和分支级因果条件化，解决了先前方法中因果性与效率之间的两难问题。
通过训练因果并行草稿头，JetFlow生成的候选树与目标模型的自回归分解对齐，有效利用草稿预算。

归因引导与覆盖最大化的结构化MoE剪枝方法

2026-06-18 12:00 UTC+8

本文提出一种面向混合专家模型的结构化剪枝框架，通过将剪枝比率分配转化为通道分数覆盖最大化问题，并利用基于归因的近似方法高效求解。实验表明，在50%或25%结构化剪枝结合4位量化条件下，该方法在DeepSeek和Qwen MoE模型上保持了模型精度，并在Qwen3-30B-A3B上实现5.27倍内存压缩，超越现有基准。

发现MoE专家内部信息集中在少数通道，存在显著冗余
提出通道级结构化剪枝框架，将剪枝比率分配建模为覆盖最大化问题

本地Qwen并非更差的Opus，而是一种不同的工具

2026-06-18 11:04 UTC+8

本文作者作为一名小型软件企业的创始人，分享了使用本地模型的真实经验。他指出，虽然本地模型如Qwen在基准测试上落后于前沿模型，但在隐私、固定成本和供应商风险规避方面具有独特价值。同时，作者也坦诚地讨论了本地模型的局限性，如无限循环和幻觉问题，并告诫不要将其用于无监督的长期任务。

本地模型与前沿模型是不同工具，适用于不同场景。
作者通过实际业务案例证明了本地模型的经济性和隐私优势。

VL-MemKnG：结合时空知识图谱与混合记忆的长自导导航轨迹问答

2026-06-17 12:00 UTC+8

本文提出VL-MemKnG，一种混合记忆框架，将时空知识图谱与片段级上下文记忆相结合，用于解决长自导视频中的导航问答任务。该框架通过结构化关系记忆和广泛时间背景的融合，显著提升了长距离证据检索的准确性。在WalkieKnowledgeT+基准上，VL-MemKnG的Top-1检索准确率从58%提升至67%，Recall@1从34.50%提升至40.55%，超越了包括Gemini 2.5 Pro和Qwen 3.5+在内的所有对比方法。

提出VL-MemKnG混合记忆框架，结合时空知识图谱和片段级上下文记忆进行长自导导航视频问答。
引入WalkieKnowledgeT+基准，包含时间分布推理任务，需跨多个非共现时刻聚合证据。

Qwen

相关主题

Qwen动态

Director：通过在线主动专家放置加速分布式MoE服务

面向低比特整数的有符号对称量化

修复三个Bug，让Qwen3.5-122B在Mac Studio上成为日常驱动

评估基于SageMath增强的LLM智能体在计算与实验数学中的应用

AI模型“过度思考”问题——这是一种安全风险

本地模型用于编码的可行性

NAVER LABS系统复现：面向IWSLT 2026指令跟随任务

Liquid AI 开源 Antidoom：一种通过最终令牌偏好优化（FTPO）减少推理模型死循环的方法

用于数据高效代码切换语音识别的强化学习

语言模型中风险规避的分布外泛化

Oyster-II：基于强化学习的语言模型建设性安全对齐框架

LensVLM：选择性上下文扩展实现文本的压缩视觉表示

中国AI伴侣新规：北京真正要管的是什么

字节跳动Doubao、阿里Qwen将于7月15日关闭个性化AI智能体

现代视觉语言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

每月6美元，无限制的LLM API：无需追踪Token，无需限制

前Qwen负责人谈混合思维的失误——以及他为何现在支持智能体

临床智能体的世界反馈：在FHIR环境中诊断强化学习

无基底的个性：体制依赖与LLM个体化问题

桥接科学遗产：面向可持续知识转移的阿拉伯语-俄语平行语料库与LLM基准

AI模型可访问性检查器

构建本地AI系统：Qwen3.6与MCP

Ornith-1.0：自我改进的开源代码智能编码模型

Ornith-1.0：用于自主编程的自支架LLM

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：基于Qwen3.5的百万上下文推理模型

DMV-Bench：通过偶然线索注入诊断长周期多模态智能体的视觉记忆

Supersede：诊断和训练LLM智能体中的记忆更新差距

Liquid AI 发布 LFM2.5-230M：支持 on-device 推理，兼容 llama.cpp、MLX 等多种框架

使用本地编码代理：开源模型与本地工具的实用指南

越大越强：约束引导推理是大模型的关键优势

Know2Guess：一种污染感知的多区域基准，用于大语言模型的知识边界评估

拒绝行为位于聊天模型角色个性的下游

Anthropic指控阿里巴巴发动最大规模AI蒸馏攻击：2880万次欺诈性交互

DeepReinforce发布Ornith-1.0：开源编程模型家族，自我学习强化学习框架

超越Fable：本地LLM能否取代云端AI进行安全代码审查？

AI周报#883：Qwen进军机器人领域

Dustin：面向高效长上下文生成的草稿增强稀疏验证方法

[AINews] 元工具之夏来临

Qwen-AgentWorld 模型

DFlash推测解码：并行生成整个Token块，在NVIDIA Blackwell上吞吐量提升高达15倍

离线推理训练的权重空间几何

我们让本地模型免费（*）为OpenClaw仓库进行问题分类！

VibeThinker-3B：基于Qwen2.5-Coder-3B与频谱到信号后训练流水线的3B密集推理模型

大语言模型不知其所不知：通过跨模型归因分歧检测临床表格数据中的认知盲点

投机解码：一切皆是推测

我们有了自家的“玻璃翼”：谁还需要Mythos 5或Fable 5？

JetFlow：使用并行树草稿打破推测解码的扩展上限

归因引导与覆盖最大化的结构化MoE剪枝方法

本地Qwen并非更差的Opus，而是一种不同的工具

VL-MemKnG：结合时空知识图谱与混合记忆的长自导导航轨迹问答

更多增长标签

AI 编程

MCP

开源模型

推理成本

Agent 框架

中国 AI

GPU 基础设施

模型定价

DeepSeek