Qwen AI News

Qwen動態

Director：通過在線主動專家放置加速分佈式MoE服務

2026-07-13 12:00 UTC+8

本文介紹了Director，一種新的分佈式MoE推理系統，通過預測驅動的在線專家放置優化，顯著降低端到端延遲。系統採用輕量級級聯預測器或低比特量化副本預測專家激活模式，結合近乎零停機的在線遷移模塊，以及基於鬆弛優化的專家放置算法，在多項式時間內達到(1+ε)近似比。實驗表明，在Mistral、DeepSeek和Qwen等流行MoE模型上，相比現有工作延遲降低11%~55%。

提出預測驅動的在線專家放置方法
設計近乎零停機的專家遷移模塊

面向低比特整數的有符號對稱量化

2026-07-13 12:00 UTC+8

本文提出有符號對稱量化方法，解決標準對稱量化器因整數範圍不平衡導致的正異常值截斷問題，同時避免非對稱量化的運行時開銷。理論分析表明該方法在ℓ2誤差上條件最優，且88-99%的LLM權重組滿足條件。實驗在Qwen3、Llama3等模型上驗證了困惑度和少樣本準確率的提升。

標準對稱量化器因有符號整數多一個負值導致正異常值被截斷，在低比特時誤差顯著。
有符號對稱量化通過符號選擇規則將額外值分配給主要異常值尾端，保持零點為0，保留對稱量化的高效計算。

修復三個Bug，讓Qwen3.5-122B在Mac Studio上成為日常驅動

2026-07-12 06:54 UTC+8

作者在Mac Studio上運行Qwen3.5-122B模型時，遇到了三個導致緩存失效的bug，修復後對話預填充時間從幾分鐘降至亞秒級，大幅提升了長上下文場景下的使用體驗。文章還討論了模型選擇、混合注意力機制以及性能指標的正確衡量方式。

Qwen3.5-122B模型在Mac Studio上因混合注意力架構導致前綴緩存頻繁失效。
三個Bug分別涉及系統提示中的時間戳、中斷時未保存回覆以及檢查點存儲中的垃圾寫入。

評估基於SageMath增強的LLM智能體在計算與實驗數學中的應用

2026-07-09 12:00 UTC+8

本研究提出一種ReAct風格的智能體架構，將LLM推理與SageMath可驗證反饋及Context7最新文檔結合，在RealMath基準上評估前沿模型解決研究級數學問題的能力。實驗表明，SageMath訪問平均提升9.7個百分點，縮小了開源與閉源模型的差距。Qwen 3.7-Max受益最大，GPT-5.5達到75.2%的最高解決率。該工作已被ICML 2026第三屆AI for Math研討會接收。

提出結合LLM推理與SageMath反饋的ReAct智能體框架
在RealMath基準上評估，平均性能提升9.7個百分點

AI模型“過度思考”問題——這是一種安全風險

2026-07-08 19:00 UTC+8

研究表明，具備推理能力的大語言模型容易因邏輯不一致的提示而陷入“過度思考”，導致輸出長度激增，可能被利用發動拒絕服務攻擊。浙江大學與阿里巴巴的研究人員開發了一種進化算法，能夠生成惡意提示，使模型輸出長度最高增加26倍，影響包括DeepSeek-R1、Qwen3-Thinking、GPT-o3和Gemini 2.5 Flash在內的主流推理模型。

研究人員展示了一種利用AI推理模型“過度思考”漏洞的新型攻擊，導致計算量急劇增加。
通過進化算法破壞提示的邏輯結構，可使模型輸出長度最高達到正常情況的26倍。

本地模型用於編碼的可行性

2026-07-08 17:24 UTC+8

Thoughtworks 傑出工程師 Birgitta Böckeler 在 Apple Silicon 機器上重新評估了本地 AI 模型在編碼任務中的可行性。她系統分析了 RAM、處理能力、模型架構、工具調用能力等多種因素，並分享了 Qwen3、Gemma 4 等模型的實際體驗。

RAM 是本地模型運行的核心限制，48GB 機器上 15-25GB 模型表現最佳。
推理能力（chain of thought）有時會適得其反，關閉後性能不降反升。

NAVER LABS系統復現：面向IWSLT 2026指令跟隨任務

2026-07-08 12:00 UTC+8

NAVER LABS團隊復現了其IWSLT 2025指令跟隨流水線，並針對IWSLT 2026共享任務（受限條件、短音頻軌道）進行調整，採用SeamlessM4T-v2-large作為語音編碼器、Qwen3-4B-Instruct作為LLM主幹。保留了三階段方法：投影器對齊、純文本LoRA預訓練和多模態融合。此外，團隊從提供的語料庫構建了10萬個涵蓋十種語音中心任務類型的合成指令跟隨示例。主要模型在EN-ZH語音翻譯上達到COMET 0.781，在MCIF基準的英語SQA上達到BERTScore-F1 0.346。

復現NAVER LABS IWSLT 2025流水線，適應IWSLT 2026任務
使用SeamlessM4T-v2-large和Qwen3-4B-Instruct作為核心組件

Liquid AI 開源 Antidoom：一種通過最終令牌偏好優化（FTPO）減少推理模型死循環的方法

2026-07-08 00:50 UTC+8

Liquid AI 發佈了 Antidoom，一種針對推理模型中死循環的開源方法。通過 FTPO，它僅重新訓練導致循環開始的令牌，將 LFM2.5-2.6B 上的循環率從 10.2% 降至 1.4%，Qwen3.5-4B 從 22.9% 降至 1%。

Antidoom 通過僅重新訓練循環開始令牌來減少死循環。
FTPO 將概率分佈在多個連貫的替代方案上。

用於數據高效代碼切換語音識別的強化學習

2026-07-07 12:00 UTC+8

研究人員提出了一種基於可驗證獎勵的強化學習（RLVR）方法，用於將音頻語言模型適應代碼切換語音識別。僅使用10%的數據，RLVR在Qwen2-Audio上跨越10個語言對達到了全數據集監督微調的性能，且增益零樣本遷移到人類錄音的代碼切換語料庫。

新的RLVR方法結合了錯誤率獎勵和腳本保真度獎勵，用於代碼切換ASR。
僅用10%數據即可達到全數據集LoRA SFT的性能。

語言模型中風險規避的分佈外泛化

2026-07-07 12:00 UTC+8

該研究探討了訓練人工智能在低風險場景下表現出的風險規避行為是否能夠泛化到極高風險場景，作為應對AI對齊失敗的一種安全措施。作者引入了RiskAverseOOD基準測試，並初步實驗表明，通過多種方法（如SFT、DPO、激活引導）訓練的Qwen3-8B模型，在高風險下選擇安全“合作”選項的比例從基線2%提升至70%（SFT和tie訓練）、52%（DPO）和39%（激活引導）。風險規避行為跨越98個數量級部分泛化，但一致性仍不足以作為可靠的安全機制。

引入RiskAverseOOD基準，用於衡量風險規避的分佈外泛化能力。
使用SFT、DPO和激活引導等方法訓練語言模型在低風險下規避風險。

Oyster-II：基於強化學習的語言模型建設性安全對齊框架

2026-07-07 12:00 UTC+8

大型語言模型（LLM）在安全性和有用性之間面臨挑戰。傳統的拒絕式對齊策略會拒絕敏感查詢，但可能無法滿足用户合理需求。Oyster-II提出基於強化學習（RL）的建設性安全對齊框架，採用Zero-RL範式和多階段RL策略，解決了Oyster-I中監督微調（SFT）方案的安全泛化不足和安全思維鏈過度泛化問題。在多個基準測試中，Oyster-II在安全維度上全面超越Qwen3-14B和Oyster-I，性能堪比Qwen3-Max和Qwen3.5-397B。

Oyster-II是Oyster-I的改進版，採用強化學習而非監督微調進行安全對齊。
提出了Zero-RL範式與多階段強化學習相結合的策略。

LensVLM：選擇性上下文擴展實現文本的壓縮視覺表示

2026-07-07 08:00 UTC+8

LensVLM 是一種推理框架和後訓練方案，使視覺語言模型（VLM）能夠掃描壓縮圖像，並通過學習工具僅選擇性擴展相關圖像到未壓縮形式。在 Qwen3.5-9B-Base 基礎上，LensVLM 在 4.3 倍有效壓縮下保持了與全文本上限相當的準確率，在 7 個文本 QA 基準測試中最高達 10.1 倍有效壓縮時優於檢索基線和文本/視覺壓縮基線。該方法還泛化到多模態文檔和代碼理解任務，且壓縮越大，準確率提升越明顯。

VLM 通過渲染圖像處理文本，但壓縮導致字符無法區分。
LensVLM 實現掃描壓縮圖像後選擇性擴展相關內容。

中國AI伴侶新規：北京真正要管的是什麼

2026-07-06 19:00 UTC+8

中國即將實施針對AI伴侶服務的監管措施，要求配備防沉迷系統、強制使用通知和即時退出機制，並禁止向未成年人提供虛擬伴侶服務。字節跳動的豆包和阿里巴巴的通義千問等主流應用已關閉相關功能以規避合規風險。

中國《人工智能合成人互動服務管理辦法》於2026年7月15日生效，重點監管具有情感交互功能的AI伴侶。
字節跳動和阿里巴巴因設計衝突已關閉旗下AI應用的伴侶功能，用户數據面臨丟失風險。

字節跳動Doubao、阿里Qwen將於7月15日關閉個性化AI智能體

2026-07-06 14:23 UTC+8

字節跳動的Doubao和阿里巴巴的Qwen大型語言模型宣佈將於7月15日關閉個性化AI智能體，以遵守政府監管。分析師認為此舉旨在增強安全性和合規性，防止第三方濫用，同時削減商業可行性低的業務。同日，中國《人工智能生成式合成內容標識辦法》等新規生效，要求平台建立防沉迷系統、驗證未成年人身份並加強內容審核。儘管智能體被移除，但AI智能體市場仍預計爆發式增長。

Doubao和Qwen將於7月15日關閉AI智能體功能，用户可在10月15日前導出數據。
關閉旨在提升安全合規性，避免第三方濫用，並優化商業效率。

現代視覺語言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

2026-07-06 13:14 UTC+8

現代視覺語言模型（VLM）能夠同時理解圖像和語言，超越了CLIP和BLIP等早期模型。本文詳細介紹了GPT-4o、Gemini、Claude Vision和Qwen-VL的工作方式、關鍵差異、優勢與侷限性，並展示了它們在教育、醫療、自動化等領域的實際應用。

現代VLM可分析圖像、文檔、圖表並回答視覺問題，支持多模態對話。
GPT-4o在實時多模態交互方面表現突出，支持文本、圖像、音頻和視頻。

每月6美元，無限制的LLM API：無需追蹤Token，無需限制

2026-07-06 09:22 UTC+8

Yolo-Auto推出每月6美元的固定費率API服務，提供無限制的Qwen3.6-35B-A3B模型訪問。該服務兼容OpenAI的API格式，不存儲提示或響應數據，適用於編碼代理、自動化工作流等場景，消除了按Token計費帶來的成本和焦慮。

每月6美元即可無限制使用Qwen3.6-35B-A3B模型，無Token計數或請求限制。
完全兼容OpenAI API格式，支持Cursor、LangChain等工具。

前Qwen負責人談混合思維的失誤——以及他為何現在支持智能體

2026-07-05 10:31 UTC+8

前阿里巴巴Qwen技術負責人林俊陽在演講和博文中批判了Qwen3的混合思維模式，並主張轉向智能體思維。他解釋了融合思考與非思考模式的困難，以及為何智能體強化學習需要解耦的基礎設施和高質量環境以避免獎勵篡改。

林俊陽於2026年3月3日卸任Qwen負責人，現以獨立研究員身份發表見解。
Qwen3的混合思維模式實施困難，後續變體重新分離了指導與思考模式。

臨牀智能體的世界反饋：在FHIR環境中診斷強化學習

2026-07-03 12:00 UTC+8

該研究審計了MedAgentBench v1/v2，發現41.7%的靜默完成上限，並構建了MAB-v3（508個任務，8.9%上限）。使用Qwen3-8B訓練揭示了兩個結構性障礙：能力上限和格式知識障礙。純強化學習達到18.2%的pass@1，而基於規則的SFT為34.1%，差距完全歸因於這些障礙。研究提出了決策/格式知識/查找分類法來預測強化學習的可學習性。

MedAgentBench v1/v2存在41.7%的靜默完成上限，導致不行動成為強化學習的主導策略
新構建的MAB-v3基準將上限降至8.9%，包含508個任務

無基底的個性：體制依賴與LLM個體化問題

2026-07-02 12:00 UTC+8

本文對Beckmann & Butlin (2026)關於LLM個體化的本體論框架提出質疑，認為其繼承了未論證的跨體制共指假設。通過Qwen3-4B-Instruct和Mistral-7B-Instruct-v0.2上的個性拓撲實驗，作者展示了四個經驗性楔子，共同削弱該假設，並提出體制索引個體化：表徵內容的身份單位是（載體，體制）對，而非僅載體。

Beckmann & Butlin的框架假設跨體制下相同方向指向相同內容，該假設未經驗證。
實驗揭示提示提取向量與微調盆地不共線，虛構個性比真實錨點更強地沿真實錨點方向位移模型等。

橋接科學遺產：面向可持續知識轉移的阿拉伯語-俄語平行語料庫與LLM基準

2026-07-01 12:00 UTC+8

本研究構建了一個約27,000句對的阿拉伯語-俄語混合平行語料庫，涵蓋科學摘要和通用領域文本。通過微調三個多語言模型（mT5-base、NLLB-200、Qwen2.5-7B），發現Qwen2.5-7B模型在QLoRA（秩8）下表現最佳，BLEU達23.15，較零樣本基線提升4.36。少樣本提示未改善性能，表明需領域特定微調。該工作降低了科學文本的語言障礙，促進阿拉伯語和俄語研究者之間的知識交流，助力可持續發展目標（SDG 9和17）。

構建包含約27,000句對的阿拉伯語-俄語平行語料庫，來源包括科學摘要和通用文本。
微調三個多語言模型，Qwen2.5-7B搭配QLoRA（秩8）取得最佳翻譯性能。

AI模型可訪問性檢查器

2026-06-30 22:21 UTC+8

AIMAC項目由GAAD基金會與ServiceNow合作推出，評估了37個頂尖AI模型生成的網頁在可訪問性方面的表現。結果顯示，OpenAI的GPT 5.4 Mini和GPT 5.3 Codex在可訪問性債務上達到0.00，排名前兩位。阿里巴巴的Qwen和Z.ai的GLM 4.7 Flash也表現突出。低對比度文本是AI生成頁面中最常見的可訪問性問題，佔84.2%。

AIMAC項目評估了37個AI模型在28個類別中生成網頁的可訪問性
OpenAI的GPT 5.4 Mini和GPT 5.3 Codex以0.00的可訪問性債務並列第一

構建本地AI系統：Qwen3.6與MCP

2026-06-30 22:00 UTC+8

本文介紹如何利用Qwen3.6-35B-A3B模型和模型上下文協議（MCP）構建本地AI系統，包括模型架構、硬件需求、服務部署以及一個實際的GitHub開發者助手示例。

MCP是一種開源協議，允許AI模型通過標準接口調用外部工具，無需為每個模型編寫集成代碼。
Qwen3.6-35B-A3B採用混合專家架構，激活參數僅3B，適合本地部署。

Ornith-1.0：自我改進的開源代碼智能編碼模型

2026-06-30 01:16 UTC+8

Ornith-1.0 是一個開源編碼智能體模型系列，基於 Gemma 4 和 Qwen 3.5 後訓練，採用強化學習同時優化搜索腳手架和解決方案，在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優性能。提供 9B（密集）、35B（MoE）和 397B（MoE）三種規模，MIT 許可證，支持 OpenAI 兼容 API 和工具調用，可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

Ornith-1.0 包含 9B、35B MoE 和 397B MoE 三個版本，在多項編碼基準上取得開源模型最佳結果。
採用自我改進的強化學習框架，聯合訓練搜索腳手架與解決方案，提升搜索軌跡質量。

Ornith-1.0：用於自主編程的自支架LLM

2026-06-30 00:17 UTC+8

DeepReinforce發佈了首個開放權重模型Ornith-1.0，基於Gemma 4和Qwen 3.5，提供多種參數規模（9B到397B），在編程基準測試中達到開源模型最佳性能。作者使用LM Studio測試了35B MoE變體，發現其能熟練處理多個工具調用，並在代理編程任務中表現出色。該模型採用MIT許可，底層模型均為Apache 2.0許可，兼容性良好。

Ornith-1.0是DeepReinforce首個開源模型，採用MIT許可
基於Gemma 4和Qwen 3.5，有9B Dense、31B Dense、35B MoE和397B MoE四種變體

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：基於Qwen3.5的百萬上下文推理模型

2026-06-29 13:53 UTC+8

Qwythos-9B是由Empero AI基於深度未審查的Qwen3.5-9B底座進行全參數微調的推理模型，經過超過5億個token的高質量Claude Mythos和Fable軌跡訓練，並採用內部工具rethink生成思維鏈。該模型擁有1048576 token的上下文窗口，在MMLU、GSM8K等基準測試中大幅超越基礎模型，支持原生函數調用，並具備工具輔助的自糾錯能力。模型設計上故意未加審查，適用於網絡安全、紅隊方法、生物醫學等要求嚴格技術回答的領域。

基於Qwen3.5-9B的全參數微調模型，使用5億+token高質量數據進行後訓練。
支持1,048,576 token的上下文窗口，適合全代碼庫推理和多文檔研究。

DMV-Bench：通過偶然線索注入診斷長週期多模態智能體的視覺記憶

2026-06-29 12:00 UTC+8

DMV-Bench是首個針對多模態智能體視覺記憶的交互式基準測試，基於包含1000種產品的家居電商目錄構建。通過在每個產品圖像中注入獨特的偶然線索，測試智能體在長時間購物會話中回憶特定產品的能力。研究者提出雙編碼記憶架構DualMem，在Gemini 2.5 Flash和Qwen2.5-VL-7B上均優於現有系統。

DMV-Bench是首個交互式視覺記憶基準，使用1000種產品圖像中的偶然線索測試多模態智能體
DualMem架構並行維護視覺和語言編碼，在長鏈會話中表現優異

Supersede：診斷和訓練LLM智能體中的記憶更新差距

2026-06-29 12:00 UTC+8

大型語言模型（LLM）智能體在長期多會話交互中需要更新事實，但現有記憶系統存在顯著缺陷。研究發現，即使是最先進的模型（如gpt-5.4），在替換為有界自維護記憶後，準確率從92%下降到77%。這種差距並非由模型規模或記憶容量引起，而是隨對話長度增加而惡化。研究者發佈了Supersede，一個基於強化學習的開源訓練環境，通過獎勵當前事實和懲罰過時事實來訓練智能體。對Qwen2.5-3B模型進行GRPO微調，使真實對話中的更新準確率從9.0%提升至16.7%。

LLM智能體在長時間交互中難以更新記憶中的事實，導致準確率顯著下降。
記憶更新差距並非由模型規模或記憶容量引起，而是隨對話長度增加而惡化。

Liquid AI 發佈 LFM2.5-230M：支持 on-device 推理，兼容 llama.cpp、MLX 等多種框架

2026-06-28 12:58 UTC+8

Liquid AI 發佈其最小模型 LFM2.5-230M，僅 2.3 億參數，開放權重，專為邊緣設備上的工具使用和數據提取設計。在 Galaxy S25 Ultra 上可達 213 tok/s，在樹莓派 5 上為 42 tok/s。該模型在指令遵循和數據提取上超越 Qwen3.5-0.8B 和 Gemma 3 1B。提供基礎版和指令調優版，支持 32K 上下文，兼容多項推理框架。

LFM2.5-230M 是 Liquid AI 最小的模型，2.3 億參數，開放權重，基於 LFM2 架構。
在 Galaxy S25 Ultra 上運行速度達 213 tok/s，樹莓派 5 上為 42 tok/s。

使用本地編碼代理：開源模型與本地工具的實用指南

2026-06-27 19:21 UTC+8

本文詳細介紹瞭如何搭建一個完全本地的編碼代理環境，使用開源工具和開放權重的大語言模型（如Qwen3.6）替代付費服務（如Claude Code和Codex）。涵蓋了本地模型的優勢、設置步驟、性能評估以及多種代理框架（Qwen-Code、Codex、Claude Code等）的選擇。

本地編碼代理使用開放權重模型，無需訂閲費用，保護隱私，適合離線環境。
推薦使用Qwen3.6 35B-A3B模型與Qwen-Code框架，性能在同尺寸模型中表現優異。

越大越強：約束引導推理是大模型的關鍵優勢

2026-06-26 12:00 UTC+8

一項新研究揭示了大型語言模型在推理任務中優於小型模型的關鍵原因：約束引導推理。大型模型更擅長識別顯式和隱式約束，組織結構化推理，並排除不可行路徑。研究團隊開發的AdvCluster框架自動分析了模型間的推理差異，發現Qwen3-32B比Qwen3-8B平均高出6.43%，GPT-OSS-120B比GPT-OSS-20B高出7.38%。

大型模型在數學、物理、化學和編程推理基準上持續優於小型模型。
研究提出了“約束引導推理”作為核心優勢：大型模型能更好地識別和利用約束。

Know2Guess：一種污染感知的多區域基準，用於大語言模型的知識邊界評估

2026-06-26 12:00 UTC+8

arXiv:2606.26101 新論文提出Know2Guess基準，包含1200個跨域問題，用於區分LLM的知識回答與猜測。評估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型，發現Qwen2.5-3B-Instruct表現最佳，但仍有校準不足等問題。

Know2Guess基準包含1200個問題，覆蓋五個領域，並帶有污染風險元數據
評估顯示模型在回答和棄權之間過渡不完整

拒絕行為位於聊天模型角色個性的下游

2026-06-26 12:00 UTC+8

該論文發現，在聊天模型中，拒絕行為並非獨立機制，而是受角色個性（特別是順從個性）的門控。通過干預Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的激活方向，研究顯示順從個性方向可以抑制拒絕，而拒絕方向僅在後期層部分恢復拒絕。這表明拒絕在後期表達階段受個性門控，而非孤立方向。

順從個性方向可顯著抑制拒絕行為（Llama中拒絕率從97%降至2%）。
拒絕方向僅在後期層部分恢復拒絕，早期層無效。

Anthropic指控阿里巴巴發動最大規模AI蒸餾攻擊：2880萬次欺詐性交互

2026-06-26 08:49 UTC+8

Anthropic致信美國官員，指控阿里巴巴及其Qwen實驗室通過約25,000個欺詐賬户，在44天內對Claude模型進行了2880萬次交互，試圖竊取軟件工程和智能體推理等核心能力。此次攻擊規模遠超以往，引發國家安全擔憂，阿里巴巴股價下跌。

Anthropic指控阿里巴巴發動了AI歷史上最大規模的蒸餾攻擊，涉及2880萬次交互和25,000個欺詐賬户。
攻擊目標明確針對Claude最先進的軟件工程和智能體推理能力，持續44天。

DeepReinforce發佈Ornith-1.0：開源編程模型家族，自我學習強化學習框架

2026-06-26 01:11 UTC+8

DeepReinforce發佈了Ornith-1.0，一個基於Gemma 4和Qwen 3.5的開源編程模型系列，涵蓋9B至397B四種規模。其核心創新在於模型在強化學習過程中自主學習框架（scaffold），而非依賴固定的人造框架。旗艦版397B模型在SWE-Bench Verified上取得82.4分，所有權重均在MIT許可下開源。

Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四種模型，均基於Gemma 4和Qwen 3.5，採用MIT許可證。
模型在強化學習中自主學習編程框架，即同時優化框架和解決方案。

超越Fable：本地LLM能否取代雲端AI進行安全代碼審查？

2026-06-25 20:05 UTC+8

研究表明，在正確框架下，本地LLM（如Qwen3.6-35B-A3B）在安全代碼審查中可以產生與雲端前沿模型相當的結果，但需要結合雲端模型進行編排和報告整合，且源代碼永遠不離開本地機器。

本地LLM（Qwen3.6-35B-A3B）在不到90分鐘內發現了與雲端模型同等規模的漏洞集合，無需人工提示。
最佳實踐是“Source-local”管道：雲端設計審查步驟和整合報告，本地執行代碼掃描。

AI週報#883：Qwen進軍機器人領域

2026-06-25 19:01 UTC+8

阿里巴巴的Qwen模型家族推出機器人套件，旨在彌合感知與行動之間的鴻溝。三個新模型分別專注於導航、操作和世界建模，核心挑戰在於將物理動作轉化為可學習的token。

Qwen模型長期侷限於軟件環境，無法執行物理操作。
阿里巴巴發佈Qwen-Robot Suite，包含三個專用模型。

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

2026-06-25 12:00 UTC+8

Dustin是一種專為長上下文場景設計的稀疏驗證框架，通過結合草稿模型的預測信號與目標模型的歷史注意力，僅對關鍵token進行驗證，顯著加速推測解碼中的KV緩存加載瓶頸。在Qwen2.5-72B上，32k序列長度下自注意力加速27.85倍，端到端解碼加速9.17倍，精度損失可忽略。

推測解碼在長上下文LLM中受限於KV緩存加載導致的驗證瓶頸
現有壓縮方法（靜態驅逐或動態選擇）無法兼顧效率與準確性

[AINews] 元工具之夏來臨

2026-06-25 10:14 UTC+8

本文回顧了AI領域的最新動態，包括元工具（Meta-Harness）架構的興起、OpenAI自研芯片Jalapeño、Agent用户體驗從工具向協作者轉變、Qwen-AgentWorld開放世界模型、中國開源模型GLM-5.2的進展，以及政策與人才競爭。重點討論了各領域的技術突破、行業影響及未來趨勢。

元工具架構成為新焦點，Omnigent等開源方案推動標準化與可擴展性。
OpenAI發佈自研推理芯片Jalapeño，加速全棧AI基礎設施競爭。

Qwen-AgentWorld 模型

2026-06-24 21:57 UTC+8

介紹 Qwen-AgentWorld 模型。

Qwen-AgentWorld 模型簡介

DFlash推測解碼：並行生成整個Token塊，在NVIDIA Blackwell上吞吐量提升高達15倍

2026-06-24 15:21 UTC+8

加州大學聖地亞哥分校的研究團隊提出DFlash，用輕量級塊擴散模型替代自迴歸式草稿生成，用於推測解碼。它通過單次前向傳播生成整個Token塊，並通過KV注入將目標隱藏特徵注入草稿模型。論文報告在Qwen3-8B上實現高達6.08倍的無損加速，NVIDIA則在固定交互性條件下報告了Blackwell上15倍的吞吐量提升。DFlash提供了20個檢查點，支持SGLang、vLLM和TensorRT-LLM。

DFlash通過一次前向傳播生成整個Token塊，而非逐Token生成。
它將目標隱藏特徵注入每個草稿層的KV緩存，使接受長度隨深度擴展。

離線推理訓練的權重空間幾何

2026-06-24 12:00 UTC+8

該論文研究了六種離線強化學習損失函數（SFT、RFT、DFT、RIFT、Offline GRPO、DPO）在推理蒸餾中的權重更新幾何特性。實驗基於Qwen3-4B模型和相同數學數據，發現SFT、RFT和RIFT的權重增量近乎共線，DFT偏離較大，Offline GRPO增加了正交分量，而DPO位於近乎正交的子空間且準確率最高，但存在模式連接障礙。

SFT、RFT和RIFT的權重餘弦相似度≥0.97，GSM8K準確率約87-88%。
DFT的更新方向比任何獎勵加權方法都更發散。

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

2026-06-22 08:00 UTC+8

OpenClaw維護者利用本地開源模型（Gemma、Qwen）在智能體框架中，實時對問題和拉取請求進行分類，性能媲美閉源模型，僅需硬件電費成本。

本地模型（如Gemma和Qwen）能有效對GitHub問題和PR進行分類，用於問題分派。
系統使用帶有隻讀shell（reposhell）的智能體框架，安全地檢查代碼。

VibeThinker-3B：基於Qwen2.5-Coder-3B與頻譜到信號後訓練流水線的3B密集推理模型

2026-06-20 06:06 UTC+8

VibeThinker-3B是一個僅30億參數的開源推理模型，在可驗證基準測試中匹配DeepSeek V3.2和Kimi K2.5等千億級模型。它採用頻譜到信號後訓練流水線，通過監督微調、強化學習和自蒸餾實現高效推理，並引入測試時縮放方法CLR進一步提升性能。

VibeThinker-3B僅有3B參數，MIT許可證開源，基於Qwen2.5-Coder-3B構建，專攻可驗證推理。
在AIME26上得分94.3，與671B的DeepSeek V3.2和1T的Kimi K2.5相當。

大語言模型不知其所不知：通過跨模型歸因分歧檢測臨牀表格數據中的認知盲點

2026-06-19 12:00 UTC+8

本研究比較了Qwen 2.5 7B和XGBoost在臨牀預測任務中的表現，通過歸因分歧分析揭示了四個重要發現：LLM的口頭置信度在認識論上是空洞的，存在逆向難度效應，少樣本示例和SHAP特徵證據的結合可顯著提升準確率，且跨模型校準器能有效降低校準誤差。

LLM的口頭置信度幾乎恆定（0.856-0.937），與準確率無關，僅隨提示格式變化。
存在逆向難度效應：當XGBoost高度確定時，LLM準確率下降，但在中等不確定性時兩者表現相當。

投機解碼：一切皆是推測

2026-06-19 08:00 UTC+8

Modal團隊全面推崇投機解碼技術，認為它是當前最關鍵的高交互推理優化手段，能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器，額外提升5-20%的速度，並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統優化的對比，以及通過模擬和數學模型展示的加速效果。

投機解碼是目前唯一重要的推理引擎優化，能實現數倍加速而非微小百分比提升。
Modal與Z Lab合作發佈了多款Qwen模型的DFlash投機解碼器，額外提速5-20%。

我們有了自家的“玻璃翼”：誰還需要Mythos 5或Fable 5？

2026-06-18 21:49 UTC+8

作者受Anthropic的Glasswing啓發，在本地硬件上構建了自主安全研究員Lucent。Lucent是一個分階段源代碼漏洞獵人，在單張RTX 3090上運行本地27B Qwen模型，通過Lucebox解碼速度提升約3.4倍。首次針對hermes-agent的測試中，靜態分析產生1342個候選，本地篩選至126個，前沿模型對抗審計將15個線索最終縮減至2個真實漏洞。本地讀取成本約1.62美元。最精彩的時刻是審查者代理發現作者之前針對供應商已悄悄重寫的威脅模型評分了三個早期漏洞。

Lucent：一個分階段流水線，包括排名、搜索、驗證、利用四個階段，在本地GPU上運行。
使用Lucebox的投機解碼，27B模型在代碼類文本上達到約130 token/s，是普通解碼的3.4倍。

JetFlow：使用並行樹草稿打破推測解碼的擴展上限

2026-06-18 12:00 UTC+8

JetFlow提出了一種基於頭部的推測解碼框架，通過因果並行草稿頭，在保持前向傳遞效率的同時實現分支級因果條件化，從而將更大的草稿預算轉化為更長的接受前綴和更高的端到端加速。在Qwen3模型上的測試顯示，JetFlow在MATH-500上實現了高達9.64倍的加速，在開放對話任務上實現了4.58倍加速。

JetFlow結合了單向傳播的高效性和分支級因果條件化，解決了先前方法中因果性與效率之間的兩難問題。
通過訓練因果並行草稿頭，JetFlow生成的候選樹與目標模型的自迴歸分解對齊，有效利用草稿預算。

歸因引導與覆蓋最大化的結構化MoE剪枝方法

2026-06-18 12:00 UTC+8

本文提出一種面向混合專家模型的結構化剪枝框架，通過將剪枝比率分配轉化為通道分數覆蓋最大化問題，並利用基於歸因的近似方法高效求解。實驗表明，在50%或25%結構化剪枝結合4位量化條件下，該方法在DeepSeek和Qwen MoE模型上保持了模型精度，並在Qwen3-30B-A3B上實現5.27倍內存壓縮，超越現有基準。

發現MoE專家內部信息集中在少數通道，存在顯著冗餘
提出通道級結構化剪枝框架，將剪枝比率分配建模為覆蓋最大化問題

本地Qwen並非更差的Opus，而是一種不同的工具

2026-06-18 11:04 UTC+8

本文作者作為一名小型軟件企業的創始人，分享了使用本地模型的真實經驗。他指出，雖然本地模型如Qwen在基準測試上落後於前沿模型，但在隱私、固定成本和供應商風險規避方面具有獨特價值。同時，作者也坦誠地討論了本地模型的侷限性，如無限循環和幻覺問題，並告誡不要將其用於無監督的長期任務。

本地模型與前沿模型是不同工具，適用於不同場景。
作者通過實際業務案例證明了本地模型的經濟性和隱私優勢。

VL-MemKnG：結合時空知識圖譜與混合記憶的長自導導航軌跡問答

2026-06-17 12:00 UTC+8

本文提出VL-MemKnG，一種混合記憶框架，將時空知識圖譜與片段級上下文記憶相結合，用於解決長自導視頻中的導航問答任務。該框架通過結構化關係記憶和廣泛時間背景的融合，顯著提升了長距離證據檢索的準確性。在WalkieKnowledgeT+基準上，VL-MemKnG的Top-1檢索準確率從58%提升至67%，Recall@1從34.50%提升至40.55%，超越了包括Gemini 2.5 Pro和Qwen 3.5+在內的所有對比方法。

提出VL-MemKnG混合記憶框架，結合時空知識圖譜和片段級上下文記憶進行長自導導航視頻問答。
引入WalkieKnowledgeT+基準，包含時間分佈推理任務，需跨多個非共現時刻聚合證據。

Qwen

相關主題

Qwen動態

Director：通過在線主動專家放置加速分佈式MoE服務

面向低比特整數的有符號對稱量化

修復三個Bug，讓Qwen3.5-122B在Mac Studio上成為日常驅動

評估基於SageMath增強的LLM智能體在計算與實驗數學中的應用

AI模型“過度思考”問題——這是一種安全風險

本地模型用於編碼的可行性

NAVER LABS系統復現：面向IWSLT 2026指令跟隨任務

Liquid AI 開源 Antidoom：一種通過最終令牌偏好優化（FTPO）減少推理模型死循環的方法

用於數據高效代碼切換語音識別的強化學習

語言模型中風險規避的分佈外泛化

Oyster-II：基於強化學習的語言模型建設性安全對齊框架

LensVLM：選擇性上下文擴展實現文本的壓縮視覺表示

中國AI伴侶新規：北京真正要管的是什麼

字節跳動Doubao、阿里Qwen將於7月15日關閉個性化AI智能體

現代視覺語言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

每月6美元，無限制的LLM API：無需追蹤Token，無需限制

前Qwen負責人談混合思維的失誤——以及他為何現在支持智能體

臨牀智能體的世界反饋：在FHIR環境中診斷強化學習

無基底的個性：體制依賴與LLM個體化問題

橋接科學遺產：面向可持續知識轉移的阿拉伯語-俄語平行語料庫與LLM基準

AI模型可訪問性檢查器

構建本地AI系統：Qwen3.6與MCP

Ornith-1.0：自我改進的開源代碼智能編碼模型

Ornith-1.0：用於自主編程的自支架LLM

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：基於Qwen3.5的百萬上下文推理模型

DMV-Bench：通過偶然線索注入診斷長週期多模態智能體的視覺記憶

Supersede：診斷和訓練LLM智能體中的記憶更新差距

Liquid AI 發佈 LFM2.5-230M：支持 on-device 推理，兼容 llama.cpp、MLX 等多種框架

使用本地編碼代理：開源模型與本地工具的實用指南

越大越強：約束引導推理是大模型的關鍵優勢

Know2Guess：一種污染感知的多區域基準，用於大語言模型的知識邊界評估

拒絕行為位於聊天模型角色個性的下游

Anthropic指控阿里巴巴發動最大規模AI蒸餾攻擊：2880萬次欺詐性交互

DeepReinforce發佈Ornith-1.0：開源編程模型家族，自我學習強化學習框架

超越Fable：本地LLM能否取代雲端AI進行安全代碼審查？

AI週報#883：Qwen進軍機器人領域

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

[AINews] 元工具之夏來臨

Qwen-AgentWorld 模型

DFlash推測解碼：並行生成整個Token塊，在NVIDIA Blackwell上吞吐量提升高達15倍

離線推理訓練的權重空間幾何

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

VibeThinker-3B：基於Qwen2.5-Coder-3B與頻譜到信號後訓練流水線的3B密集推理模型

大語言模型不知其所不知：通過跨模型歸因分歧檢測臨牀表格數據中的認知盲點

投機解碼：一切皆是推測

我們有了自家的“玻璃翼”：誰還需要Mythos 5或Fable 5？

JetFlow：使用並行樹草稿打破推測解碼的擴展上限

歸因引導與覆蓋最大化的結構化MoE剪枝方法

本地Qwen並非更差的Opus，而是一種不同的工具

VL-MemKnG：結合時空知識圖譜與混合記憶的長自導導航軌跡問答

更多增長標籤

AI 編程

MCP

開源模型

推理成本

Agent 框架

中國 AI

GPU 基礎設施

模型定價

DeepSeek