Qwen AI News

Qwen動態

PrismML釋出Bonsai 27B：Qwen3.6-27B的1位和三進製版本，可在筆記型電腦和手機上執行

2026-07-15 06:51 UTC+8

PrismML釋出了Bonsai 27B，這是Qwen3.6-27B的低位表示，並非全新預訓練模型。提供三進位制和二進位制兩種變體，採用Apache 2.0許可證。三進製版本每位僅1.71位元，理想大小為5.9GB；二進位制版本每位1.125位元，大小為3.9GB。效能方面，三進位制保留FP16基線的94.6%，二進位制保留89.5%。該模型支援多模態，上下文長度262K令牌。PrismML聲稱二進位制版本是首個適合手機的27B級模型。

Bonsai 27B是Qwen3.6-27B的低位版本，非全新預訓練模型。
提供三進位制（1.71位元/權重）和二進位制（1.125位元/權重）兩種變體。

非英語語言推理的成本：以日語為例

2026-07-14 12:00 UTC+8

本研究探討了訓練日語推理語言模型的可行性。透過使用GRPO對基於Qwen-3-Swallow-8B的日語持續預訓練模型進行訓練，研究者發現推理語言控制是可行的，但效能最多與英語推理基線持平。在日語文化基準測試中，模型表現甚至更差，表明日語推理並不能立即提升文化相關任務的表現。

研究了訓練日語推理語言模型的可行性。
使用GRPO訓練了Qwen-3-Swallow-8B的日語推理變體。

閉環控制：規則對齊的小語言模型與多智慧體自我修正

2026-07-14 12:00 UTC+8

本文研究了一種基於小型語言模型（SLM）的閉環控制框架，透過GRPO對齊的Qwen2.5-1.5B模型，結合動作智慧體、數字孿生驗證層和重提示智慧體，實現了從自然語言需求規範生成控制策略。在隨機熱控制模擬中，該框架達到91.5%的動作對齊準確率，平均推理延遲3.84秒，展示了在邊緣裝置上實現可重構自主控制的可行性。

使用1.5B引數的小型語言模型（Qwen2.5-1.5B）透過GRPO進行對齊，用於控制推理
多智慧體架構包括動作生成器、符號/數字孿生驗證器和迭代修正的重提示智慧體

Director：透過線上主動專家放置加速分散式MoE服務

2026-07-13 12:00 UTC+8

本文介紹了Director，一種新的分散式MoE推理系統，透過預測驅動的線上專家放置最佳化，顯著降低端到端延遲。系統採用輕量級級聯預測器或低位元量化副本預測專家啟用模式，結合近乎零停機的線上遷移模組，以及基於鬆弛最佳化的專家放置演算法，在多項式時間內達到(1+ε)近似比。實驗表明，在Mistral、DeepSeek和Qwen等流行MoE模型上，相比現有工作延遲降低11%~55%。

提出預測驅動的線上專家放置方法
設計近乎零停機的專家遷移模組

面向低位元整數的有符號對稱量化

2026-07-13 12:00 UTC+8

本文提出有符號對稱量化方法，解決標準對稱量化器因整數範圍不平衡導致的正異常值截斷問題，同時避免非對稱量化的執行時開銷。理論分析表明該方法在ℓ2誤差上條件最優，且88-99%的LLM權重組滿足條件。實驗在Qwen3、Llama3等模型上驗證了困惑度和少樣本準確率的提升。

標準對稱量化器因有符號整數多一個負值導致正異常值被截斷，在低位元時誤差顯著。
有符號對稱量化透過符號選擇規則將額外值分配給主要異常值尾端，保持零點為0，保留對稱量化的高效計算。

修復三個Bug，讓Qwen3.5-122B在Mac Studio上成為日常驅動

2026-07-12 06:54 UTC+8

作者在Mac Studio上執行Qwen3.5-122B模型時，遇到了三個導致快取失效的bug，修復後對話預填充時間從幾分鐘降至亞秒級，大幅提升了長上下文場景下的使用體驗。文章還討論了模型選擇、混合注意力機制以及效能指標的正確衡量方式。

Qwen3.5-122B模型在Mac Studio上因混合注意力架構導致字首快取頻繁失效。
三個Bug分別涉及系統提示中的時間戳、中斷時未儲存回覆以及檢查點儲存中的垃圾寫入。

評估基於SageMath增強的LLM智慧體在計算與實驗數學中的應用

2026-07-09 12:00 UTC+8

本研究提出一種ReAct風格的智慧體架構，將LLM推理與SageMath可驗證反饋及Context7最新文件結合，在RealMath基準上評估前沿模型解決研究級數學問題的能力。實驗表明，SageMath訪問平均提升9.7個百分點，縮小了開源與閉源模型的差距。Qwen 3.7-Max受益最大，GPT-5.5達到75.2%的最高解決率。該工作已被ICML 2026第三屆AI for Math研討會接收。

提出結合LLM推理與SageMath反饋的ReAct智慧體框架
在RealMath基準上評估，平均效能提升9.7個百分點

AI模型“過度思考”問題——這是一種安全風險

2026-07-08 19:00 UTC+8

研究表明，具備推理能力的大語言模型容易因邏輯不一致的提示而陷入“過度思考”，導致輸出長度激增，可能被利用發動拒絕服務攻擊。浙江大學與阿里巴巴的研究人員開發了一種進化演算法，能夠生成惡意提示，使模型輸出長度最高增加26倍，影響包括DeepSeek-R1、Qwen3-Thinking、GPT-o3和Gemini 2.5 Flash在內的主流推理模型。

研究人員展示了一種利用AI推理模型“過度思考”漏洞的新型攻擊，導致計算量急劇增加。
透過進化演算法破壞提示的邏輯結構，可使模型輸出長度最高達到正常情況的26倍。

本地模型用於編碼的可行性

2026-07-08 17:24 UTC+8

Thoughtworks 傑出工程師 Birgitta Böckeler 在 Apple Silicon 機器上重新評估了本地 AI 模型在編碼任務中的可行性。她系統分析了 RAM、處理能力、模型架構、工具呼叫能力等多種因素，並分享了 Qwen3、Gemma 4 等模型的實際體驗。

RAM 是本地模型執行的核心限制，48GB 機器上 15-25GB 模型表現最佳。
推理能力（chain of thought）有時會適得其反，關閉後效能不降反升。

NAVER LABS系統復現：面向IWSLT 2026指令跟隨任務

2026-07-08 12:00 UTC+8

NAVER LABS團隊復現了其IWSLT 2025指令跟隨流水線，並針對IWSLT 2026共享任務（受限條件、短音訊軌道）進行調整，採用SeamlessM4T-v2-large作為語音編碼器、Qwen3-4B-Instruct作為LLM主幹。保留了三階段方法：投影器對齊、純文本LoRA預訓練和多模態融合。此外，團隊從提供的語料庫構建了10萬個涵蓋十種語音中心任務型別的合成指令跟隨示例。主要模型在EN-ZH語音翻譯上達到COMET 0.781，在MCIF基準的英語SQA上達到BERTScore-F1 0.346。

復現NAVER LABS IWSLT 2025流水線，適應IWSLT 2026任務
使用SeamlessM4T-v2-large和Qwen3-4B-Instruct作為核心元件

Liquid AI 開源 Antidoom：一種透過最終令牌偏好最佳化（FTPO）減少推理模型死迴圈的方法

2026-07-08 00:50 UTC+8

Liquid AI 釋出了 Antidoom，一種針對推理模型中死迴圈的開源方法。透過 FTPO，它僅重新訓練導致迴圈開始的令牌，將 LFM2.5-2.6B 上的迴圈率從 10.2% 降至 1.4%，Qwen3.5-4B 從 22.9% 降至 1%。

Antidoom 透過僅重新訓練迴圈開始令牌來減少死迴圈。
FTPO 將機率分佈在多個連貫的替代方案上。

用於資料高效程式碼切換語音識別的強化學習

2026-07-07 12:00 UTC+8

研究人員提出了一種基於可驗證獎勵的強化學習（RLVR）方法，用於將音訊語言模型適應程式碼切換語音識別。僅使用10%的資料，RLVR在Qwen2-Audio上跨越10個語言對達到了全資料集監督微調的效能，且增益零樣本遷移到人類錄音的程式碼切換語料庫。

新的RLVR方法結合了錯誤率獎勵和指令碼保真度獎勵，用於程式碼切換ASR。
僅用10%資料即可達到全資料集LoRA SFT的效能。

語言模型中風險規避的分佈外泛化

2026-07-07 12:00 UTC+8

該研究探討了訓練人工智慧在低風險場景下表現出的風險規避行為是否能夠泛化到極高風險場景，作為應對AI對齊失敗的一種安全措施。作者引入了RiskAverseOOD基準測試，並初步實驗表明，透過多種方法（如SFT、DPO、啟用引導）訓練的Qwen3-8B模型，在高風險下選擇安全“合作”選項的比例從基線2%提升至70%（SFT和tie訓練）、52%（DPO）和39%（啟用引導）。風險規避行為跨越98個數量級部分泛化，但一致性仍不足以作為可靠的安全機制。

引入RiskAverseOOD基準，用於衡量風險規避的分佈外泛化能力。
使用SFT、DPO和啟用引導等方法訓練語言模型在低風險下規避風險。

Oyster-II：基於強化學習的語言模型建設性安全對齊框架

2026-07-07 12:00 UTC+8

大型語言模型（LLM）在安全性和有用性之間面臨挑戰。傳統的拒絕式對齊策略會拒絕敏感查詢，但可能無法滿足使用者合理需求。Oyster-II提出基於強化學習（RL）的建設性安全對齊框架，採用Zero-RL正規化和多階段RL策略，解決了Oyster-I中監督微調（SFT）方案的安全泛化不足和安全思維鏈過度泛化問題。在多個基準測試中，Oyster-II在安全維度上全面超越Qwen3-14B和Oyster-I，效能堪比Qwen3-Max和Qwen3.5-397B。

Oyster-II是Oyster-I的改進版，採用強化學習而非監督微調進行安全對齊。
提出了Zero-RL正規化與多階段強化學習相結合的策略。

LensVLM：選擇性上下文擴充套件實現文本的壓縮視覺表示

2026-07-07 08:00 UTC+8

LensVLM 是一種推理框架和後訓練方案，使視覺語言模型（VLM）能夠掃描壓縮影像，並透過學習工具僅選擇性擴充套件相關影像到未壓縮形式。在 Qwen3.5-9B-Base 基礎上，LensVLM 在 4.3 倍有效壓縮下保持了與全文本上限相當的準確率，在 7 個文本 QA 基準測試中最高達 10.1 倍有效壓縮時優於檢索基線和文本/視覺壓縮基線。該方法還泛化到多模態文件和程式碼理解任務，且壓縮越大，準確率提升越明顯。

VLM 透過渲染影像處理文本，但壓縮導致字元無法區分。
LensVLM 實現掃描壓縮影像後選擇性擴充套件相關內容。

中國AI伴侶新規：北京真正要管的是什麼

2026-07-06 19:00 UTC+8

中國即將實施針對AI伴侶服務的監管措施，要求配備防沉迷系統、強制使用通知和即時退出機制，並禁止向未成年人提供虛擬伴侶服務。字節跳動的豆包和阿里巴巴的通義千問等主流應用已關閉相關功能以規避合規風險。

中國《人工智慧合成人互動服務管理辦法》於2026年7月15日生效，重點監管具有情感互動功能的AI伴侶。
字節跳動和阿里巴巴因設計衝突已關閉旗下AI應用的伴侶功能，使用者資料面臨丟失風險。

字節跳動Doubao、阿里Qwen將於7月15日關閉個性化AI智慧體

2026-07-06 14:23 UTC+8

字節跳動的Doubao和阿里巴巴的Qwen大型語言模型宣佈將於7月15日關閉個性化AI智慧體，以遵守政府監管。分析師認為此舉旨在增強安全性和合規性，防止第三方濫用，同時削減商業可行性低的業務。同日，中國《人工智慧生成式合成內容標識辦法》等新規生效，要求平臺建立防沉迷系統、驗證未成年人身份並加強內容稽核。儘管智慧體被移除，但AI智慧體市場仍預計爆發式增長。

Doubao和Qwen將於7月15日關閉AI智慧體功能，使用者可在10月15日前匯出資料。
關閉旨在提升安全合規性，避免第三方濫用，並最佳化商業效率。

現代視覺語言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

2026-07-06 13:14 UTC+8

現代視覺語言模型（VLM）能夠同時理解影像和語言，超越了CLIP和BLIP等早期模型。本文詳細介紹了GPT-4o、Gemini、Claude Vision和Qwen-VL的工作方式、關鍵差異、優勢與侷限性，並展示了它們在教育、醫療、自動化等領域的實際應用。

現代VLM可分析影像、文件、圖表並回答視覺問題，支援多模態對話。
GPT-4o在即時多模態互動方面表現突出，支援文本、影像、音訊和影片。

每月6美元，無限制的LLM API：無需追蹤Token，無需限制

2026-07-06 09:22 UTC+8

Yolo-Auto推出每月6美元的固定費率API服務，提供無限制的Qwen3.6-35B-A3B模型訪問。該服務相容OpenAI的API格式，不儲存提示或響應資料，適用於編碼代理、自動化工作流等場景，消除了按Token計費帶來的成本和焦慮。

每月6美元即可無限制使用Qwen3.6-35B-A3B模型，無Token計數或請求限制。
完全相容OpenAI API格式，支援Cursor、LangChain等工具。

前Qwen負責人談混合思維的失誤——以及他為何現在支援智慧體

2026-07-05 10:31 UTC+8

前阿里巴巴Qwen技術負責人林俊陽在演講和博文中批判了Qwen3的混合思維模式，並主張轉向智慧體思維。他解釋了融合思考與非思考模式的困難，以及為何智慧體強化學習需要解耦的基礎設施和高質量環境以避免獎勵篡改。

林俊陽於2026年3月3日卸任Qwen負責人，現以獨立研究員身份發表見解。
Qwen3的混合思維模式實施困難，後續變體重新分離了指導與思考模式。

臨床智慧體的世界反饋：在FHIR環境中診斷強化學習

2026-07-03 12:00 UTC+8

該研究審計了MedAgentBench v1/v2，發現41.7%的靜默完成上限，並構建了MAB-v3（508個任務，8.9%上限）。使用Qwen3-8B訓練揭示了兩個結構性障礙：能力上限和格式知識障礙。純強化學習達到18.2%的pass@1，而基於規則的SFT為34.1%，差距完全歸因於這些障礙。研究提出了決策/格式知識/查詢分類法來預測強化學習的可學習性。

MedAgentBench v1/v2存在41.7%的靜默完成上限，導致不行動成為強化學習的主導策略
新構建的MAB-v3基準將上限降至8.9%，包含508個任務

無基底的個性：體制依賴與LLM個體化問題

2026-07-02 12:00 UTC+8

本文對Beckmann & Butlin (2026)關於LLM個體化的本體論框架提出質疑，認為其繼承了未論證的跨體制共指假設。透過Qwen3-4B-Instruct和Mistral-7B-Instruct-v0.2上的個性拓撲實驗，作者展示了四個經驗性楔子，共同削弱該假設，並提出體制索引個體化：表徵內容的身份單位是（載體，體制）對，而非僅載體。

Beckmann & Butlin的框架假設跨體制下相同方向指向相同內容，該假設未經驗證。
實驗揭示提示提取向量與微調盆地不共線，虛構個性比真實錨點更強地沿真實錨點方向位移模型等。

橋接科學遺產：面向可持續知識轉移的阿拉伯語-俄語平行語料庫與LLM基準

2026-07-01 12:00 UTC+8

本研究構建了一個約27,000句對的阿拉伯語-俄語混合平行語料庫，涵蓋科學摘要和通用領域文本。透過微調三個多語言模型（mT5-base、NLLB-200、Qwen2.5-7B），發現Qwen2.5-7B模型在QLoRA（秩8）下表現最佳，BLEU達23.15，較零樣本基線提升4.36。少樣本提示未改善效能，表明需領域特定微調。該工作降低了科學文本的語言障礙，促進阿拉伯語和俄語研究者之間的知識交流，助力可持續發展目標（SDG 9和17）。

構建包含約27,000句對的阿拉伯語-俄語平行語料庫，來源包括科學摘要和通用文本。
微調三個多語言模型，Qwen2.5-7B搭配QLoRA（秩8）取得最佳翻譯效能。

AI模型可訪問性檢查器

2026-06-30 22:21 UTC+8

AIMAC專案由GAAD基金會與ServiceNow合作推出，評估了37個頂尖AI模型生成的網頁在可訪問性方面的表現。結果顯示，OpenAI的GPT 5.4 Mini和GPT 5.3 Codex在可訪問性債務上達到0.00，排名前兩位。阿里巴巴的Qwen和Z.ai的GLM 4.7 Flash也表現突出。低對比度文本是AI生成頁面中最常見的可訪問性問題，佔84.2%。

AIMAC專案評估了37個AI模型在28個類別中生成網頁的可訪問性
OpenAI的GPT 5.4 Mini和GPT 5.3 Codex以0.00的可訪問性債務並列第一

構建本地AI系統：Qwen3.6與MCP

2026-06-30 22:00 UTC+8

本文介紹如何利用Qwen3.6-35B-A3B模型和模型上下文協議（MCP）構建本地AI系統，包括模型架構、硬體需求、服務部署以及一個實際的GitHub開發者助手示例。

MCP是一種開源協議，允許AI模型透過標準介面呼叫外部工具，無需為每個模型編寫整合程式碼。
Qwen3.6-35B-A3B採用混合專家架構，啟用引數僅3B，適合本地部署。

Ornith-1.0：自我改進的開原始碼智慧編碼模型

2026-06-30 01:16 UTC+8

Ornith-1.0 是一個開源編碼智慧體模型系列，基於 Gemma 4 和 Qwen 3.5 後訓練，採用強化學習同時最佳化搜尋腳手架和解決方案，在 Terminal-Bench、SWE-Bench、NL2Repo 和 OpenClaw 等基準測試中達到同類開源模型的最優效能。提供 9B（密集）、35B（MoE）和 397B（MoE）三種規模，MIT 許可證，支援 OpenAI 相容 API 和工具呼叫，可部署於 vLLM、SGLang、llama.cpp 等推理引擎。

Ornith-1.0 包含 9B、35B MoE 和 397B MoE 三個版本，在多項編碼基準上取得開源模型最佳結果。
採用自我改進的強化學習框架，聯合訓練搜尋腳手架與解決方案，提升搜尋軌跡質量。

Ornith-1.0：用於自主程式設計的自支架LLM

2026-06-30 00:17 UTC+8

DeepReinforce釋出了首個開放權重模型Ornith-1.0，基於Gemma 4和Qwen 3.5，提供多種引數規模（9B到397B），在程式設計基準測試中達到開源模型最佳效能。作者使用LM Studio測試了35B MoE變體，發現其能熟練處理多個工具呼叫，並在代理程式設計任務中表現出色。該模型採用MIT許可，底層模型均為Apache 2.0許可，相容性良好。

Ornith-1.0是DeepReinforce首個開源模型，採用MIT許可
基於Gemma 4和Qwen 3.5，有9B Dense、31B Dense、35B MoE和397B MoE四種變體

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：基於Qwen3.5的百萬上下文推理模型

2026-06-29 13:53 UTC+8

Qwythos-9B是由Empero AI基於深度未審查的Qwen3.5-9B底座進行全引數微調的推理模型，經過超過5億個token的高質量Claude Mythos和Fable軌跡訓練，並採用內部工具rethink生成思維鏈。該模型擁有1048576 token的上下文視窗，在MMLU、GSM8K等基準測試中大幅超越基礎模型，支援原生函式呼叫，並具備工具輔助的自糾錯能力。模型設計上故意未加審查，適用於網路安全、紅隊方法、生物醫學等要求嚴格技術回答的領域。

基於Qwen3.5-9B的全引數微調模型，使用5億+token高質量資料進行後訓練。
支援1,048,576 token的上下文視窗，適合全程式碼庫推理和多文件研究。

DMV-Bench：透過偶然線索注入診斷長週期多模態智慧體的視覺記憶

2026-06-29 12:00 UTC+8

DMV-Bench是首個針對多模態智慧體視覺記憶的互動式基準測試，基於包含1000種產品的家居電商目錄構建。透過在每個產品影像中注入獨特的偶然線索，測試智慧體在長時間購物會話中回憶特定產品的能力。研究者提出雙編碼記憶架構DualMem，在Gemini 2.5 Flash和Qwen2.5-VL-7B上均優於現有系統。

DMV-Bench是首個互動式視覺記憶基準，使用1000種產品影像中的偶然線索測試多模態智慧體
DualMem架構並行維護視覺和語言編碼，在長鏈會話中表現優異

Supersede：診斷和訓練LLM智慧體中的記憶更新差距

2026-06-29 12:00 UTC+8

大型語言模型（LLM）智慧體在長期多會話互動中需要更新事實，但現有記憶系統存在顯著缺陷。研究發現，即使是最先進的模型（如gpt-5.4），在替換為有界自維護記憶後，準確率從92%下降到77%。這種差距並非由模型規模或記憶容量引起，而是隨對話長度增加而惡化。研究者釋出了Supersede，一個基於強化學習的開源訓練環境，透過獎勵當前事實和懲罰過時事實來訓練智慧體。對Qwen2.5-3B模型進行GRPO微調，使真實對話中的更新準確率從9.0%提升至16.7%。

LLM智慧體在長時間互動中難以更新記憶中的事實，導致準確率顯著下降。
記憶更新差距並非由模型規模或記憶容量引起，而是隨對話長度增加而惡化。

Liquid AI 釋出 LFM2.5-230M：支援 on-device 推理，相容 llama.cpp、MLX 等多種框架

2026-06-28 12:58 UTC+8

Liquid AI 釋出其最小模型 LFM2.5-230M，僅 2.3 億引數，開放權重，專為邊緣裝置上的工具使用和資料提取設計。在 Galaxy S25 Ultra 上可達 213 tok/s，在樹莓派 5 上為 42 tok/s。該模型在指令遵循和資料提取上超越 Qwen3.5-0.8B 和 Gemma 3 1B。提供基礎版和指令調優版，支援 32K 上下文，相容多項推理框架。

LFM2.5-230M 是 Liquid AI 最小的模型，2.3 億引數，開放權重，基於 LFM2 架構。
在 Galaxy S25 Ultra 上執行速度達 213 tok/s，樹莓派 5 上為 42 tok/s。

使用本地編碼代理：開源模型與本地工具的實用指南

2026-06-27 19:21 UTC+8

本文詳細介紹瞭如何搭建一個完全本地的編碼代理環境，使用開源工具和開放權重的大語言模型（如Qwen3.6）替代付費服務（如Claude Code和Codex）。涵蓋了本地模型的優勢、設定步驟、效能評估以及多種代理框架（Qwen-Code、Codex、Claude Code等）的選擇。

本地編碼代理使用開放權重模型，無需訂閱費用，保護隱私，適合離線環境。
推薦使用Qwen3.6 35B-A3B模型與Qwen-Code框架，效能在同尺寸模型中表現優異。

越大越強：約束引導推理是大模型的關鍵優勢

2026-06-26 12:00 UTC+8

一項新研究揭示了大型語言模型在推理任務中優於小型模型的關鍵原因：約束引導推理。大型模型更擅長識別顯式和隱式約束，組織結構化推理，並排除不可行路徑。研究團隊開發的AdvCluster框架自動分析了模型間的推理差異，發現Qwen3-32B比Qwen3-8B平均高出6.43%，GPT-OSS-120B比GPT-OSS-20B高出7.38%。

大型模型在數學、物理、化學和程式設計推理基準上持續優於小型模型。
研究提出了“約束引導推理”作為核心優勢：大型模型能更好地識別和利用約束。

Know2Guess：一種汙染感知的多區域基準，用於大語言模型的知識邊界評估

2026-06-26 12:00 UTC+8

arXiv:2606.26101 新論文提出Know2Guess基準，包含1200個跨域問題，用於區分LLM的知識回答與猜測。評估了FLAN-T5、Qwen2.5-Instruct和Llama-3-Instruct模型，發現Qwen2.5-3B-Instruct表現最佳，但仍有校準不足等問題。

Know2Guess基準包含1200個問題，覆蓋五個領域，並帶有汙染風險後設資料
評估顯示模型在回答和棄權之間過渡不完整

拒絕行為位於聊天模型角色個性的下游

2026-06-26 12:00 UTC+8

該論文發現，在聊天模型中，拒絕行為並非獨立機制，而是受角色個性（特別是順從個性）的門控。透過干預Qwen2.5-7B-Instruct和Llama-3.1-8B-Instruct的啟用方向，研究顯示順從個性方向可以抑制拒絕，而拒絕方向僅在後期層部分恢復拒絕。這表明拒絕在後期表達階段受個性門控，而非孤立方向。

順從個性方向可顯著抑制拒絕行為（Llama中拒絕率從97%降至2%）。
拒絕方向僅在後期層部分恢復拒絕，早期層無效。

Anthropic指控阿里巴巴發動最大規模AI蒸餾攻擊：2880萬次欺詐性互動

2026-06-26 08:49 UTC+8

Anthropic致信美國官員，指控阿里巴巴及其Qwen實驗室透過約25,000個欺詐賬戶，在44天內對Claude模型進行了2880萬次互動，試圖竊取軟體工程和智慧體推理等核心能力。此次攻擊規模遠超以往，引發國家安全擔憂，阿里巴巴股價下跌。

Anthropic指控阿里巴巴發動了AI歷史上最大規模的蒸餾攻擊，涉及2880萬次互動和25,000個欺詐賬戶。
攻擊目標明確針對Claude最先進的軟體工程和智慧體推理能力，持續44天。

DeepReinforce釋出Ornith-1.0：開源程式設計模型家族，自我學習強化學習框架

2026-06-26 01:11 UTC+8

DeepReinforce釋出了Ornith-1.0，一個基於Gemma 4和Qwen 3.5的開源程式設計模型系列，涵蓋9B至397B四種規模。其核心創新在於模型在強化學習過程中自主學習框架（scaffold），而非依賴固定的人造框架。旗艦版397B模型在SWE-Bench Verified上取得82.4分，所有權重均在MIT許可下開源。

Ornith-1.0包括9B、31B、35B-MoE和397B-MoE四種模型，均基於Gemma 4和Qwen 3.5，採用MIT許可證。
模型在強化學習中自主學習程式設計框架，即同時最佳化框架和解決方案。

超越Fable：本地LLM能否取代雲端AI進行安全程式碼審查？

2026-06-25 20:05 UTC+8

研究表明，在正確框架下，本地LLM（如Qwen3.6-35B-A3B）在安全程式碼審查中可以產生與雲端前沿模型相當的結果，但需要結合雲端模型進行編排和報告整合，且原始碼永遠不離開本地機器。

本地LLM（Qwen3.6-35B-A3B）在不到90分鐘內發現了與雲端模型同等規模的漏洞集合，無需人工提示。
最佳實踐是“Source-local”管道：雲端設計審查步驟和整合報告，本地執行程式碼掃描。

AI週報#883：Qwen進軍機器人領域

2026-06-25 19:01 UTC+8

阿里巴巴的Qwen模型家族推出機器人套件，旨在彌合感知與行動之間的鴻溝。三個新模型分別專注於導航、操作和世界建模，核心挑戰在於將物理動作轉化為可學習的token。

Qwen模型長期侷限於軟體環境，無法執行物理操作。
阿里巴巴釋出Qwen-Robot Suite，包含三個專用模型。

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

2026-06-25 12:00 UTC+8

Dustin是一種專為長上下文場景設計的稀疏驗證框架，透過結合草稿模型的預測訊號與目標模型的歷史注意力，僅對關鍵token進行驗證，顯著加速推測解碼中的KV快取載入瓶頸。在Qwen2.5-72B上，32k序列長度下自注意力加速27.85倍，端到端解碼加速9.17倍，精度損失可忽略。

推測解碼在長上下文LLM中受限於KV快取載入導致的驗證瓶頸
現有壓縮方法（靜態驅逐或動態選擇）無法兼顧效率與準確性

[AINews] 元工具之夏來臨

2026-06-25 10:14 UTC+8

本文回顧了AI領域的最新動態，包括元工具（Meta-Harness）架構的興起、OpenAI自研晶片Jalapeño、Agent使用者體驗從工具向協作者轉變、Qwen-AgentWorld開放世界模型、中國開源模型GLM-5.2的進展，以及政策與人才競爭。重點討論了各領域的技術突破、行業影響及未來趨勢。

元工具架構成為新焦點，Omnigent等開源方案推動標準化與可擴充套件性。
OpenAI釋出自研推理晶片Jalapeño，加速全棧AI基礎設施競爭。

Qwen-AgentWorld 模型

2026-06-24 21:57 UTC+8

介紹 Qwen-AgentWorld 模型。

Qwen-AgentWorld 模型簡介

DFlash推測解碼：並行生成整個Token塊，在NVIDIA Blackwell上吞吐量提升高達15倍

2026-06-24 15:21 UTC+8

加州大學聖地亞哥分校的研究團隊提出DFlash，用輕量級塊擴散模型替代自迴歸式草稿生成，用於推測解碼。它透過單次前向傳播生成整個Token塊，並透過KV注入將目標隱藏特徵注入草稿模型。論文報告在Qwen3-8B上實現高達6.08倍的無損加速，NVIDIA則在固定互動性條件下報告了Blackwell上15倍的吞吐量提升。DFlash提供了20個檢查點，支援SGLang、vLLM和TensorRT-LLM。

DFlash透過一次前向傳播生成整個Token塊，而非逐Token生成。
它將目標隱藏特徵注入每個草稿層的KV快取，使接受長度隨深度擴充套件。

離線推理訓練的權重空間幾何

2026-06-24 12:00 UTC+8

該論文研究了六種離線強化學習損失函式（SFT、RFT、DFT、RIFT、Offline GRPO、DPO）在推理蒸餾中的權重更新幾何特性。實驗基於Qwen3-4B模型和相同數學資料，發現SFT、RFT和RIFT的權重增量近乎共線，DFT偏離較大，Offline GRPO增加了正交分量，而DPO位於近乎正交的子空間且準確率最高，但存在模式連線障礙。

SFT、RFT和RIFT的權重餘弦相似度≥0.97，GSM8K準確率約87-88%。
DFT的更新方向比任何獎勵加權方法都更發散。

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

2026-06-22 08:00 UTC+8

OpenClaw維護者利用本地開源模型（Gemma、Qwen）在智慧體框架中，即時對問題和拉取請求進行分類，效能媲美閉源模型，僅需硬體電費成本。

本地模型（如Gemma和Qwen）能有效對GitHub問題和PR進行分類，用於問題分派。
系統使用帶有隻讀shell（reposhell）的智慧體框架，安全地檢查程式碼。

VibeThinker-3B：基於Qwen2.5-Coder-3B與頻譜到訊號後訓練流水線的3B密集推理模型

2026-06-20 06:06 UTC+8

VibeThinker-3B是一個僅30億引數的開源推理模型，在可驗證基準測試中匹配DeepSeek V3.2和Kimi K2.5等千億級模型。它採用頻譜到訊號後訓練流水線，透過監督微調、強化學習和自蒸餾實現高效推理，並引入測試時縮放方法CLR進一步提升效能。

VibeThinker-3B僅有3B引數，MIT許可證開源，基於Qwen2.5-Coder-3B構建，專攻可驗證推理。
在AIME26上得分94.3，與671B的DeepSeek V3.2和1T的Kimi K2.5相當。

大語言模型不知其所不知：透過跨模型歸因分歧檢測臨床表格資料中的認知盲點

2026-06-19 12:00 UTC+8

本研究比較了Qwen 2.5 7B和XGBoost在臨床預測任務中的表現，透過歸因分歧分析揭示了四個重要發現：LLM的口頭置信度在認識論上是空洞的，存在逆向難度效應，少樣本示例和SHAP特徵證據的結合可顯著提升準確率，且跨模型校準器能有效降低校準誤差。

LLM的口頭置信度幾乎恆定（0.856-0.937），與準確率無關，僅隨提示格式變化。
存在逆向難度效應：當XGBoost高度確定時，LLM準確率下降，但在中等不確定性時兩者表現相當。

投機解碼：一切皆是推測

2026-06-19 08:00 UTC+8

Modal團隊全面推崇投機解碼技術，認為它是當前最關鍵的高互動推理最佳化手段，能帶來2-3倍甚至更高的加速效果。他們與Z Lab合作訓練了針對Qwen系列模型的最先進DFlash投機解碼器，額外提升5-20%的速度，並強調了投機解碼在長上下文任務中的優勢。本文詳細解釋了投機解碼的原理、與傳統最佳化的對比，以及透過模擬和數學模型展示的加速效果。

投機解碼是目前唯一重要的推理引擎最佳化，能實現數倍加速而非微小百分比提升。
Modal與Z Lab合作釋出了多款Qwen模型的DFlash投機解碼器，額外提速5-20%。

我們有了自家的“玻璃翼”：誰還需要Mythos 5或Fable 5？

2026-06-18 21:49 UTC+8

作者受Anthropic的Glasswing啟發，在本地硬體上構建了自主安全研究員Lucent。Lucent是一個分階段原始碼漏洞獵人，在單張RTX 3090上執行本地27B Qwen模型，透過Lucebox解碼速度提升約3.4倍。首次針對hermes-agent的測試中，靜態分析產生1342個候選，本地篩選至126個，前沿模型對抗審計將15個線索最終縮減至2個真實漏洞。本地讀取成本約1.62美元。最精彩的時刻是審查者代理發現作者之前針對供應商已悄悄重寫的威脅模型評分了三個早期漏洞。

Lucent：一個分階段流水線，包括排名、搜尋、驗證、利用四個階段，在本地GPU上執行。
使用Lucebox的投機解碼，27B模型在程式碼類文本上達到約130 token/s，是普通解碼的3.4倍。

JetFlow：使用並行樹草稿打破推測解碼的擴充套件上限

2026-06-18 12:00 UTC+8

JetFlow提出了一種基於頭部的推測解碼框架，透過因果並行草稿頭，在保持前向傳遞效率的同時實現分支級因果條件化，從而將更大的草稿預算轉化為更長的接受字首和更高的端到端加速。在Qwen3模型上的測試顯示，JetFlow在MATH-500上實現了高達9.64倍的加速，在開放對話任務上實現了4.58倍加速。

JetFlow結合了單向傳播的高效性和分支級因果條件化，解決了先前方法中因果性與效率之間的兩難問題。
透過訓練因果並行草稿頭，JetFlow生成的候選樹與目標模型的自迴歸分解對齊，有效利用草稿預算。

Qwen

相關主題

Qwen動態

PrismML釋出Bonsai 27B：Qwen3.6-27B的1位和三進製版本，可在筆記型電腦和手機上執行

非英語語言推理的成本：以日語為例

閉環控制：規則對齊的小語言模型與多智慧體自我修正

Director：透過線上主動專家放置加速分散式MoE服務

面向低位元整數的有符號對稱量化

修復三個Bug，讓Qwen3.5-122B在Mac Studio上成為日常驅動

評估基於SageMath增強的LLM智慧體在計算與實驗數學中的應用

AI模型“過度思考”問題——這是一種安全風險

本地模型用於編碼的可行性

NAVER LABS系統復現：面向IWSLT 2026指令跟隨任務

Liquid AI 開源 Antidoom：一種透過最終令牌偏好最佳化（FTPO）減少推理模型死迴圈的方法

用於資料高效程式碼切換語音識別的強化學習

語言模型中風險規避的分佈外泛化

Oyster-II：基於強化學習的語言模型建設性安全對齊框架

LensVLM：選擇性上下文擴充套件實現文本的壓縮視覺表示

中國AI伴侶新規：北京真正要管的是什麼

字節跳動Doubao、阿里Qwen將於7月15日關閉個性化AI智慧體

現代視覺語言模型解析：GPT-4o、Gemini、Claude Vision 和 Qwen-VL 的工作原理

每月6美元，無限制的LLM API：無需追蹤Token，無需限制

前Qwen負責人談混合思維的失誤——以及他為何現在支援智慧體

臨床智慧體的世界反饋：在FHIR環境中診斷強化學習

無基底的個性：體制依賴與LLM個體化問題

橋接科學遺產：面向可持續知識轉移的阿拉伯語-俄語平行語料庫與LLM基準

AI模型可訪問性檢查器

構建本地AI系統：Qwen3.6與MCP

Ornith-1.0：自我改進的開原始碼智慧編碼模型

Ornith-1.0：用於自主程式設計的自支架LLM

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：基於Qwen3.5的百萬上下文推理模型

DMV-Bench：透過偶然線索注入診斷長週期多模態智慧體的視覺記憶

Supersede：診斷和訓練LLM智慧體中的記憶更新差距

Liquid AI 釋出 LFM2.5-230M：支援 on-device 推理，相容 llama.cpp、MLX 等多種框架

使用本地編碼代理：開源模型與本地工具的實用指南

越大越強：約束引導推理是大模型的關鍵優勢

Know2Guess：一種汙染感知的多區域基準，用於大語言模型的知識邊界評估

拒絕行為位於聊天模型角色個性的下游

Anthropic指控阿里巴巴發動最大規模AI蒸餾攻擊：2880萬次欺詐性互動

DeepReinforce釋出Ornith-1.0：開源程式設計模型家族，自我學習強化學習框架

超越Fable：本地LLM能否取代雲端AI進行安全程式碼審查？

AI週報#883：Qwen進軍機器人領域

Dustin：面向高效長上下文生成的草稿增強稀疏驗證方法

[AINews] 元工具之夏來臨

Qwen-AgentWorld 模型

DFlash推測解碼：並行生成整個Token塊，在NVIDIA Blackwell上吞吐量提升高達15倍

離線推理訓練的權重空間幾何

我們讓本地模型免費（*）為OpenClaw倉庫進行問題分類！

VibeThinker-3B：基於Qwen2.5-Coder-3B與頻譜到訊號後訓練流水線的3B密集推理模型

大語言模型不知其所不知：透過跨模型歸因分歧檢測臨床表格資料中的認知盲點

投機解碼：一切皆是推測

我們有了自家的“玻璃翼”：誰還需要Mythos 5或Fable 5？

JetFlow：使用並行樹草稿打破推測解碼的擴充套件上限

更多增長標籤

AI 編程

MCP

開源模型

推理成本

Agent 框架

中國 AI

GPU 基礎設施

模型定價

DeepSeek