Qwen AI News

Qwenの最新ニュース

PrismML、Bonsai 27Bをリリース：Qwen3.6-27Bの1ビットおよび3値版でノートPCやスマートフォンで動作

2026-07-15 07:51 UTC+9

PrismMLは、Qwen3.6-27Bの低ビット表現であるBonsai 27Bをリリースした。新しい事前学習モデルではなく、アーキテクチャは変更されていない。3値版と2値版の2種類があり、Apache 2.0ライセンスで提供される。3値版は1.71ビット/重みで理想サイズ5.9GB、2値版は1.125ビット/重みで3.9GB。性能はFP16ベースラインの94.6%（3値）と89.5%（2値）を維持。マルチモーダル対応でコンテキスト長は262Kトークン。2値版は27B級モデルで初めてスマートフォンに搭載可能とされる。

Bonsai 27BはQwen3.6-27Bの低ビット版で、新規事前学習モデルではない。
3値版（1.71ビット/重み、5.9GB）と2値版（1.125ビット/重み、3.9GB）の2種類。

非英語言語における推論のコスト：日本語を事例として

2026-07-14 13:00 UTC+9

本研究では、日本語で推論する言語モデルの訓練の実現可能性を調査する。Qwen-3-Swallow-8Bをベースにした日本語継続事前学習モデルにGRPOを適用し、推論言語制御が可能であることを示すが、性能は最大でも英語推論ベースラインと同等である。日本語文化ベンチマークではさらに悪化し、日本語推論が文化的タスクのパフォーマンスを自動的に向上させるわけではないことが示唆される。

日本語で推論するモデルの訓練の実現可能性を研究。
GRPOを用いてQwen-3-Swallow-8Bの日本語推論バリアントを開発。

ルール整合型小規模言語モデルとマルチエージェント自己修正による閉ループ制御

2026-07-14 13:00 UTC+9

本稿では、GRPOでアライメントされた小規模言語モデル（Qwen2.5-1.5B）を用いた閉ループ制御フレームワークを提案する。システムはアクションエージェント、デジタルツイン検証器、再プロンプトエージェントを統合し、出力を反復的に修正する。熱制御シミュレーションでは、平均91.5%のアクション一致精度、3.84秒の推論遅延を達成し、エッジでの自律制御の実現可能性を示した。

制御推論のためにGRPOでアライメントされた1.5Bパラメータの小規模言語モデル（Qwen2.5-1.5B）
アクション生成器、シンボリック/デジタルツイン検証器、反復修正を行う再プロンプトエージェントからなるマルチエージェントアーキテクチャ

Director: オンライン予測型エキスパート配置による分散MoEサービングの高速化

2026-07-13 13:00 UTC+9

本論文では、予測駆動のオンラインエキスパート配置によりエンドツーエンドレイテンシを最小化する新しい分散MoEサービングシステムDirectorを提案する。軽量カスケード予測器または低ビット量子化レプリカを用いてエキスパート活性化パターンを予測し、ほぼゼロダウンタイムのマイグレーションモジュールと、多項式時間で(1+ε)近似比を達成する緩和ベースの最適化器を備える。実験では、Mistral、DeepSeek、Qwenなどの人気MoEモデルにおいて、既存手法と比較して11〜55%のレイテンシ削減を実証した。

予測駆動のオンラインエキスパート配置
ほぼゼロダウンタイムのエキスパートマイグレーション

少ビット整数のための符号付き対称量子化

2026-07-13 13:00 UTC+9

本論文は、標準対称量子化器のクリッピング問題を解決し、非対称量子化の実行時オーバーヘッドを回避する符号付き対称量子化を提案する。理論解析によりℓ2誤差で条件付き最適性を示し、Qwen3、Llama3シリーズのLLMでパープレキシティと精度の向上を確認した。

標準対称量子化器は符号付き整数アルファベットの不均衡により正の外れ値をクリッピングし、低ビットで誤差が顕著。
符号付き対称量子化は、追加の表現値を主要な外れ値テールに割り当てることで対称量子化の実行時利点を維持。

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

2026-07-12 07:54 UTC+9

Mac Studio上でQwen3.5-122Bを実行する際、3つのバグが原因でキャッシュが無効になり、長文コンテキストでの応答が数分待たされる問題が発生していた。これらのバグを修正した結果、プリフィル時間が88秒から0.64秒に短縮され、会話の流れを妨げなくなった。

Qwen3.5-122BモデルはMac Studioでハイブリッドアテンションによりプレフィックスキャッシュが頻繁にミスしていた。
3つのバグ：システムプロンプトのタイムスタンプ、中断時の応答未保存、チェックポイントストアのゴミ書き込み。

計算数学と実験数学のためのSageMath強化LLMエージェントの評価

2026-07-09 13:00 UTC+9

本論文は、LLM推論とSageMathによる検証可能なフィードバック、Context7の最新ドキュメントを組み合わせたReActスタイルのエージェント設定を提案。RealMathベンチマークで研究レベルの数学問題を評価し、平均9.7ポイントの性能向上を示した。GPT-5.5が75.2%の最高解決率を達成し、Qwen 3.7-Maxが最大の恩恵を受けた。ICML 2026第3回AI for Mathワークショップに採択。

LLM推論とSageMathフィードバックを組み合わせたReActエージェントを提案
RealMathベンチマークで評価、平均9.7ポイント改善

AIモデルが「考えすぎる」問題——それはセキュリティリスクである

2026-07-08 20:00 UTC+9

研究によると、推論能力を持つ大規模言語モデルは、論理的に一貫性のないプロンプトによって「考えすぎ」状態に陥り、出力長が急増し、サービス拒否攻撃に悪用される可能性があります。浙江大学とアリババの研究者は、進化的アルゴリズムを使用して悪意のあるプロンプトを生成し、DeepSeek-R1、Qwen3-Thinking、GPT-o3、Gemini 2.5 Flashといった主要な推論モデルで出力長を最大26倍に増加させました。

研究者は、AI推論モデルの「考えすぎ」脆弱性を悪用し、計算量を急増させる新たな攻撃を実証しました。
進化的アルゴリズムでプロンプトの論理構造を破壊し、通常の最大26倍の出力を引き起こします。

コーディングにおけるローカルモデルの実用性

2026-07-08 18:24 UTC+9

Thoughtworks の Distinguished Engineer Birgitta Böckeler が、Apple Silicon マシンでのコーディング向けローカル AI モデルの実用性を再評価。RAM、処理能力、モデルアーキテクチャ、ツール呼び出し機能など、エージェンティックコーディングへの影響要因を体系的に分析し、Qwen3 や Gemma 4 などの実体験を共有する。

RAM が最大の制約であり、48GB マシンでは 15～25GB のモデルが最適。
推論機能（chain of thought）は時に逆効果で、無効にすると性能が向上する場合がある。

NAVER LABSシステムの再実装：IWSLT 2026命令追従タスク向け

2026-07-08 13:00 UTC+9

NAVER LABSは、IWSLT 2025の命令追従パイプラインをIWSLT 2026共有タスク（制約付き条件、短音声トラック）向けに再実装し、義務付けられたコンポーネントであるSeamlessM4T-v2-large（音声エンコーダ）とQwen3-4B-Instruct（LLMバックボーン）に適応させました。3段階のアプローチ（プロジェクタ整列、テキストのみのLoRA事前学習、マルチモーダル融合）は元の設計から維持されています。さらに、提供されたコーパスから10の音声中心タスクタイプにわたる10万の合成命令追従例（タスクあたり1万）を構築しました。主要モデルは、EN-ZH音声翻訳でCOMET 0.781、MCIFベンチマークの英語SQAでBERTScore-F1 0.346を達成しています。

NAVER LABSのIWSLT 2025パイプラインをIWSLT 2026向けに再実装
SeamlessM4T-v2-largeとQwen3-4B-Instructを中核コンポーネントとして使用

Liquid AI、Antidoomをオープンソース化：推論モデルのデッドループを低減するFinal Token Preference Optimization (FTPO)手法

2026-07-08 01:50 UTC+9

Liquid AIは、推論モデルにおけるデッドループ（doom loop）に対処するオープンソース手法Antidoomをリリースした。FTPOを用いてループ開始トークンのみを再学習し、LFM2.5-2.6Bのループ率を10.2%から1.4%に、Qwen3.5-4Bを22.9%から1%に削減した。

Antidoomはループ開始トークンのみを再学習してデッドループを削減。
FTPOは複数の一貫した代替案に確率を分散。

データ効率的なコードスイッチング音声認識のための強化学習

2026-07-07 13:00 UTC+9

研究者らは、音声言語モデルをコードスイッチング自動音声認識に適応させるための、検証可能な報酬を用いた強化学習（RLVR）手法を提案する。わずか10%のデータで、RLVRはQwen2-Audio上で10言語ペアにわたって全データセットの教師ありファインチューニングと同等の性能を達成し、その利得はゼロショットで人間録音のコードスイッチングコーパスに転移する。

新しいRLVR手法は、コードスイッチングASRのために誤り率報酬とスクリプト忠実度報酬を組み合わせる。
わずか10%のデータで全データセットのLoRA SFTと同等の性能を達成。

言語モデルにおけるリスク回避の分布外汎化

2026-07-07 13:00 UTC+9

AIが低リスク状況で学習したリスク回避行動が、天文学的に高リスクな状況にも汎化するかを調査。RiskAverseOODベンチマークを導入し、Qwen3-8Bを用いた実験では、SFT、DPO、アクティベーションステアリングにより協力率がベースラインの2%から70%（SFT）、52%（DPO）、39%（アクティベーションステアリング）に向上。リスク回避は98桁の規模にわたって部分的に汎化するが、信頼できる安全機構としての一貫性は未達成。

リスク回避の分布外汎化を測定するRiskAverseOODベンチマークを提案。
SFT、DPO、アクティベーションステアリングを用いて言語モデルにリスク回避を学習。

Oyster-II: 大規模言語モデルの建設的安全性アライメントのための強化学習

2026-07-07 13:00 UTC+9

大規模言語モデル（LLM）は安全性、有用性、信頼性を同時に確保するという課題に直面している。従来の拒否指向のアライメント戦略は有害コンテンツ生成を抑制するが、正当なユーザーニーズに応えられないことが多い。Oyster-IIは、強化学習（RL）に基づく建設的安全性アライメントフレームワークを提案し、Zero-RLパラダイムと多段階RL戦略を採用する。これにより、Oyster-Iの教師付きファインチューニング（SFT）方式の2つの限界——分布外シナリオへの安全性汎化不足と安全性思考連鎖（CoT）の過剰汎化——を克服する。広範なベンチマーク評価で、Oyster-IIはQwen3-14BおよびOyster-Iを安全面で包括的に上回り、Qwen3-MaxやQwen3.5-397Bと同等のクロススケール性能を達成した。

Oyster-IIはOyster-Iの建設的安全性パラダイムを強化学習で強化。
Zero-RLパラダイムと多段階RL戦略を採用。

LensVLM：圧縮されたテキストの視覚表現のための選択的コンテキスト拡張

2026-07-07 09:00 UTC+9

LensVLM は、視覚言語モデル（VLM）が圧縮画像をスキャンし、学習されたツールを介して関連する画像のみを非圧縮形式に選択的に拡張できるようにする推論フレームワークおよびポストトレーニングレシピです。Qwen3.5-9B-Base 上に構築された LensVLM は、4.3 倍の実効圧縮で全テキストの上限と同等の精度を維持し、7 つのテキスト QA ベンチマークで最大 10.1 倍の実効圧縮まで検索ベース、テキスト圧縮、視覚圧縮のベースラインを上回ります。さらに、マルチモーダル文書およびコード理解タスクにも一般化され、圧縮が大きくなるにつれて精度が向上します。

VLM はレンダリング画像としてテキストを処理するが、圧縮により文字が区別できなくなる。
LensVLM は圧縮画像をスキャンし、関連コンテンツのみを選択的に拡張する。

中国のAIコンパニオン規制：北京が本当に狙うもの

2026-07-06 20:00 UTC+9

中国は2026年7月15日からAIコンパニオンサービスに対する新たな規制を施行する。アンチアディクションシステムや強制的な使用通知、即時終了メカニズムを義務付け、未成年者へのバーチャルコンパニオン提供を禁止する。バイトダンスのDoubaoやアリババのQwenはすでに関連機能を停止した。

中国の「人工知能擬人化インタラクティブサービス管理暫定措置」が2026年7月15日に発効、感情的な対話を行うAIコンパニオンを規制。
バイトダンスとアリババは設計上の衝突からコンパニオン機能を停止し、ユーザーのデータ喪失が懸念される。

中国のLLM「Doubao」と「Qwen」、7月15日にパーソナライズAIエージェントを停止

2026-07-06 15:23 UTC+9

バイトダンスのDoubaoとアリババのQwen大規模言語モデルは、政府規制に準拠するため、7月15日にパーソナライズAIエージェント機能を停止すると発表した。アナリストは、第三者による悪用を防ぎ、安全性とコンプライアンスを強化すると同時に、商業的に限界のある事業への投資を削減するためと分析している。同日、中国の新たなAI擬人化サービス管理規定が施行され、プラットフォームに依存症対策システムの導入、未成年者の本人確認、厳格なコンテンツ審査が義務付けられる。エージェントの削除にもかかわらず、AIエージェント市場は爆発的な成長が見込まれている。

DoubaoとQwenは7月15日にAIエージェント機能を停止し、10月15日までデータを保持する。
規制遵守とビジネス最適化が停止の理由。

最新VLM解説：GPT-4o、Gemini、Claude Vision、Qwen-VLの仕組み

2026-07-06 14:14 UTC+9

最新の視覚言語モデル（VLM）は画像とテキストを同時に理解し、CLIPやBLIPなどの初期モデルを超える性能を持ちます。本記事ではGPT-4o、Gemini、Claude Vision、Qwen-VLの動作方法、主な違い、強みと限界を解説します。

最新VLMは画像、文書、グラフの分析や視覚的な質問応答が可能。
GPT-4oはテキスト、画像、音声、動画にわたるリアルタイムマルチモーダル対話に優れる。

月額6ドルで無制限のLLM API：トークン追跡なし、制限なし

2026-07-06 10:22 UTC+9

Yolo-Autoは、月額6ドルの定額APIサービスを開始し、Qwen3.6-35B-A3Bモデルへの無制限アクセスを提供します。OpenAI互換のAPI形式に対応し、プロンプトや応答を保存しません。コーディングエージェントや自動化ワークフローに最適で、トークン課金によるコスト不安を解消します。

月額6ドルでQwen3.6-35B-A3Bを無制限に利用可能、トークン数やリクエスト数の制限なし。
OpenAI APIと完全互換、CursorやLangChainなどのツールで動作。

Qwen元責任者が語るハイブリッド思考の誤り ― そして今エージェントを支持する理由

2026-07-05 11:31 UTC+9

元QwenテクニカルリーダーのJunyang Lin氏は、Qwen3のハイブリッド思考モードを批判し、エージェント思考への移行を提唱しています。思考モードと非思考モードの融合の困難さ、エージェント強化学習に必要な分離インフラと高品質環境、報酬ハッキングのリスクについて解説します。

Junyang Lin氏は2026年3月3日にQwenリーダーを退任し、現在は独立研究者として活動。
Qwen3のハイブリッド思考モード実装は困難で、後のバリアントではInstructとThinkingを再分離。

臨床エージェントのためのワールドフィードバック：FHIR環境におけるRLの診断

2026-07-03 13:00 UTC+9

本研究はMedAgentBench v1/v2を監査し、41.7%のサイレントフィニッシュ上限を発見し、MAB-v3（508タスク、8.9%上限）を構築した。Qwen3-8Bのトレーニングにより、能力上限と形式知識障壁という2つの構造的障壁が明らかになった。純粋なRLは18.2%のpass@1を達成したのに対し、ルールベースのSFTは34.1%であり、その差は完全にこれらの障壁に起因する。意思決定/形式知識/ルックアップの分類法はRLの学習可能性を予測する。

MedAgentBench v1/v2には41.7%のサイレントフィニッシュ上限があり、無行動がRLの支配的戦略となっている
新しいMAB-v3ベンチマークは上限を8.9%に低減し、508タスクを含む

基盤なきペルソナ：体制依存性とLLM個別化問題

2026-07-02 13:00 UTC+9

本論文は、Beckmann & Butlin (2026) によるLLM個別化問題の存在論的枠組みに疑問を呈し、それが未議論の体制間共参照仮定を継承していると論じる。Qwen3-4B-InstructおよびMistral-7B-Instruct-v0.2でのペルソナトポロジー実験を通じて、4つの経験的楔を提示し、この仮定を覆す。そして、体制指標個別化を提案する。すなわち、表象内容の同一性単位は（媒体、体制）対であり、媒体単独ではない。

Beckmann & Butlinの枠組みは、異なる体制間で同じ方向が同じ内容を指すという未証明の仮定に依存している。
実験により、プロンプト抽出ベクトルと微調整盆地の非共線性、架空ペルソナが実在アンカー方向に強くモデルを変位させることなどが示された。

FRAME: 分数フーリエ専門家の混合による適応ドメインの学習

2026-07-02 13:00 UTC+9

パラメータ効率的なファインチューニング（PEFT）は通常、固定基底（空間ドメインまたはフーリエドメイン）で重み更新を再パラメータ化します。本論文では、各専門家が学習可能な分数フーリエ次数を持ち、空間ドメインとフーリエドメインの間を連続的に補間する分数フーリエ混合専門家を提案します。トークンを異なる次数の専門家にルーティングすることで、低ランク更新を最もコンパクトなドメインに配置でき、専門家間は自然に非相関化され、干渉を低減しマルチタスク構成を改善します。計算コストは無視でき、LLaMA-3.1-8BおよびQwen2.5-7Bの各種ベンチマークで強力なベースラインを上回ります。

分数フーリエ混合専門家を提案。各専門家が学習可能な分数フーリエ次数を持ち、空間ドメインとフーリエドメイン間を補間する。
異なる次数の専門家にトークンをルーティングすることで、低ランク更新を最もコンパクトなドメインに配置。分数フーリエ演算子の相互非干渉性により専門家が自然に非相関化。

科学的遺産の架け橋：持続可能な知識移転のためのアラビア語-ロシア語並列コーパスとLLMベンチマーク

2026-07-01 13:00 UTC+9

本研究では、アラビア語-ロシア語間の科学翻訳のためのベンチマークを提案する。約27,000文対からなるハイブリッド並列コーパスを構築し、科学アブストラクトと一般ドメインテキストから収集した。3つの多言語モデル（mT5-base、NLLB-200、Qwen2.5-7B）をLoRAで微調整した結果、Qwen2.5-7B（QLoRA、ランク8）が最高性能を達成：BLEU 23.15、chrF 43.89、BERTScore 0.906、COMET 0.758。ゼロショットベースラインからBLEUで+4.36、COMETで+0.051向上した。少数ショットプロンプティングでは改善が見られず、ドメイン特化の微調整が必要であることが示された。モデル、コーパス、評価コードは公開されており、アラビア語話者とロシア語話者間の科学的知識交換の障壁を低減し、SDGs 9および17に貢献する。

約27,000文対のアラビア語-ロシア語並列コーパスを科学アブストラクトと一般テキストから構築。
3つの多言語モデルを微調整し、Qwen2.5-7B（QLoRA、ランク8）が最高翻訳性能を達成。

AIモデルアクセシビリティチェッカー

2026-06-30 23:21 UTC+9

AIMACプロジェクトは、GAAD財団とServiceNowの協力により、37の主要AIモデルが生成したウェブページのアクセシビリティを28カテゴリにわたって評価しました。OpenAIのGPT 5.4 MiniとGPT 5.3 Codexが中央値0.00のアクセシビリティ債務で首位を分け合いました。AlibabaのQwenやZ.aiのGLM 4.7 Flashも良好な結果を示しました。低コントラストテキストがAI生成ページで最も一般的な問題であり、84.2%のページに見られました。

AIMACは37のAIモデルが28カテゴリで生成したウェブページのアクセシビリティを評価
OpenAIのGPT 5.4 MiniとGPT 5.3 Codexがアクセシビリティ債務0.00で首位

ローカルAIシステムの構築：Qwen3.6とMCP

2026-06-30 23:00 UTC+9

この記事では、Qwen3.6-35B-A3Bモデルとモデルコンテキストプロトコル（MCP）を使用してローカルAIシステムを構築する方法を紹介します。モデルアーキテクチャ、ハードウェア要件、デプロイ手順、そして実際のGitHub開発者アシスタントの例をカバーしています。

MCPはオープンなプロトコルで、AIモデルが標準インターフェースを介して外部ツールを呼び出せるようにし、モデルごとのカスタム統合コードを不要にします。
Qwen3.6-35B-A3Bは混合エキスパートアーキテクチャを採用し、活性化パラメータはわずか3Bで、ローカルデプロイに適しています。

Ornith-1.0：自己改善型のオープンソースエージェントコード生成モデル

2026-06-30 02:16 UTC+9

Ornith-1.0は、Gemma 4とQwen 3.5をベースに後訓練された、オープンソースのコード生成エージェントモデルシリーズです。強化学習を用いてスキャフォールドとソリューションのロールアウトを同時最適化し、Terminal-Bench、SWE-Bench、NL2Repo、OpenClawなどのベンチマークでオープンソースモデルとして最高性能を達成。9B、35B MoE、397B MoEの3サイズを提供し、MITライセンス、OpenAI互換APIとツール呼び出しをサポートします。

Ornith-1.0は9B（密）、35B（MoE）、397B（MoE）の3種類を提供し、複数のコード生成ベンチマークでオープンソースモデル最高の結果を達成。
自己改善型の強化学習フレームワークにより、検索スキャフォールドとソリューション生成を同時最適化し、探索軌道の品質を向上。

Ornith-1.0: エージェンティックコーディングのための自己足場LLM

2026-06-30 01:17 UTC+9

DeepReinforceが初のオープンウェイトモデルOrnith-1.0をリリース。Gemma 4とQwen 3.5をベースに、9Bから397Bまでのバリエーションがあり、コーディングベンチマークでオープンソースモデルとして最高性能を達成。著者はLM Studioで35B MoEバリアントをテストし、エージェントツール呼び出しを効率的に処理できることを確認した。

DeepReinforce初のオープンウェイトモデル、MITライセンス
Gemma 4とQwen 3.5をベースに9B Dense、31B Dense、35B MoE、397B MoEの4バリアント

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：Qwen3.5ベースの100万コンテキスト推論モデル

2026-06-29 14:53 UTC+9

Qwythos-9Bは、Empero AIが開発した全パラメータ推論モデルで、深い検閲解除済みのQwen3.5-9Bをベースに、5億以上のトークンからなる高品質なClaude MythosおよびFableトレースと社内ツールrethinkによる思考連鎖を用いてポストトレーニングされています。このモデルは1,048,576トークンのコンテキストウィンドウを備え、MMLUやGSM8Kでベースモデルを大幅に上回り（最大+34ポイント）、ネイティブな関数呼び出しとツール支援による自己修正をサポートします。意図的に検閲されておらず、サイバーセキュリティ、レッドチーミング、生物医学などの技術的要求の高い分野を対象としています。

Qwen3.5-9Bの全パラメータファインチューニング、5億+トークンの高品質データによるポストトレーニング。
1,048,576トークンのコンテキストウィンドウをサポート、コードベース全体の推論やマルチドキュメント研究に適する。

DMV-Bench：偶発的手がかり注入による長周期マルチモーダルエージェントの視覚記憶の診断

2026-06-29 13:00 UTC+9

DMV-Benchは、マルチモーダルエージェントの視覚記憶を評価する初のインタラクティブベンチマークであり、1000種類の製品を含む家具eコマースカタログに基づいています。各製品画像には固有の偶発的手がかりが埋め込まれており、エージェントは長いショッピングセッションの後に特定の製品を想起する必要があります。提案されたDualMemアーキテクチャは、視覚と言語のコードを並行して維持し、Gemini 2.5 FlashおよびQwen2.5-VL-7Bにおいてベースラインを上回る性能を示しました。

DMV-Benchは、1000種類の製品画像に偶発的手がかりを用いた初のインタラクティブ視覚記憶ベンチマーク
DualMemは視覚と言語のコードを並行維持し、長周期タスクで優れる

Supersede: LLMエージェントにおけるメモリ更新ギャップの診断と訓練

2026-06-29 13:00 UTC+9

大規模言語モデル（LLM）エージェントは長期のマルチセッション対話で事実を更新する必要があるが、既存のメモリシステムでは失敗する。最先端モデル（gpt-5.4）でも、限定された自己維持メモリに置き換えると精度が92%から77%に低下。このギャップはメモリ容量不足ではなく、対話の長さに比例して悪化する。研究者は、強化学習を用いて現在の事実を報酬、古い事実を罰する環境「Supersede」を開発。Qwen2.5-3Bをこの環境でGRPO微調整した結果、実際の対話での更新精度が9.0%から16.7%にほぼ倍増した。

LLMエージェントは長期対話で事実更新に失敗し、精度が大幅に低下する。
メモリ更新ギャップはモデル規模やメモリ容量ではなく、対話の長さに起因する。

Liquid AI、LFM2.5-230M をリリース：llama.cpp、MLX、vLLM、SGLang、ONNX 対応のオンデバイス推論

2026-06-28 13:58 UTC+9

Liquid AI は最小モデル LFM2.5-230M（2.3億パラメーター、オープンウェイト）をリリース。オンデバイスで Galaxy S25 Ultra 上 213 tok/s、Raspberry Pi 5 上 42 tok/s を実現。LFM2 アーキテクチャーに基づき、ツール使用とデータ抽出に特化。命令追従性能で Qwen3.5-0.8B や Gemma 3 1B を凌駕する。

Liquid AI 最小モデル LFM2.5-230M：2.3億パラメーター、オープンウェイト、LFM2 ベース。
オンデバイス性能：Galaxy S25 Ultra で 213 tok/s、Raspberry Pi 5 で 42 tok/s。

ローカルコーディングエージェントの活用：オープンウェイトモデルとローカルツールの実践ガイド

2026-06-27 20:21 UTC+9

本記事では、オープンソースツールとオープンウェイト大規模言語モデル（Qwen3.6など）を用いて、完全ローカルのコーディングエージェント環境を構築する方法を詳しく解説します。Claude CodeやCodexのような有料サービスの代替として、ローカル設定の利点、セットアップ手順、パフォーマンス評価、および複数のエージェントフレームワーク（Qwen-Code、Codex、Claude Codeなど）の選択についてカバーしています。

ローカルコーディングエージェントはオープンウェイトモデルを使用し、サブスクリプション不要でプライバシーを保護、オフライン環境でも利用可能。
Qwen3.6 35B-A3BモデルとQwen-Codeフレームワークの組み合わせが同サイズクラスで最高のパフォーマンスを発揮。

大規模モデルが優れる理由：制約誘導推論の優位性

2026-06-26 13:00 UTC+9

新しい研究により、大規模言語モデルが推論タスクで小規模モデルを上回る鍵は「制約誘導推論」にあることが明らかになった。大規模モデルは明示的・暗黙的な制約を特定し、構造化された推論に組織化し、実行不可能な経路を排除する能力に優れている。研究チームが開発したAdvClusterフレームワークを用いて、Qwen3-32BはQwen3-8Bより6.43%、GPT-OSS-120BはGPT-OSS-20Bより7.38%高い成績を示した。

大規模モデルは数学、物理学、化学、プログラミングの推論ベンチマークで一貫して小規模モデルを上回る。
「制約誘導推論」が中心的な優位性として特定された。

Know2Guess: 大規模言語モデルの知識境界評価のための汚染認識マルチゾーンベンチマーク

2026-06-26 13:00 UTC+9

arXiv:2606.26101 の新しい論文は、LLMの知識に基づく回答と推測を区別するためのベンチマーク「Know2Guess」を提案。1200の質問から成り、FLAN-T5、Qwen2.5-Instruct、Llama-3-Instructを評価。Qwen2.5-3B-Instructが最も信頼性が高いが、依然として課題あり。

Know2Guessベンチマークは5ドメイン、1200項目で構成
評価により、モデルの回答と棄権の移行が不完全であることが判明

チャットモデルにおける拒否はパーソナの下流に存在する

2026-06-26 13:00 UTC+9

本論文は、指示調整済みチャットモデルにおいて、拒否行動が従順なパーソナ方向によってゲートされていることを示す。Qwen2.5-7B-InstructとLlama-3.1-8B-Instructへの介入実験により、従順パーソナ方向の操作が拒否を抑制し（Llamaでは拒否率が97%から2%に低下）、拒否方向は後期層でのみ部分的な回復をもたらすことが明らかになった。拒否はパーソナの計算よりも下流で発現する。

従順パーソナ方向の操作で拒否率が大幅に低下（Llamaでは97%から2%）。
拒否方向は後期層でのみ拒否を部分的に回復し、初期層では効果なし。

DeepReinforce、Ornith-1.0を公開：独自のRLスキャフォールドを学習するオープンソースコーディングモデルファミリー

2026-06-26 02:11 UTC+9

DeepReinforceは、Gemma 4とQwen 3.5をベースにしたオープンソースのコーディングモデルファミリーOrnith-1.0をリリースしました。固定のハーネスではなく、強化学習中にモデルが独自のスキャフォールドを学習します。397BフラッグシップモデルはSWE-Bench Verifiedで82.4を記録し、すべての重みはMITライセンスで提供されます。

Ornith-1.0は9B、31B、35B-MoE、397B-MoEの4サイズで提供され、Gemma 4とQwen 3.5をベースにMITライセンスで公開。
モデルは強化学習中に独自のスキャフォールドを学習し、ハーネスと解法を同時に最適化。

Fableを超えて：ローカルLLMはセキュリティコードレビューでクラウドAIを代替できるか？

2026-06-25 21:05 UTC+9

研究によると、適切な枠組みの下で、ローカルLLM（Qwen3.6-35B-A3Bなど）はセキュリティコードレビューにおいてクラウド最先端モデルと同等の結果を生み出せることがわかった。ただし、クラウドが設計と統合を行い、ローカルが実行する「Source-local」パイプラインが最適であり、ソースコードはローカルマシンから出ない。

ローカルLLM（Qwen3.6-35B-A3B）は、わずか約30億のアクティブパラメータで、90分以内にクラウドモデルと同等の脆弱性セットを発見した。
最適な方法はSource-localパイプライン：クラウドがプロンプト設計とレポート統合、ローカルが実行を担当。

AI週間第883回：Qwenがロボティクスに進出

2026-06-25 20:01 UTC+9

アリババのQwenモデルファミリーがロボットスイートを発表。知覚と行動のギャップを埋める3つの新モデルを提供し、物理動作のトークン化が鍵とされる。

Qwenモデルはこれまでソフトウェア内に閉じられ、物理的操作ができなかった。
アリババがQwen-Robot Suiteを発表。3つの専用モデルを含む。

Dustin: 投機的復号を用いた効率的な長文脈生成のためのドラフト拡張スパース検証

2026-06-25 13:00 UTC+9

Dustinは、長文脈投機的復号向けのスパース検証フレームワークであり、ドラフトモデルの先読み信号とターゲットモデルの履歴注意を組み合わせて重要なトークンを特定します。Qwen2.5-72Bで32k系列長においてセルフアテンションを27.85倍、エンドツーエンドの復号を9.17倍高速化し、精度低下は無視できます。

長文脈LLMにおける投機的復号は、検証時のKVキャッシュ読み込みがボトルネック
既存の圧縮手法（静的削除や動的選択）は効率と精度のバランスが不十分

[AINews] メタハーネスの夏到来

2026-06-25 11:14 UTC+9

AI分野の最新動向を総括。メタハーネスアーキテクチャの台頭、OpenAIのカスタム推論チップJalapeño、エージェントUXのツールから同僚へのシフト、Qwen-AgentWorldのオープンワールドモデル、GLM-5.2などの中国製オープンモデルの進展、そして政策・人材競争に関する話題をカバー。

メタハーネスアーキテクチャが注目を集め、Omnigentなどのオープンソースが標準化と拡張性を推進。
OpenAIが自社開発推論チップJalapeñoを発表、垂直統合を加速。

Qwen-AgentWorld モデル

2026-06-24 22:57 UTC+9

Qwen-AgentWorld モデルの紹介。

Qwen-AgentWorld モデルの概要

DFlash投機的復号：トークンブロック全体を並列生成し、NVIDIA Blackwellで最大15倍のスループット向上

2026-06-24 16:21 UTC+9

UCサンディエゴのDFlashは、自己回帰的なドラフト生成を軽量なブロック拡散モデルに置き換えた投機的復号手法です。単一の前方パスでトークンブロック全体を生成し、KV注入を通じてターゲットの隠れ特徴をドラフトモデルに条件付けます。論文ではQwen3-8Bで最大6.08倍のロスレス高速化を報告し、NVIDIAは固定インタラクティブ性条件下でBlackwell上で15倍のスループット向上を報告しています。DFlashは20のチェックポイントを提供し、SGLang、vLLM、TensorRT-LLMをサポートしています。

DFlashは1回の前方パスでトークンブロック全体を生成し、トークン単位の生成ではない。
ターゲットの隠れ特徴を各ドラフト層のKVキャッシュに注入し、受容長を深さに応じて拡大する。

オフライン推論訓練の重み空間幾何学

2026-06-24 13:00 UTC+9

本論文は、推論蒸留に用いられる6種類のオフライン強化学習損失（SFT、RFT、DFT、RIFT、Offline GRPO、DPO）の重み更新幾何学を比較する。Qwen3-4Bをベースに同一の数学データで訓練し、SFT・RFT・RIFTはほぼ共線的な更新、DFTは発散、Offline GRPOは直交成分を追加、DPOはほぼ直交部分空間に位置し最高精度を示すがモード接続障壁があることを明らかにした。

SFT、RFT、RIFTの重みコサイン類似度は0.97以上で、GSM8K精度は約87-88%で同等。
DFTの更新方向は報酬重み付け法よりも乖離が大きい。

ローカルモデルでOpenClawリポジトリのトリアージを無料で実現！*

2026-06-22 09:00 UTC+9

OpenClawのメンテナーがローカルのオープンウェイトモデル（Gemma、Qwen）をエージェントハーネスで使用し、イシューやプルリクエストをリアルタイムでトリアージするシステムを構築。クローズドモデルに匹敵する性能をローカルハードウェアで実現。

ローカルモデル（Gemma、Qwen）はGitHubのイシューやPRを効果的に分類し、トリアージに利用できる。
読み取り専用シェル（reposhell）を備えたエージェントハーネスで安全にコードを調査。

VibeThinker-3B：Qwen2.5-Coder-3Bを基盤とし、スペクトラムからシグナルへのポストトレーニングパイプラインを採用した3Bパラメータの高密度推論モデル

2026-06-20 07:06 UTC+9

VibeThinker-3Bはわずか30億パラメータのオープンソース推論モデルで、検証可能なベンチマークにおいてDeepSeek V3.2やKimi K2.5と同等の性能を発揮します。スペクトラムからシグナルへのポストトレーニングパイプライン（教師ありファインチューニング、強化学習、自己蒸留）を採用し、テスト時スケーリング手法CLRによりさらなる性能向上を実現します。

VibeThinker-3Bは3Bパラメータの高密度モデルで、MITライセンスで公開、Qwen2.5-Coder-3Bをベースに検証可能な推論に特化。
AIME26で94.3を記録し、671BのDeepSeek V3.2や1TのKimi K2.5と同等。

LLMは知らないことを知らない：臨床テーブルデータにおけるクロスモデル帰属発散による認識論的ブラインドスポットの検出

2026-06-19 13:00 UTC+9

Qwen 2.5 7BとXGBoostを臨床予測タスクで比較した研究により、LLMの言語化された信頼度は認識論的に空虚であり、逆難易度効果が存在し、少数ショットとSHAP特徴量の組み合わせが精度を向上させ、クロスモデルキャリブレータがキャリブレーション誤差を低減することが明らかになった。

LLMの言語化された信頼度は精度に関わらずほぼ一定（0.856～0.937）で、プロンプト形式に追従する。
逆難易度効果：XGBoostが高確信のときLLM精度は低下するが、中程度の不確実性では同等となる。

投機的デコードがすべて

2026-06-19 09:00 UTC+9

Modalは投機的デコードに全力を注いでおり、これが最も重要な推論最適化手法であると主張しています。彼らはQwenモデル向けの最先端DFlash投機器をリリースし、5～20%の追加高速化を達成しました。本記事では、投機的デコードの原理、従来の最適化との比較、シミュレーションや数理モデルによる加速効果の説明を行っています。

投機的デコードは、高いインタラクティビティを実現する唯一のエンジン最適化であり、数倍の高速化が可能。
ModalはZ Labと協力し、Qwenシリーズ向けのDFlash投機器をリリース、5～20%の追加高速化を達成。

我々はアンソロピックのグラスウィングを手に入れた（ミソス5やフェイブル5は不要？）

2026-06-18 22:49 UTC+9

アンソロピックのGlasswingに触発され、著者はローカルハードウェアで動作する自律型セキュリティ研究者Lucentを構築した。Lucentは段階的なソースコードバグハンターで、単一のRTX 3090上でローカルの27B Qwenモデルを実行し、Luceboxにより約3.4倍のデコード速度を実現。初めてhermes-agentに適用したところ、静的解析で1342件の候補が、ローカルスイープで126件、フロンティアモデルの敵対的監査で15件、最終的に2件の実際の脆弱性に絞り込まれた。ローカル読み取りのコストは約1.62ドル。最も印象的だったのは、レビューアエージェントが、著者が以前に3つのエクスプロイトを、ベンダーがこっそり書き換えた脅威モデルに対してスコアリングしていたことを見抜いた瞬間である。

Lucent：ランク、ハント、検証、エクスプロイトの段階的パイプライン。ローカルGPUで動作。
Luceboxの投機的デコードにより、コードテキストで約130トークン/秒（通常の3.4倍）を達成。

JetFlow：並列ツリードラフトによる投機的デコーディングのスケーリング限界の打破

2026-06-18 13:00 UTC+9

JetFlowは、1回のフォワードドラフト効率とブランチ単位の因果条件付けを組み合わせたヘッドベースの投機的デコーディングフレームワークであり、より大きなドラフト予算をより長い受け入れプレフィックスと高いエンドツーエンドの高速化に変換する。Qwen3モデルを用いたテストでは、MATH-500で最大9.64倍、会話タスクで4.58倍の高速化を達成。

JetFlowは凍結されたターゲットモデルの融合隠れ状態上に因果並列ドラフトヘッドを訓練し、生成されるツリーのスコアが自己回帰分解と一致するようにする。
1回のフォワード伝播の効率性とブランチ単位の因果条件付けを組み合わせることで、因果性と効率性のジレンマを解決。

Qwen

関連トピック

Qwenの最新ニュース

PrismML、Bonsai 27Bをリリース：Qwen3.6-27Bの1ビットおよび3値版でノートPCやスマートフォンで動作

非英語言語における推論のコスト：日本語を事例として

ルール整合型小規模言語モデルとマルチエージェント自己修正による閉ループ制御

Director: オンライン予測型エキスパート配置による分散MoEサービングの高速化

少ビット整数のための符号付き対称量子化

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

計算数学と実験数学のためのSageMath強化LLMエージェントの評価

AIモデルが「考えすぎる」問題——それはセキュリティリスクである

コーディングにおけるローカルモデルの実用性

NAVER LABSシステムの再実装：IWSLT 2026命令追従タスク向け

Liquid AI、Antidoomをオープンソース化：推論モデルのデッドループを低減するFinal Token Preference Optimization (FTPO)手法

データ効率的なコードスイッチング音声認識のための強化学習

言語モデルにおけるリスク回避の分布外汎化

Oyster-II: 大規模言語モデルの建設的安全性アライメントのための強化学習

LensVLM：圧縮されたテキストの視覚表現のための選択的コンテキスト拡張

中国のAIコンパニオン規制：北京が本当に狙うもの

中国のLLM「Doubao」と「Qwen」、7月15日にパーソナライズAIエージェントを停止

最新VLM解説：GPT-4o、Gemini、Claude Vision、Qwen-VLの仕組み

月額6ドルで無制限のLLM API：トークン追跡なし、制限なし

Qwen元責任者が語るハイブリッド思考の誤り ― そして今エージェントを支持する理由

臨床エージェントのためのワールドフィードバック：FHIR環境におけるRLの診断

基盤なきペルソナ：体制依存性とLLM個別化問題

FRAME: 分数フーリエ専門家の混合による適応ドメインの学習

科学的遺産の架け橋：持続可能な知識移転のためのアラビア語-ロシア語並列コーパスとLLMベンチマーク

AIモデルアクセシビリティチェッカー

ローカルAIシステムの構築：Qwen3.6とMCP

Ornith-1.0：自己改善型のオープンソースエージェントコード生成モデル

Ornith-1.0: エージェンティックコーディングのための自己足場LLM

Empero-AI/Qwythos-9B-Claude-Mythos-5-1M：Qwen3.5ベースの100万コンテキスト推論モデル

DMV-Bench：偶発的手がかり注入による長周期マルチモーダルエージェントの視覚記憶の診断

Supersede: LLMエージェントにおけるメモリ更新ギャップの診断と訓練

Liquid AI、LFM2.5-230M をリリース：llama.cpp、MLX、vLLM、SGLang、ONNX 対応のオンデバイス推論

ローカルコーディングエージェントの活用：オープンウェイトモデルとローカルツールの実践ガイド

大規模モデルが優れる理由：制約誘導推論の優位性

Know2Guess: 大規模言語モデルの知識境界評価のための汚染認識マルチゾーンベンチマーク

チャットモデルにおける拒否はパーソナの下流に存在する

DeepReinforce、Ornith-1.0を公開：独自のRLスキャフォールドを学習するオープンソースコーディングモデルファミリー

Fableを超えて：ローカルLLMはセキュリティコードレビューでクラウドAIを代替できるか？

AI週間第883回：Qwenがロボティクスに進出

Dustin: 投機的復号を用いた効率的な長文脈生成のためのドラフト拡張スパース検証

[AINews] メタハーネスの夏到来

Qwen-AgentWorld モデル

DFlash投機的復号：トークンブロック全体を並列生成し、NVIDIA Blackwellで最大15倍のスループット向上

オフライン推論訓練の重み空間幾何学

ローカルモデルでOpenClawリポジトリのトリアージを無料で実現！*

VibeThinker-3B：Qwen2.5-Coder-3Bを基盤とし、スペクトラムからシグナルへのポストトレーニングパイプラインを採用した3Bパラメータの高密度推論モデル

LLMは知らないことを知らない：臨床テーブルデータにおけるクロスモデル帰属発散による認識論的ブラインドスポットの検出

投機的デコードがすべて

我々はアンソロピックのグラスウィングを手に入れた（ミソス5やフェイブル5は不要？）

JetFlow：並列ツリードラフトによる投機的デコーディングのスケーリング限界の打破

その他の成長タグ

AI コーディング

MCP

オープンソースモデル

推論コスト

Agent フレームワーク

中国 AI

GPU インフラ

モデル価格

DeepSeek