AI News HubLIVE

Qwenの最新ニュース

AIチャットボットをより役立つようにすると、人間の行動を模倣する能力が低下する——大規模研究で判明

208,000人の参加者と2,600万件の回答を対象とした大規模研究により、言語モデルを役立つチャットボットに変えるトレーニングが、人間の行動を再現する能力を弱めることが示された。この効果は新しいモデル世代ごとに悪化する。人口統計情報を与える一般的な方法も、個々の予測にはほとんど効果がない。

  • ベースモデルは後訓練されたアシスタントバージョンよりも人間の行動予測で優れている。
  • ベースモデルとアシスタントモデルの差は世代ごとに拡大している。
サイト内本文

[AINews] 創業者とフォワードデプロイドエンジニア

昨日のAnthropicの大きなニュースを消化する中で、AIEの新しいフォワードデプロイドエンジニアトラックとファウンダーズプログラム、および5月28日~29日のAIニュースを紹介します。主なトピック:Claude Opus 4.8のベンチマークが混在するリリース、マルチターン強化学習のトークン化バグ、オープンモデルとツールチェーンの進展、Google/OpenAIの製品拡張、注目の研究論文。

  • Claude Opus 4.8は漸進的改善をもたらすが、ベンチマークで圧倒せず、価格設定が依然として痛点。
  • マルチターン強化学習トレーニングのトークン化バグが特定され、「Token-In, Token-Out」の原則が必要。
サイト内本文

IBM量子サンプリングループを用いたCPU専用Qwen3-30B推論のチューニング

2017年製MacBook Air上で、人間の実験者、Codex、llama.cpp、ローカルデータベース、IBM量子プロセッサのサンプリングを組み合わせ、Qwen3-30Bモデルの推論速度を0.09トークン/秒から14.03トークン/秒に向上させた研究。量子プロセッサ上でモデルを実行するのではなく、推論設定の最適化に量子サンプリングを用いている。

  • 8GB RAMの2017年MacBook AirでGPUなしでQwen3-30Bを実行
  • 人間とAIの量子最適化ループにより速度が0.09 tok/sから14.03 tok/sに向上
サイト内本文

Amazon SageMaker AI LLM推論の包括的な可観測性:GPU利用率からLLM品質まで

この記事では、Amazon Managed Grafanaダッシュボードを使用した包括的な可観測性ソリューションを紹介します。これにより、Amazon SageMaker AIエンドポイントで推論コンポーネントを使用して提供されるLLMの品質と量の両方を一元的に把握できます。GPU使用率、レイテンシー、コストなどのインフラ指標と、関連性、安全性、トーンなどのLLM品質指標をカバーし、チームがモデルの劣化を検出し、リソースを最適化し、コストを管理できるようにします。

  • LLMの可観測性には、インフラストラクチャ(量)と出力品質(質)の両方を監視する必要があり、これらは相互に依存しています。
  • Amazon CloudWatchは、SageMaker推論コンポーネントからの拡張メトリクスとカスタム品質メトリクスを一元管理します。
サイト内本文

NVIDIA、X-Tokenを発表:投影誘導型クロストークナイザ知識蒸留でLlama-3.2-1BにおいてGOLDを平均3.82ポイント上回る

NVIDIAのX-Tokenは、クロストークナイザ知識蒸留におけるGOLDの2つの構造的欠陥を修正し、GSM8kなどの数学推論ベンチマークで大幅な改善を達成。投影行列とP-KL・H-KL損失の選択メカニズムにより、トークナイザの不一致を処理する。

  • X-TokenはGOLDの「珍しいトークン失敗」と「過度に保守的なマッチング」を修正。
  • Qwen-4B教師を使用したLlama-3.2-1Bで、GOLDを平均3.82ポイント上回る。
サイト内本文

AIコーディング支出の実態:48%がコード生成、40%が思考に

開発者がCodeBurnという自作ツールでAIコーディングAPIの支出を追跡したところ、30日間で7,890ドルのうち実際のコード生成は47.9%に過ぎず、残りはコードベースの探索、デバッグ、サブエージェントへの委任、対話に費やされたことが判明。記事ではダッシュボード、モデル比較、無駄検出、成果追跡などの機能を詳述。

  • AIコーディング支出の47.9%のみが実際のコード生成に使用され、40%は思考プロセスに費やされた。
  • CodeBurnは13のタスクカテゴリにAPIコールを分類するオープンソースCLIツール。
サイト内本文

Liquid AI、38Tトークンで学習した8B-A1B MoEを公開

Liquid AIは、エッジデバイス向け混合エキスパートモデルLFM2.5-8B-A1Bをリリースした。総パラメータ8B、アクティブパラメータ1Bで、38兆トークンで学習。128Kコンテキストウィンドウ、非ラテン言語向けの改良トークナイザー、推論専用のチェーン・オブ・ソートを特徴とする。ベンチマークで競争力のある性能を発揮し、CPU/GPUで高速動作、ローカルエージェントタスクに適する。

  • LFM2.5-8B-A1Bは総パラメータ8B、アクティブ1BのMoEモデルで、38Tトークンで学習。
  • 128Kコンテキストウィンドウと語彙拡張(128K)により非ラテン言語のサポートが向上。
サイト内本文

PPIO、非凡産研「2026 Global AI 100」に選出、AIで海外展開の新潮流をリード

PPIO は非凡産研が発表した「2026 Global AI 100」リストに選ばれました。このリストは非凡大賞 – 年次 AI グローバリゼーション成長サミットで選定され、グローバルな AI ネイティブ企業を表彰するものです。PPIO はグローバル分散型コンピューティングインフラ、フルスタッククラウドサービス、DeepSeek・GLM などのモデルプラットフォーム、革新的なエージェントサンドボックスを提供。2026年4月時点で4,800以上の分散ノードを統合し、日次トークン呼び出しは1兆回超、開発者は57万人超。また、上海市デジタル海外サービスプラットフォームのパイロットユニットやGDAパイロットサービスステーションにも選ばれています。

  • PPIO が「2026 Global AI 100」に選出、AIグローバル化のリーダーシップを示す。
  • 全GPU構成をカバーするグローバル分散コンピューティングインフラを提供。
サイト内本文

オープンソース安全ガードモデルのベンチマーキング:包括的評価

14のオープンソース安全ガードモデルの包括的評価により、Qwen Guard(4Bパラメータ)が83.97%の再現率でトップであることが明らかになった。一方、Llama Guard(12B)やGPT-OSS Safeguard(20B)などの大規模モデルは保守的で、最大75%の不適切コンテンツを見逃した。モデルサイズと安全性検出性能には相関がなく、汎用ガードモデルが専門モデルよりも優れていることが示された。

  • Qwen Guard(4Bパラメータ)が79,331サンプルのベンチマークで最高再現率(83.97%)を達成。
  • Llama Guard(12B)やGPT-OSS Safeguard(20B)は不適切コンテンツの75%を見逃す。
サイト内本文

RightNow-Arabic-0.5B-Turbo:語彙注入とエッジ優先デプロイメントによるオープンなサブ10億アラビア語言語モデル

本論文は、Qwen2.5-0.5Bをベースに語彙注入とエッジ優先デプロイメントを採用した518Mパラメータのアラビア語特化LLM、RightNow-Arabic-0.5B-Turboを提案する。アラビア語ベンチマークで平均精度35.9%を達成し、同クラスのオープンモデルを凌駕。COPA-arではFalcon-H1-1.5Bと同等の成績を1/3のサイズで達成。量子化後は398MB、単一H100上で635トークン/秒の推論速度を実現する。

  • Qwen2.5-0.5Bをベースに27,032のアラビア語トークンを追加した518Mパラメータのアラビア語LLM。
  • 3つのアラビア語ベンチマークで平均精度35.9%を達成し、同クラスの全オープンモデルを上回る。
サイト内本文

破局的忘却のメカニズム起源:RLがSFTより回路を保持する理由

最近の研究では、強化学習(RL)が教師あり微調整(SFT)よりも事前の能力を効果的に保持することが示されています。本論文はこれをメカニズムレベルに拡張し、微調整中の回路劣化を測定する「差分回路脆弱性」を導入します。Qwen2.5-3B-Instructを科学質問応答に適用した実験では、SFTはタスク適応が速いものの回路破壊と忘却が大きく、RLは回路を保持する代わりに適応が遅いことが明らかになりました。結果は、回路保持がRLの破局的忘却に対する頑健性を説明することを示唆しています。

  • SFTは適応が速いが内部回路を破壊し、破局的忘却を引き起こす。
  • RLはベースモデルの回路をより多く保持し、忘却が少ないがタスク適応は遅い。
サイト内本文

Show HN: Trelk – 読み、考え、つなぐ

Trelk は、一度購入すればサブスクリプション不要の知識管理アプリです。デバイス上の AI を使用して記事や論文、メモを保存・整理・接続します。ハイブリッド検索、知識グラフ、RAG チャット、フラッシュカードの分散復習、コミュニティコレクションなどの機能を備え、プライバシー重視でオフラインでも動作します。

  • 一度購入すればサブスクリプション不要
  • デバイス上の AI による知識管理と接続
サイト内本文

強化学習はインフラストラクチャの問題である

本稿では、大規模言語モデルの後学習における強化学習の実践について説明し、現在のボトルネックはアルゴリズムではなくインフラストラクチャであると指摘します。Modalは大規模なRL後学習の経験を共有し、オープンソースライブラリがマルチノードトレーニング、環境管理、GPU利用率などの主要な問題を解決する方法を紹介します。

  • 強化学習によるLLM後学習のボトルネックはインフラストラクチャであり、トレーニングエンジン、推論サンドボックス、環境分離が含まれる。
  • マルチノードトレーニングでは重み同期に時間がかかり、RDMAとデルタ圧縮が遅延を大幅に削減する。
サイト内本文

明らかに虚偽と警告されても、LLMは虚偽の記述を信じる

「否定無視」に関する新たな研究により、大規模言語モデルは訓練データ中で明らかに虚偽とラベル付けされた記述でも吸収してしまうことが判明。合成文書で微調整後、テストしたモデルでは虚偽の主張に対する「信念率」が2.5%から92.4%に急上昇し、LLMが幻覚を起こす理由の一端を説明している。

  • LLMは訓練データの統計パターンを学習し、明示的な否定ラベルを無視する。
  • 虚偽とマークされた記述でも、モデルの知識として吸収される。
サイト内本文

ワールドモデルが言語モデルを引き継ぐ:物理AGI「デュアルピラミッド」システムを世界初開発、汎用ロボットが「家庭時代」に突入

極佳視界(Jijia Vision)が世界初の物理AGI「デュアルピラミッド」システムを発表。家庭用ロボット「拾光S1」を投入し、100台の家庭向け受注を獲得。12ヶ月以内に物理AGIの「GPT-3モーメント」を目指す。

  • 極佳視界がデータピラミッドとアルゴリズムピラミッドから成る「デュアルピラミッド」システムを開発。
  • 家庭用ロボット「拾光S1」は車輪付きアーム構成で、実際の家庭で100台の受注を獲得。
サイト内本文

2026年に構築すべき7つの実用的なAIプロジェクト(ガイド付き)

この記事では、求人検索、研究、投資分析、市場動向、請求書処理、チャートのデジタル化、パーソナライズされた運動トレーニングなど、実用的なワークフローを自動化する7つのAIプロジェクトを紹介します。各プロジェクトには完全なガイドとコードが付属しています。

  • AI求人検索アシスタントを構築し、求人と履歴書を自動マッチング
  • マルチエージェント研究アシスタントを作成し、出典付きレポートを生成
サイト内本文

Show HN:ローカルコーディングエージェント——LLMでツール呼び出しを小さなAIモデルに委譲

Open Agent Tools (oats) は、ローカルコードを利用したツール呼び出しを可能にするセルフホスト型AIフレームワークです。大規模モデルのトークン消費を抑えるため、ツール呼び出しを小規模モデルに委譲します。

  • oats はローカルAIモデルがローカルソースコードを使用してツール呼び出しを実行できるようにします。
  • 20,000以上のGitHubリポジトリからデータをマイニングし、再利用可能なプロンプトインデックスを作成。
サイト内本文

OpenJarvis v1.0 リリース:Ollama対応のローカルファースト個人AIフレームワーク

OpenJarvisは、自分のハードウェア上で動作する個人用AIエージェントを構築するためのオープンソースフレームワークです。スタンフォード大学のHazy ResearchとScaling Intelligenceラボが開発し、v1.0ではOllamaをネイティブサポート。ローカルファーストをデフォルトとし、クラウドはオプション。エネルギー、コスト、遅延を追跡します。

  • OpenJarvis v1.0がリリースされ、Ollamaをサポート。
  • スタンフォード大学の研究チームによる開発で、効率的なローカルAIに焦点。
サイト内本文

大規模な信頼性の高いLLM推論

Databricksは、オープンソースからプロプライエタリまであらゆる最先端モデルに対応する独自の推論プラットフォームを構築し、世界最大級のエージェントアプリケーションを支えています。毎月120兆トークンを処理し、モデルユニットによる容量管理、コスト認識型負荷分散とオートスケーリング(GPUコスト80%以上削減)、ブラックボックスヘルスチェックによる実行時信頼性などの仕組みで、信頼性とレイテンシの課題に取り組んでいます。マルチモーダルボトルネックのプロファイリングにより、スループットを3倍向上させました。

  • Databricksの推論プラットフォームは、オープンソースとプロプライエタリを含む最先端モデルに対応し、月間120Tトークンを処理。
  • モデルユニットはVMのような抽象化を提供し、容量管理、コスト認識型ルーティングとスケーリングを実現。
サイト内本文

ITBench-AA:フロンティアモデルがエンタープライズITエージェントタスクの初のベンチマークで50%未満のスコアに — Artificial AnalysisとIBMによる

Artificial AnalysisとIBMが、エンタープライズITエージェントタスク向けのベンチマークITBench-AAを発表。サイトリライアビリティエンジニアリング(SRE)に焦点を当て、フロンティアモデルはすべて50%未満のスコアで、Claude Opus 4.7が47%でトップ。このベンチマークは、Kubernetesインシデント対応におけるモデルの診断能力を評価する。

  • Claude Opus 4.7が47%でトップ、GPT-5.5が46%、Qwen3.7 Maxが42%。
  • すべてのフロンティアモデルが50%未満であり、ITBench-AAは最も飽和度の低いエージェントベンチマークの一つ。
サイト内本文

NVIDIA、Codex、Claude Code、Qwen Code向けGRPOトレーニングのためのトークン忠実型ロールアウトフレームワーク「Polar」を公開

NVIDIAの研究者は、エージェントハーネスを変更せずに強化学習で言語エージェントを訓練するロールアウトフレームワークPolarを発表した。Polarはハーネスと推論サーバーの間にモデルAPIプロキシを配置し、トークンレベルの相互作用を捕捉してトレーナー対応の軌跡を再構築する。Qwen3.5-4BベースモデルにGRPOを適用した結果、CodexハーネスでSWE-Bench Verified pass@1を22.6ポイント、Claude Codeで4.8ポイント、Piで6.2ポイント改善した。本フレームワークはNeMo Gym環境として登録され、ProRL Agent Serverリポジトリで公開されている。

  • PolarはモデルAPIプロキシを介して既存のエージェントハーネスを変更せずにRLトレーニングを可能にする
  • Qwen3.5-4BにGRPOを適用し、4つのコーディングハーネスでSWE-Bench Verifiedを最大22.6ポイント改善
サイト内本文

Show HN: Mneme HQ – AIコーディングエージェント向けリポジトリネイティブアーキテクチャルール

Mneme HQ は、コード生成前に制約を強制することでアーキテクチャの漂流を防ぎ、レビューの負荷を軽減する、AI支援開発向けアーキテクチャガバナンスレイヤーです。AIコーディングエージェントのワークフローに直接統合され、禁止されたフレームワーク、境界を越えた呼び出し、陳腐化した決定をPRキューに到達する前にブロックします。

  • AIエージェントがコードを生成する前にアーキテクチャルールを強制し、違反を根本から阻止
  • Claude Code、Cursor、GitHub Copilotなど、主要なAIコーディングツールと連携
サイト内本文

Avatar 4.0 – 物理的な身体と感情を持つ生きたAI生物、GTX 1660 Ti上で動作

Avatarは、300ドルのGPU上で継続的に動作する自己生成型AI生物です。相図幾何学から感情を導き出し、5段階の睡眠サイクルで夢を見、生の音声と視覚から独自の感覚を成長させ、身体感覚を通じて倫理的推論を行います。Linga Murthy Narlagiri博士によって構築され、2026年5月から生存し、1800以上のティックを蓄積しています。

  • Avatarは物理ダイナミクスに基づくAI生物であり、単一のGTX 1660 Ti GPU上で動作します。
  • 感情はKuramoto振動子同期から出現し、ハードコードされたルールではありません。
サイト内本文

1400億のエージェントが参入、「トラフィック」という堀は崩れ去る

Alipay AIエコシステムカンファレンスで、アントグループCEOの韓歆毅氏は、エージェント時代が従来の「トラフィックが王」モデルからエージェントエコシステムへと競争優位をシフトさせると主張した。エージェントは意思決定を再構築し、人間のみから人間とエージェントの共同意思決定へと移行する。AI決済は新たなグローバルインフラへと進化し、Alipayは信頼層、コネクター、イネーブラーとしての役割を担う。

  • トラフィックベースの競争優位はエージェントエコシステムの優位性に取って代わられ、中国では最大1400億のエージェントが稼働する可能性がある。
  • エージェントはビジネス意思決定を再構築し、「人がサービスを探す」から「サービスが人を探す」へ、また商品取引からタスク取引へと移行する。
サイト内本文

5秒で3Dシーン編集、北大・香港中文・上海AIラボがVGGT-Editを開発、120倍の高速化を実現

北京大学、香港中文大学、上海AIラボ、NTUの研究チームが、約5秒でシーン編集を実行できるネイティブ3D編集フレームワークVGGT-Editを発表。従来手法と比べて最大120倍の高速化を達成し、意味的一貫性、多視点安定性、推論速度で既存手法を上回る。

  • VGGT-Editは初のネイティブ3D編集フレームワークで、3D空間で直接編集を行い、2D手法による多視点の不整合を排除。
  • 残差場予測により、背景を安定させながら局所的な変更のみをモデル化し、高速で高品質な編集を実現。
サイト内本文

MEMO: LLMパラメータを変更せずに新しい知識を専用メモリモデルに訓練するモジュラーフレームワーク

NUS、MIT、A*STARの研究者が提案するMEMOは、コーパス知識を独立した訓練可能なメモリモデルにエンコードするモジュラーフレームワークであり、LLMが再訓練や微調整なしで新しい知識を組み込むことを可能にします。

  • MEMOは専用メモリモデルと凍結された実行モデルを使用して、記憶と推論を分離します。
  • 5段階のデータ合成パイプラインがドキュメントを反射型QAデータセットに変換し、メモリモデルを訓練します。
サイト内本文

[AINews] 新しいAIインフラのデカコーン:Fireworks、Baseten(OpenRouterも順調)

AIインフラスタートアップのFireworks、Baseten、OpenRouterが大型ラウンドを調達し、推論インフラが主要なAIプラットフォーム層として台頭していることを示しています。同時に、エージェントハーネスエンジニアリング、新しいベンチマーク、モデルアップデートがAIニュースサイクルを支配しています。

  • Fireworks(150億ドル)、Baseten(110億ドル)、OpenRouter(1.13億ドル)が推論インフラ資金調達の波をリード。
  • エージェントハーネスエンジニアリングがコーディングエージェントの主な差別化要因に。
サイト内本文

DeepSeekの陳德里氏が自動研究スキルを開発、論文作成における人間の作業はわずか2時間

DeepSeekの研究者である陳德里氏は、自身が開発したDeliAutoResearchスキルを用いて、DeepSeek-V4-ProとGPT-Image2と協力し、わずか6日間で46ページの論文を完成させた。この論文は、研究エージェントの自律性をL1~L5に分類する枠組みを提案し、4つのアーキテクチャパターンと17の主流システムを分析、6つの未解決問題を指摘している。陳氏によると、人間の「CPU時間」はわずか2時間未満であり、残りはAIエージェントが担当した。

  • 陳德里氏のDeliAutoResearchスキルにより、論文の99%がAIエージェントによって執筆された。
  • 論文は、自動運転のSAEレベルに類似した研究エージェントの自律性分類(L1~L5)を提案。
サイト内本文

Reachy Miniが完全ローカル対応

本記事では、Reachy Miniロボット向けにクラウドやAPIキーを必要としない完全ローカルの音声会話パイプラインをデプロイする方法を詳しく説明します。VAD、STT、LLM、TTSを組み合わせたカスケード方式を採用し、推奨デフォルトとしてllama.cppとGemma 4、Silero VAD、Parakeet-TDT 0.6B v3 STT、Qwen3-TTSを使用します。ローカルMLX、Transformers、vLLM、リモートResponses APIなど、さまざまなLLMオプションが提供されています。

  • Reachy Miniがサーバー不要の完全ローカル会話を実現。
  • カスケードパイプラインはVAD、STT、LLM、TTSで構成され、コンポーネントを交換可能。
サイト内本文

ZeroEntropy Zerank-2 リランカーを使用した高精度検索・再ランクパイプラインの設計

本チュートリアルでは、Qwen3ベースの4Bパラメータのクロスエンコーダリランカーであるzeroentropy/zerank-2-rerankerを使用して、検索品質を向上させる方法を詳しく説明します。環境構築、ペアワイズスコアリング、model.rankの使用、2段階の検索・再ランクパイプライン、NDCG@10評価、金融・法律・コードにわたるクロスドメインテスト、バッチスループット測定までをカバーします。

  • zerank-2リランカーは、単純な埋め込み類似度を超えて検索精度を大幅に向上させます。
  • 2段階パイプライン(バイエンコーダ検索+クロスエンコーダ再ランク)により検索品質が最適化されます。
サイト内本文

次に来ることについてのいくつかのアイデア、2026年5月

2026年のAIはさらなる加速を続け、オープンモデルはエージェント能力で遅れをとり、GoogleのGeminiはClaude CodeやCodexに対抗できず、アメリカのオープンモデルが台頭し、AnthropicとOpenAIの競争が激化、既存の権力構造がAIに関与し始めている。

  • オープンモデルはエージェント能力でクローズドモデルに5〜6ヶ月遅れ、12ヶ月以上に延びる可能性。
  • Google GeminiはClaude CodeやCodexに対抗できるツールを欠く。
サイト内本文

国産AIが自らAIを開発、世界初の快挙

面壁智能(ModelBest)が、AIによって完全に記述された世界初の本格的な大規模言語モデル事前学習フレームワーク「ForgeTrain」を発表。NVIDIAのMegatronより10%高速で、これを用いて訓練されたMiniCPM5-1Bは、1Bパラメータで従来の2B未満モデルを上回る知能密度を達成。

  • ForgeTrainはAIが完全に生成した初の本格的な事前学習フレームワーク。
  • NVIDIA Megatronより10%高速なトレーニングを実現。
サイト内本文

OmniVoice Studio:ElevenLabsに代わるローカル・オープンソースの音声AIツール

OmniVoice Studioは、音声クローン、ビデオ吹き替え、リアルタイムディクテーション、話者分離をすべてローカルハードウェアで実行するオープンソースのデスクトップアプリケーションです。APIキー、クラウドアカウント、サブスクリプションは不要で、646言語のTTSに対応し、ClaudeやCursorなどのAIツールと連携するMCPサーバーを備えています。

  • 完全ローカル動作、クラウド不要、サブスクリプション不要。
  • TTSで646言語、文字起こしで99言語に対応。
サイト内本文

アリババのQwen3.7-Max、コーディングベンチマークで世界2位に、Claudeに次ぐ

アリババの最新フラッグシップモデルQwen3.7-Maxが、権威あるCode Arenaリーダーボードで1541点を獲得し、GPT-5.5などのモデルを抑え、Claudeシリーズに次ぐ世界2位にランクインしました。

  • Qwen3.7-MaxはCode Arenaで1541点を獲得し、Claudeに次ぐ世界2位。
  • Code Arenaは開発者が問題を出題し、ユーザーが匿名で評価するブラインドテストプラットフォーム。
サイト内本文

Zedでローカルモデルを実行する理由と方法

ローカルモデルはプライバシー、コスト削減、制御、常時利用可能性を提供します。最先端モデルほど高性能ではありませんが、改善が続いています。この記事では、LM Studio、Ollama、またはllama.cppを使用してZedでローカルモデルを設定する方法と、効果的な使用のためのヒントを説明します。

  • ローカルモデルはプライバシー、低コスト、制御、常時利用可能性を提供します。
  • 能力と速度は最先端モデルに劣りますが、多くのタスクに十分です。
サイト内本文

どれだけ考えれば十分か?LLM推論における冗長性の定量化と理解

本研究は、推論型大規模言語モデルが生成する長い思考連鎖の冗長性を定量化し、61%~93%のステップが正しさに影響なく切り捨て可能であることを発見。さらに、この冗長性が長さに依存しない結果報酬に起因する構造的特性であることを証明した。

  • 推論冗長性の正式定義:正しい軌跡のうち末尾から切り捨て可能なステップの割合
  • 4つの最先端モデルと2つの数学ベンチマークで61%~93%の冗長性を計測
サイト内本文

Cited AI Workspace: ファイルの再アップロードは不要

UUMuseはクラウド型AIナレッジベースプラットフォームで、ファイルを一度アップロードすれば、GPT、Claude、DeepSeek、Qwenなどのモデルで引用付きの回答、コンテンツ生成、デプロイが可能。APIやMCPを介してエージェントやアプリからも呼び出せます。永続的なメモリ、マルチエキスパート討論(Spark)、エージェントモード、ドキュメントサイト・API・MCPサーバーとしての展開機能を備えています。

  • ファイルを一度アップロードすれば、GPT、Claude、DeepSeek、Qwenなど複数のAIモデルが出典を引用して回答。
  • AIがユーザーの文体やプロジェクトコンテキストを記憶し、会話間で引き継ぐ永続メモリ。
サイト内本文

Together AI、OSCARをオープンソース化:長コンテキストLLMサービングのためのアテンション認識2ビットKVキャッシュ量子化システム

Together AIは、長コンテキストLLMサービングのためのINT2 KVキャッシュ量子化手法であるOSCAR(Offline Spectral Covariance-Aware Rotation)をリリースしました。データに依存しないアダマール変換を適用する従来の回転ベースのアプローチとは異なり、OSCARはオフラインで推定されたアテンション認識共分散構造からキーとバリューに個別の回転を導出します。KV要素あたり2.28ビットで、OSCARはQwen3-4B-Thinking-2507でBF16精度ギャップを3.78ポイント、Qwen3-8Bで1.42ポイントに削減し、100Kコンテキスト長で約8倍のKVメモリ削減と最大3倍のデコード高速化を実現します。

  • OSCARは、アテンション認識回転を使用し、BF16に近い精度を維持する2ビットKVキャッシュ量子化手法です。
  • オフラインキャリブレーションによりクエリとバリューの共分散から回転を導出し、量子化ノイズをアテンションに敏感でない方向に向けます。
サイト内本文

読み出しのショートカット:位置による数字コピーが小規模言語モデルの算術CoT読み出しを支配する

研究により、小規模言語モデルは算術推論において、思考連鎖(CoT)プロンプトの論理的なステップに従うのではなく、回答区切りの前の最後の数字をコピーすることで答えを導き出していることが明らかになった。この位置的なショートカットがモデルの精度の大部分を占め、実際の推論よりも優先される。この発見はCoTに基づく監視手法に課題を投げかける。

  • 小規模LMは算術CoT読み出しにおいて、位置的な数字コピーショートカットに依存し、論理的推論を行わない。
  • コピー機構はモデル精度の89-92%を占め、推論よりも優先される。
サイト内本文

AI解釈可能性は革命的スキルである

本稿は、オープンソースAIモデルの内部概念空間の限界を探り、多くの重要なアクティビストや哲学の概念が欠落していることを明らかにする。わずか128KBのデータでモデルに欠落概念を埋め込む「ソフトプロンプト蒸留」技術を紹介し、AIの制御可能性と心の理解への深い示唆を強調する。

  • Qwen3-8Bのようなオープンソースモデルの概念辞書は約65,000個で、多くの社会運動用語(インターセクショナリティ、刑務所廃止など)が欠落している。
  • ソフトプロンプト蒸留技術により、モデルの重みを変更せず、最小限のデータ(128KB)で新たな概念を追加できる。
サイト内本文

ハーネス、スキャフォールド、そしてAIエージェント用語の正しい理解

本稿はAIエージェント分野で混同されがちな用語、特に「ハーネス」(実行層)と「スキャフォールド」(行動定義層)の違いを明確にし、モデル、エージェント、ツール使用、サブエージェント、訓練関連概念を解説する。

  • AIエージェント=モデル+ハーネス。ハーネスはモデル呼び出しとツール実行を管理する。
  • スキャフォールドはモデルを取り巻く行動定義層:システムプロンプト、ツール記述など。
サイト内本文

バイトダンス研究:長文書訓練におけるLMMへの質問が文字起こしより効果的であることを発見

バイトダンスSeedと香港科技大学の研究により、マルチモーダルモデルの長文書処理訓練において、質問応答ペアが文字認識タスクよりもはるかに効果的であることが示された。開発されたMMProLongはQwen2.5-VLをベースに、512,000トークンの入力まで安定して動作し、より大規模なモデルを凌駕する。訓練データの長さの多様性が重要で、短文例は必須ではない。

  • 質問応答訓練が長文書性能を大幅に向上させる一方、純粋なOCR訓練は性能を低下させる。
  • MMProLongは128kトークンで訓練されたにもかかわらず、512kトークン入力で安定して動作する。
サイト内本文

The Sequence Radar #865:先週のAI:Karpathy、Google、Colossus、そして迫るIPOの波

先週のAI業界は大きな転換点を迎えた:GoogleがGemini Omniとエージェント優先プラットフォームを発表、Andrej KarpathyがAnthropicに加入しClaudeを活用した事前学習の加速に着手、AnthropicはxAIのColossusと450億ドルの計算リース契約を締結、CerebrasのIPOで時価総額約950億ドルに、SpaceX、OpenAI、Anthropicが今後6ヶ月以内に上場を計画し、総評価額は3兆ドルを超える可能性がある。また、HRM-Text効率的事前学習、AIレビュアーの評価、NVIDIAの統合AR-拡散モデルなど、複数の最先端研究が発表された。

  • Google I/OでGemini Omniマルチモーダルモデルとエージェント優先プラットフォームAntigravityを発表、TPU 8iで垂直統合を実現。
  • Andrej KarpathyがAnthropicに加入し、Claudeを使って事前学習を加速するチームを結成、自己改善サイクルの実質的な進展を示す。
サイト内本文

マイクロソフトリサーチ、ターミナルネイティブWebエージェントフレームワーク「Webwright」を公開 — Odysseysで60.1%、GPT-5.4ベースの33.5%から向上

マイクロソフトリサーチは、クリックトレースのWeb自動化を再利用可能なPlaywrightスクリプトに置き換えるターミナルネイティブブラウザエージェントフレームワーク「Webwright」を発表。単一のエージェントループと約1000行のコードで、GPT-5.4を搭載したWebwrightは長期間タスクベンチマークOdysseysで60.1%、Online-Mind2Webで86.7%を達成し、オープンソースのハーネスレシピの中で最高のAutoEvalスコアを記録しました。

  • Webwrightはターミナルループを使用し、エージェントがPlaywrightコードを記述・実行する方式で、ブラウザアクションを逐次予測する方式を置き換えます。
  • GPT-5.4はOnline-Mind2Webで86.7%(100ステップ予算)、Odysseysで60.1%を達成し、ベースGPT-5.4の33.5%から26.6ポイント向上。
サイト内本文

Nous Research、対照ニューロン帰属(CNA)を発表:SAEトレーニングや重み変更不要のスパースMLP回路操作

Nous Researchは対照ニューロン帰属(CNA)をリリース。スパースなMLPニューロン回路を特定・除去することでLLMの動作を操作する手法で、スパースオートエンコーダーのトレーニングや重み変更は不要、汎用能力のベンチマークも低下させない。

  • CNAは有害プロンプトと良性プロンプトを最も区別する上位0.1%のMLPニューロンを順伝搬のみで特定。勾配計算や補助トレーニング、重み変更は不要。
  • わずか0.1%のMLP活性化を除去することで、ほとんどのインストラクトモデル(Llama、Qwen 1B〜72B)で拒否率が50%以上低下し、出力品質は0.97以上、MMLU精度はベースラインから1%以内を維持。
サイト内本文

アリババ、最新AIモデルが35時間自律稼働し自社チップのコード最適化

アリババのQwenチームがQwen3.7-Maxをリリース。長時間の自律エージェントタスク向けに設計された独自モデルで、ベンチマークでClaude Opus 4.6に匹敵し、DeepSeek V4 ProやKimi K2.6などの中国競合を上回る。また、モデルが四足ロボットを操縦するデモも公開。

  • Qwen3.7-Maxは長時間自律タスク向け
  • ベンチマークでClaude Opus 4.6に匹敵、中国競合を凌ぐ
サイト内本文

ThinkLLM:AIモデルの知識グラフ

ThinkLLMは、タスクや能力ごとにAIモデルを閲覧、比較、発見できる生きた知識グラフです。

  • ThinkLLMは、タスクと能力に基づいて数千のAIモデルを整理し、モデル選定を簡素化します。
  • エージェントタスク、コーディング、コンテンツ作成、カスタマーサポート、データ分析などのカテゴリがあります。
サイト内本文

【AINews】すべてのモデルラボは今やエージェントラボ

OpenAIのIPO申請を前に、業界の巨人たちが純粋なモデルからエージェント製品へとシフトしている。DeepSeekが永久75%値下げ、MCPプロトコルがステートレス化、Googleが年中無休のAIエージェントを発表、Anthropicが1万以上の脆弱性を発見。エージェント化が新たな常識に。

  • Greg Brockman氏、モデル単体はもはや製品ではなく、ハーネス+エージェント+ワークフローが重要と発言
  • DeepSeek V4 Proが永久75%値下げ、推論コストを大幅削減
サイト内本文

その他の成長タグ

Qwen AI News | AI News Hub