AI News HubLIVE

中国 AIの最新ニュース

Moonshot AI、ローカルデスクトップエージェント「Kimi Work」を発表 – Kimi K2.6で300のサブエージェントによるスウォームを実行

Kimi WorkはMoonshot AIが開発したローカルデスクトップAIエージェントで、macOSとWindowsに対応。ユーザーのマシン上で最大300のサブエージェントからなるスウォームを実行し、WebBridgeを介してログイン済みのブラウザを操作し、内蔵cronエンジンでタスクをスケジューリングする。基盤モデルはKimi K2.6(MoE、約320億活性パラメータ、256Kコンテキスト)。ローカルファイルやPythonスクリプトにもアクセス可能で、データはユーザーのデバイスに留まる。

  • Kimi Workはクラウドではなくローカルで動作し、ユーザーのファイルやブラウザセッションに直接アクセスする。
  • 最大300のサブエージェントを並列実行可能なスウォーム機能を搭載。
サイト内本文

Pythagoras-Prover: Augmented Lean Formalisationによる効率的な形式証明の進展

Pythagoras-Proverは、4Bおよび32Bの自己回帰モデルと4Bの拡散モデルからなる、計算効率の高いLean定理証明器ファミリーです。段階的なカリキュラムSFTと動的証明フィルタリングにより訓練効率を向上させ、Augmented Lean Formalisation(ALF)を導入して検証コーパスを拡張します。実験では、4BモデルがMiniF2F-TestでDeepSeek-Prover-V2-671Bを上回り(86.1% vs 82.4%)、32Bモデルが93.0%でオープンソースの最高記録を達成し、PutnamBenchで93問を解決しました。

  • Pythagoras-Proverは4Bおよび32Bの自己回帰モデルと、推論時に証明を反復的に洗練する4B拡散モデルを含む。
  • 難易度別に層別されたデータを用いたカリキュラムSFTと、8kトークンコンテキスト内での動的証明フィルタリングにより訓練効率を向上。
サイト内本文

パキスタン通知ヘルパーの構築:ローカルな安全問題のための小さなAIツール

著者はHugging FaceのBuild Smallハッカソン向けに、パキスタンのローカルな安全性問題に焦点を当てたAIツール「パキスタン通知ヘルパー」を開発しました。このツールは小規模モデル(Qwen3.5 4B)を使用して不審なメッセージを分析し、リスクラベル、説明、安全な次のステップを提供します。英語とウルドゥー語に対応し、ウルドゥー語モードでは右から左へのレイアウトとウルドゥー語による評価を生成します。記事ではモデル選定、プロンプト、ウルドゥー語UI、Codexを使った迅速な開発に関する教訓を共有しています。

  • パキスタン通知ヘルパーは、パキスタンにおける不審なメッセージを対象としたローカルAI安全ツールで、テキストとスクリーンショットに対応。
  • 最終モデルはllama.cppによるQwen3.5 4B Q8で、高リスク詐欺ケースとスクリーンショットケースのすべてを合格。
サイト内本文

Moonshot AI、評価額300億ドルを目標—2025年末比6倍以上

Kimiチャットボットを手がける中国企業Moonshot AIが、新たな資金調達ラウンドで最大300億ドルの評価額を目指している。これは2025年末の評価額の6倍以上にあたる。

  • Moonshot AIは評価額300億ドルを目標。
  • 2025年末比で6倍以上の評価額。
サイト内本文

Seedream 5.0 画像と動画——オールインワンAI創作プラットフォーム

ByteDanceのフラッグシップAI画像モデルSeedreamがKling 2.1動画アニメーションを統合し、テキストから画像、画像から動画への完全な創作フローを提供。4つのバージョンをワンクリックで切り替え可能、無料トライアルあり、Eコマースやソーシャルメディアに最適な柔軟な価格設定。

  • Seedream 4.5/5.0/5.0 Lite/4.0の4バージョンをワンクリックで切替可能
  • 生成した画像をKling 2.1で5~15秒の動画に直接変換
サイト内本文

一貫性駆動型強化学習による言語横断的事実想起の改善

大規模言語モデルは主に英語データで訓練されるため、多言語での事実想起に課題がある。本論文では、12言語にわたる10万件のWikidata事実を含む大規模並列多言語事実QAデータセットPolyFactを導入。Qwen-2.5-7BとOLMo-2-1124-7Bを用いて、軽量継続事前学習、教師ありファインチューニング、GRPOベースの強化学習を比較。GRPOが一貫して優れ、言語間の一貫性と未学習言語への汎化を向上。メカニズム分析により、GRPOがMLP層とアテンションヘッドの言語特化を減らし、共有表現を促進することが示された。コード、モデル、データセットを公開。

  • PolyFactデータセット:12言語にわたる10万件のWikidata事実を含む。
  • GRPO強化学習が教師あり学習や継続事前学習を上回る。
サイト内本文

アメリカAIのOnlyFans経済

アメリカのAI業界に対する痛烈な批判。AnthropicやOpenAIなどの企業が過大評価され、高額な料金を請求している一方、中国のオープンソースモデルであるQwen 3.7 Maxが優れた性能とコスト効率を提供していると論じる。著者はこの現象を「OnlyFans経済」と呼び、投資家や企業が盲目的にAI企業を崇拝することでバブルが発生していると警告する。

  • 著者はAnthropicやOpenAIの偽善と傲慢を批判している。
  • 中国のQwen 3.7 Maxは実用的な面でアメリカの最先端モデルを凌駕している。
サイト内本文

HN に投稿: 5090 に最適なローカル LLM セットアップ(llama.cpp フォーク + turboquant)

この記事では、llama.cpp の TurboQuant フォークと YaRN スケーリングを使用して、単一の 32GB VRAM GPU(NVIDIA RTX 5090)上で Qwen 3.6 35B MoE モデルを 450,000 トークンのコンテキストウィンドウで実行するための構成とメモリキャリブレーションについて詳しく説明します。モデルの選択、量子化のトレードオフ、KV キャッシュ量子化、RoPE スケーリング、マルチモーダル設定、複製ガイド、VRAM ライフサイクル管理、パフォーマンス評価をカバーしています。

  • llama.cpp の TurboQuant フォークと YaRN スケーリングを使用し、RTX 5090 上で Qwen3.6-35B-A3B-Q6_K モデルを 450K コンテキストで実行。
  • KV キャッシュを 3 ビット(turbo3)に圧縮し、YaRN でネイティブの 262K を超えて RoPE を拡張することで 450K コンテキストを実現するが、パープレキシティと検索精度の低下が伴う。
サイト内本文

5つのラボ、5つの思考:小型モデルで構築するマルチモデル金融ドラマ

本記事は、第2回Build Small Hackathonのフィールドレポートであり、「Thousand Token Wood」v2版について説明しています。このバージョンでは、森に住む5匹の生き物のエージェントがそれぞれ異なる小型言語モデル(OpenAI、OpenBMB、NVIDIA、および微調整済みQwen)によって駆動され、プレイヤーは影のフィナンシエとして融資、内部情報の提供(真偽あり)、空売り、賄賂、同盟の仲介を行います。記事では、サービング層の異種性(vLLM、CUDAツールキット)、モデルごとの癖、寛容なJSONパーサー、内部情報の秘密フラグがエージェントのプロンプトに漏れるのを防ぐファイアウォールなど、エンジニアリング上の課題について詳述されています。永続的なメモリはプロンプトの肥大化を避けるため、生の履歴ではなくバウンデッドサマリーで管理されます。結果は漏洩ゼロ、微調整済み0.5Bモデルの高い信頼性、異種エージェントからの創発的な行動を示しています。主な教訓:小型モデルは信頼できるフォーマット生成器だが推論は信頼できない;異種性は管理可能なコストで価値を追加する;秘密情報はデータフローレベルのファイアウォールを必要とする;バウンデッドメモリは推論を損なわずにエージェントを生き生きとさせる。

  • 各エージェントが異なるラボの小型モデルを使用し、市場行動がよりリアルで創発的になる
  • 情報非対称性はファイアウォール設計で保護され、内部情報のフラグがエージェントのプロンプトに漏れないことがテストで証明されている
サイト内本文

ジョブサーチャー:AIによる就職活動支援ツール

ジョブサーチャーは、新卒者のためのAI搭載求人検索アシスタントです。履歴書を分析し、LinkedIn検索クエリを自動生成し、スキル、経験、学歴、業界、年次ごとの適合度を5次元で評価します。教師モデルにDeepSeek V4 Pro、生徒モデルにQwen3-8Bを使用し、2,500件の履歴書と約10,000件の求人データで学習。オープンソースでHuggingFace Spaces上で利用可能です。

  • 履歴書を基にしたLinkedIn検索クエリの自動生成と多次元スコアリング
  • DeepSeek V4 Pro(教師)とQwen3-8B(生徒)のモデル構成
サイト内本文

新しいオープンソース音声モデルはノンストップでリスニングし、0.4秒ごとに発話するか沈黙するかを判断する

GPT-4oやQwen3.5-Omniとは異なり、Audio Interactionは録音の終了を待たず、翻訳、文字起こし、チャット、咳などの日常的なノイズを単一ストリームで処理します。コード、モデル重み、ダウンロード手順はGitHubでApache 2.0ライセンスで公開されており、トレーニングデータは後日提供予定です。

  • Audio Interactionモデルはオーディオストリームを継続的にリスニングし、0.4秒ごとに判断を下す。
  • 翻訳、文字起こし、チャット、日常ノイズ認識を単一ストリームで実行可能。
サイト内本文

OpenClaw は公の場でより安全になった

OpenClaw はオープンソースの AI エージェントプロジェクトであり、透明性とコミュニティの貢献によりセキュリティを大幅に向上させました。多くの誤った脆弱性報告に直面しながらも、実際のバグを修正し、プラットフォームを強化し、NVIDIA、Microsoft、Tencent などの企業とのパートナーシップを通じて本番環境に適したものにしました。

  • オープンソースであることで迅速なセキュリティ改善が可能になった。
  • 1,300 件以上のセキュリティ勧告を受けたが、そのほとんどは誤検出だった。
サイト内本文

電気通信カスタマーサポートのためのSLMのPEFT:LoRA構成とエネルギー消費分析の比較研究

低ランク適応(LoRA)をQwen2.5-3Bに適用したパラメータ効率的ファインチューニング(PEFT)の体系的研究で、電気通信カスタマーサポート向けのドメイン固有対話アシスタントを構築。組み合わせ型合成データ生成手法を導入し、16のLoRA構成を評価。定量的検証損失と定性的ヒトアライメント評価の乖離を明らかにし、エネルギー-パフォーマンストレードオフ分析を提供。

  • 52の業界用語を用いた組み合わせ型合成データ生成により、1,560の異なる問題シナリオにわたる約30,000のトレーニング例を作成。
  • 16のLoRA構成の評価では、最低検証損失(0.5024)は定性的評価で6-7位に留まり、最高損失(0.6807)が両評価者から1位と評価。
サイト内本文

分散認識ルーブリック報酬とGRPOを用いたLLMにおける心臓関連医療質問応答の改善

本研究では、グループ相対方策最適化(GRPO)と分散認識報酬フレームワークを組み合わせ、心臓関連医療質問応答に特化したLLMの後学習を提案する。従来の二値基準集約や単一のLikertスコアリングを連続的な分析報酬関数に置き換え、より豊富な最適化信号を提供する。HealthBenchの心臓サブセットにおいて、最良のGRPO変種はQwen3-14Bベースモデルに対して精度を0.362から0.502、F1を0.532から0.668に向上させ、GPT-OSS-120Bと競合する性能を示した。

  • GRPOを用いた分散認識報酬フレームワークを提案し、心臓医療QAの後学習に適用。
  • 二値基準集約とLikertスコアリングを連続分析報酬関数に置き換え、最適化信号を強化。
サイト内本文

大規模言語モデルにおける時間選好概念とその機能

研究者らは、蒸留大規模言語モデル(Qwen3-4B-Instruct-2507)において時間選好を司る神経サブグラフを特定し、モデルが人間よりも将来を割り引く程度が低いこと、この選好が文脈によって不安定であること、そしてステアリングベクトルで調整可能であることを発見した。

  • 中上位層の時間選好サブグラフを特定
  • 時間地平の幾何学が残差ストリームに符号化
サイト内本文

DeepSWE の結果は信頼できない – 同一モデルで 3/3 の「失敗」タスクを解決

DeepSWE ベンチマークの監査により、deepseek-v4-pro の報告結果(解決率 8%、平均コスト 4.22 ドル)が複数の問題により無効であることが判明:キャッシュ価格設定を無視した結果コストが約 5 倍に膨らみ、報告された 3 つの失敗タスクすべてが同一モデルで解決され、OpenRouter のプライバシー設定が DeepSeek をデフォルトでブロックし、モデルに推論努力の調整が行われていませんでした。

  • コストが約 5 倍に膨張:ベンチマークは全入力トークンをキャッシュミス率で課金し、78% のキャッシュヒット(99.2% 割引)を無視。
  • 3 つの「失敗」タスクすべてを同一モデル deepseek-v4-pro で解決、総コスト約 0.86 ドル。
サイト内本文

SMAC-Talk: 大規模言語モデルのためのStarCraftマルチエージェントチャレンジの自然言語拡張

SMAC-Talkは、StarCraftマルチエージェントチャレンジを自然言語で拡張し、LLMベースのエージェントの協調マルチエージェント環境での評価を可能にします。環境は分散制御、部分観測可能性、長期的意思決定などの特徴を持ち、自然言語通信チャネルを通じてエージェントの協調と信頼を調査します。欺瞞的な通信者が組み込まれたシナリオも含まれ、Qwen3.5ファミリーの4つのモデルを用いたベンチマークで、推論構造、記憶、モデル規模が協調に与える影響が研究されています。オープンベンチマークとして公開され、研究コミュニティの発展を支援します。

  • SMAC-Talkは、StarCraftマルチエージェントチャレンジに自然言語通信チャネルを導入。
  • 分散制御、部分観測可能性、長期的意思決定をサポート。
サイト内本文

SFTとDPOによるAmazon SageMaker AI上でのエージェントのツール呼び出し精度向上

この記事では、教師あり微調整(SFT)と直接選好最適化(DPO)を組み合わせて、小規模言語モデル(SLM)のツール呼び出し精度を向上させる方法を学びます。例としてAmazon SageMaker AIトレーニングジョブを使用し、Qwen3 1.7BモデルとWhen2Callデータセットをベースに微調整を行います。環境設定、データ準備、トレーニング、評価プロセスについても説明します。

  • 教師あり微調整(SFT)と直接選好最適化(DPO)の組み合わせにより、エージェントのツール呼び出し精度が向上。
  • Amazon SageMaker AIトレーニングジョブを使用し、インフラ管理不要。
サイト内本文

Qwen 3.7 Plus:アルibabaの高知能だが高価で低速なモデル

Qwen 3.7 Plusは、2026年6月にリリースされたAlibabaの独自推論モデルで、Artificial Analysis Intelligence Indexで53点を記録し、平均を大幅に上回っています。しかし、高価で低速、かつ非常に冗長です。テキスト、画像、動画の入力に対応し、コンテキストウィンドウは100万トークンです。

  • 知能スコア53点で、類似モデルの平均23点を大きく上回る。
  • 入力価格は100万トークンあたり0.40ドル、出力価格は1.16ドルで高価。
サイト内本文

DigitalOceanがOpenRouterのAIモデルプロバイダーに

DigitalOceanはXへの投稿で、OpenRouterのモデルプロバイダーとなり、DeepSeek V3.2、Kimi K2.6、DeepSeek V4 Flashを提供すると発表した。この動きは、同社がクラウドインフラからAI推論へと事業を拡大していることを示している。

  • DigitalOceanがXでOpenRouterのモデルプロバイダーになると発表
  • 最初のモデルはDeepSeek V3.2、Kimi K2.6、DeepSeek V4 Flash
サイト内本文

リニアプローブは言語モデルの隠れ状態における推論モードではなくタスク形式を検出する

Qwen3-14Bの隠れ状態をプロービングした研究により、リニアプローブが推論タイプ(演繹、帰納、アブダクション)を100%の精度で分類できるように見えても、実際にはタスク形式の交絡因子(ソース、選択肢数、応答長)を検出していることが示された。交絡を除去すると精度は偶然レベルに低下し、因果操作実験でも機能的な関連は見られなかった。この発見は、メカニスティック・解釈可能性において日常的なタスク形式の交絡除去を促す。

  • リニアプローブはLLMの隠れ状態で推論タイプを100%の精度で区別できる。
  • ソースや選択肢数などのタスク形式の交絡因子を制御すると、精度は偶然レベルに低下する。
サイト内本文

Dropstone 1.5:月額15ドルでClaude Codeの2倍の使用量

Dropstone 1.5はターミナルで動作するAIコーディングエージェントです。毎月トップモデルをテストし、最良のものに切り替えます。現在はDeepSeekとKimiモデルを採用し、米国サーバーでホスト、データは保存しません。月額15ドルで週約450回の深いコーディングセッションを提供し、Claude Code Pro(20ドル)の約2倍の使用量です。安全性を重視し、全操作に許可が必要です。

  • 月額15ドルで週約450回の深いコーディングセッション、Claude Code Proの2倍。
  • DeepSeek V4 Flash、V4 Pro、Kimi K2.6モデルを使用、米国サーバーでホスト、データ保存なし。
サイト内本文

Titan Network、クラウドソースされた家庭用デバイスでアジアのAIデータ市場の5%を獲得したと主張

Titan Networkは、消費者が所有する接続デバイスの未使用計算能力を集約し、従来のプロバイダーよりも最大75%低いコストでAI企業にインフラを提供する分散型クラウドを展開しています。同社の顧客にはTencent、Alibaba、Kling AIが含まれ、Webスクレイピングやコンテンツ配信などの企業データタスクからの収益の80%をデバイスや帯域を共有する個人に支払っています。Titanは一般市民に焦点を当て、アジアのAIデータ市場の約5%を獲得したと主張しています。

  • Titan Networkは家庭用デバイスの未使用計算能力を集約し、分散型クラウドを実現。
  • 従来のプロバイダー比で最大75%のコスト削減を実現。
サイト内本文

アリババのQwenチーム、Qwen3.7-Plusを発表:百連プラットフォームで視覚、深層推論、ツール呼び出し、自律的反復を追加

アリババクラウドのQwenチームは、マルチモーダル大規模言語モデルQwen3.7-Plusをリリースしました。画像や動画を理解し、深層推論、自己プログラミング、ツール呼び出し、検証・テスト、自律的反復といったエージェント機能を備えています。プレビュー版はVision Arenaで16位、アリババは視覚分野のラボとして5位にランクインしました。

  • Qwen3.7-Plusはアリババクラウドの百連プラットフォーム上のマルチモーダルエージェントモデルで、画像と動画を理解する。
  • 深層推論、自己プログラミング、ツール呼び出し、検証・テスト、自律的反復の5つのエージェント機能を追加。
サイト内本文

SENSE: 検索ベース投機的復号のためのセマンティック埋め込みナビゲーションとソフトゲート評価

ターゲットモデルの隠れ状態を用いた意味的検索とソフトゲート評価により、検索ベース投機的復号のロバスト性と効率を向上させるSENSEを提案。LLaMAおよびQwenファミリーで最大4.09の平均受理長と3.26倍の高速化を達成。

  • SENSEはターゲットモデルの隠れ状態に検索をアンカーし、意味的アライメントを確立。
  • ソフトゲート評価モジュールが表面的形式ではなく意味的等価性を検証。
サイト内本文

BitsMoE: MoE LLM量子化のためのスペクトルエネルギー誘導型ビット割り当て

BitsMoEは、混合エキスパート(MoE)大規模言語モデルのための効率的な量子化フレームワークです。SVDを用いて各MoE層を共有基底とエキスパート固有のスペクトル因子に分解し、共有基底は量子化せずに保持することでクロスエキスパート構造を維持します。固定ビット予算下で再構成損失を最小化する整数線形計画問題を定式化します。実験では、Qwen3-30B-A3B-Baseの2ビット量子化において、GPTQと比較して量子化速度12.3倍、平均精度27.83ポイント向上、復号速度1.76倍の改善を達成しました。

  • MoE層をSVD分解し、細粒度の量子化を実現するBitsMoEを提案。
  • 整数線形計画法を用いて活性化認識型の混合精度ビット割り当てを行い、再構成損失を最小化。
サイト内本文

[AINews] NVIDIA Cosmos 3、Nemotron 3 Ultra、RTX Spark

NVIDIA は、統合マルチモーダル世界モデル Cosmos 3、効率的な LLM Nemotron 3 Ultra、パーソナル AI スーパーチップ RTX Spark を発表。さらに、MiniMax M3、Qwen3.7-Plus、JetBrains Mellum2 などのオープンモデルがエージェント分野を推進。

  • NVIDIA の Cosmos 3 は Mixture-of-Transformers アーキテクチャを採用し、言語、画像、動画、音声、動作を統合。Nemotron 3 Ultra は 550B パラメータのオープンウェイトモデルで、米国 SOTA を達成し、最大 300+ tok/s の高速推論を実現。RTX Spark は Microsoft と協力したパーソナル AI コンピュータで、Grace+Blackwell チップを搭載し 1 petaflop FP4 の性能。
  • MiniMax M3 は 1M コンテキストを持つオープンウェイトのマルチモーダルエージェントモデルとして発表。Alibaba の Qwen3.7-Plus は GUI/CLI を統合したハイブリッドエージェント。JetBrains Mellum2 は超低遅延の開発者向けワークフロー向け 12B MoE モデル。
サイト内本文

MiniMax-M3の効率的な推論サービス:100万トークンコンテキストとマルチモーダルを後悔なく実現

Together AIは、KVブロックメジャースパースアテンション、ページ化MSAデコード、最適化されたインデックススコアリングカーネル、およびRustベースのマルチモーダル前処理ゲートウェイにより、MiniMax M3の効率的なサービスを実現し、同時実行レベル全体で81~125%のスループット向上を達成しました。

  • MiniMax M3は、コーディング、エージェントワークフロー、マルチモーダル推論を統合し、100万トークンのコンテキストウィンドウをサポートします。
  • Together AIの推論およびカーネルチームは、KVブロックメジャースパースアテンションカーネルやページ化アテンション統合などの革新的な最適化を実装しました。
サイト内本文

MiniMax、MSAアーキテクチャを採用したMiniMax M3を発表:100万トークンコンテキスト、ネイティブマルチモーダル、エージェンティックコーディングをサポート

MiniMaxは2026年6月1日、MiniMax M3を正式にリリースしました。MiniMax Sparse Attention(MSA)アーキテクチャにより100万トークンのコンテキストウィンドウを実現し、画像・ビデオ入力およびデスクトップ操作をネイティブサポート。APIはすでに利用可能です。

  • M3はMSAを採用し、100万トークンコンテキストでM2比、プリフィル速度9倍以上、デコード速度15倍以上、トークンあたりの計算量は1/20。
  • SWE-Bench Proで59.0%を達成し、GPT-5.5とGemini 3.1 Proを上回る。
サイト内本文

MiniMax M3:100万トークンのコンテキストを持つオープンウェイトモデルが専用リーダーに挑戦

中国のAI企業MiniMaxが新モデルM3を発表。トップクラスのコーディング性能、100万トークンのコンテキストウィンドウ、ネイティブマルチモーダル性を組み合わせた初のオープンウェイトモデルとされる。

  • MiniMaxがM3を公開。コーディング性能、100万トークンコンテキスト、マルチモーダルを兼ね備えた初のオープンウェイトモデル。
  • プロプライエタリなモデルに対抗し、AI性能の新たなベンチマークを目指す。
サイト内本文

MiniMax、長く複雑なコーディングタスク向けAIモデルを発表

中国AIスタートアップMiniMaxは、コーディングエージェントと自動化ワークフロー向けの旗艦モデルM3を発表した。100万トークンのコンテキストを処理し、計算コストを20分の1に削減。SWE-Bench ProでOpenAI GPT-5.5やGoogle Geminiを上回る性能を示した。また、上海スター市場へのIPO準備を開始し、Ant GroupのAlipayとのパートナーシップを発表。

  • MiniMaxがM3を発表、100万トークンのコンテキストと20倍のコスト削減を実現。
  • M3はSWE-Bench ProでOpenAI GPT-5.5やGoogle Gemini 3.1 Proを凌駕。
サイト内本文

トークンが高いのは、モデルにゴミをたくさん与えているから|@アマゾン王暁野 AIGC2026

2026年中国AIGC産業サミットで、アマゾンウェブサービスの製品技術部門テクニカルディレクターである王暁野氏は、企業の87%がAIを大規模に展開していると宣言しているが、実際に価値を得ているのはわずか10%であると指摘した。彼は個人と企業レベルのエージェント導入の大きな違いを強調し、企業はコンピューティング、モデル、データ・知識、エージェンティックプラットフォーム、アプリケーションの5層に注目すべきだと述べた。また、トークンコストが高いのは、モデルに無関係な情報を多く与えすぎていることが原因であると指摘した。

  • 87%の企業がAIを展開するが、価値を得ているのは10%のみ
  • 個人と企業のエージェント導入は全く異なる
サイト内本文

LLMが一貫して誤ることを学ぶとき:合成欺瞞の線形表現に関するマルチモデル研究

本研究は、5つのTransformerモデルをLoRAで微調整するマルチモデルパラダイムを導入し、合成欺瞞を調査した。線形プローブは初期層でほぼ完全なAUCで欺瞞を検出し、ロジスティック回帰プローブはMLPプローブを上回り、線形表現仮説を支持する。プローブはドメイン間でほぼ損失なく汎化する。モデルによって表現機構が異なり、Pythia/Llama/Qwenでは表現崩壊、Gemma-2では高次元保存が見られる。これらの結果は、適度な教師あり微調整によってロバストでドメイン不変な欺瞞表現が迅速に定着することを示しており、活性化ベースのモニタリングに示唆を与える。

  • 平均プールされた隠れ状態に対する線形プローブは、4つのアーキテクチャにおいて層1-3の初期段階でほぼ完全なAUC(≥0.99)で合成欺瞞を検出する。ロジスティック回帰プローブは一貫してMLPプローブと同等またはそれを上回る。
  • TruthfulQAで訓練されたプローブは、未見のMMLU科目に対してほぼゼロの損失(ΔAUC≈0)で汎化する。後期層の表現はガウスノイズに対して強いロバスト性を示す。
サイト内本文

PhyDrawGen: 自然言語からの物理的根拠に基づく図生成

PhyDrawGenは、テキストから物理法則に従った図を生成するニューロシンボリックパイプラインです。大規模言語モデルでシーングラフを抽出し、決定論的ソルバーで平面直線グラフに変換し、ファインチューニングされたQwen-VLモデルで検証します。1449の物理問題ベンチマークで、GPT-5-imageやGeminiモデルを上回る性能を示しました。

  • PhyDrawGenは、LLM、決定論的ソルバー、視覚モデルを組み合わせ、物理的に正確な図を生成。
  • 力ベクトルの幻覚や保存則違反などの問題を回避。
サイト内本文

エージェントにツールを追加するだけでは不十分! 復旦大学と通義研究所が新たなCUA訓練パラダイムを提案

復旦大学と通義研究所は、GUIとツールのハイブリッド動作空間で最適な経路選択を学習するComputer Use Agent「ToolCUA」を発表。OSWorld-MCPで46.85%の精度を達成し、Claude-4-Sonnetを上回った。2段階訓練(データ合成とオンライン強化学習)により、エージェントはGUIとツールの使い分けを習得する。

  • ハイブリッドGUI-ツール動作空間ではエージェントが経路選択に混乱し、精度が低下する
  • ToolCUAは2段階訓練:既存のGUI軌跡からインタリーブされたGUI-ツール軌跡を合成し、その後オンラインRLで経路選択を最適化
サイト内本文

トークンが高いのは、モデルにゴミを大量に与えているから|@アマゾン・ワン・シャオイェ AIGC2026

2026年中国AIGC産業サミットで、アマゾン ウェブ サービスのテクニカルディレクター、ワン・シャオイェ氏は、87%の企業がAIを大規模導入していると主張する一方、実際に生産価値を得ているのはわずか10%だと指摘しました。エンタープライズ向けエージェントの導入には、モデル選択、構築の複雑さ、利用のハードル、人材不足という4つのギャップを克服する必要があると強調し、AWSの5層アーキテクチャ(コンピュート、モデル、データ、ハーネスプラットフォーム、エージェントアプリケーション)やQuickなどの製品を紹介しました。

  • 87%の企業がAIを導入するが、生産価値を得ているのはわずか10%。
  • エンタープライズ向けエージェントは個人用とは全く異なり、セキュリティ、安定性、信頼性の確保が重要。
サイト内本文

AIネイティブ時代、エージェントに人間を模倣させるのではなく、世界をエージェントに適応させる | 香港大 黄超 @AIGC2026

香港大学准教授の黄超氏は、2026年中国AIGC産業サミットで、エージェント時代にはデジタル世界のインフラを再設計し、ソフトウェアがAIの言語(CLI)を話すようにすべきだと提唱。彼のチームが公開した軽量エージェントnanobotは20万ダウンロードを突破し、CLI-Anythingなどの革新を示した。エージェントの自己進化はスキル蓄積による外部進化が重要だと強調した。

  • 黄氏は、エージェントを人間のツールに適応させるのではなく、エージェント向けにデジタル世界を再設計すべきと主張。
  • 汎用エージェントnanobotをオープンソース化、100日間連続更新で20万ダウンロード超。
サイト内本文

トークン無制限から全員エージェントへ:MiniMaxのAIネイティブ組織進化の実践

MiniMaxはマルチモーダルモデルに特化したAIスタートアップで、2026年1月に香港証券取引所に上場しました。同社は大規模モデルとアプリケーションの並行開発、ToCとToBの両輪戦略を堅持しています。社内では全従業員に無制限のトークンを提供し、エージェントを使ってワークフローを自動化。人間が嫌がる高価値タスクに焦点を当て、効率を大幅に向上させ、組織をフラット化しています。今後2~3年でAIはさまざまな産業と深く融合するでしょう。

  • MiniMaxは創業当初から次世代AIを目指し、「Intelligence with Everyone」を掲げ、モデル/アプリケーションとToC/ToBの両輪戦略を堅持。
  • 内部実践:全従業員に無制限トークン、エージェントによる人事・コーディング支援、組織のフラット化、研究開発効率30%向上。
サイト内本文

エヌビディア、中国AIチップ市場をファーウェイに譲ったと表明

エヌビディアのジェンスン・フアンCEOは、米国の輸出規制により、中国のAIチップ市場を実質的にファーウェイに譲ったと述べた。好調な四半期決算にもかかわらず、中国での販売見通しは限定的。

  • エヌビディア、米国輸出規制で中国AIチップ市場をファーウェイに譲歩。
  • 第1四半期の売上高は85%増の816.2億ドル、800億ドルの自社株買い。
サイト内本文

IBM量子サンプリングループを用いたCPU専用Qwen3-30B推論のチューニング

2017年製MacBook Air上で、人間の実験者、Codex、llama.cpp、ローカルデータベース、IBM量子プロセッサのサンプリングを組み合わせ、Qwen3-30Bモデルの推論速度を0.09トークン/秒から14.03トークン/秒に向上させた研究。量子プロセッサ上でモデルを実行するのではなく、推論設定の最適化に量子サンプリングを用いている。

  • 8GB RAMの2017年MacBook AirでGPUなしでQwen3-30Bを実行
  • 人間とAIの量子最適化ループにより速度が0.09 tok/sから14.03 tok/sに向上
サイト内本文

新たなレビュー論文が主張:AIエージェントが考え行動する仕組みはコードにある——単なる出力ではなく

新しいレビュー論文は、自律型AIエージェントの真のボトルネックは言語モデル自体ではなく、その周りのソフトウェア層(ツール、メモリ、テスト、権限境界)であると主張しています。Deepseekは北京に専用の「Harness」チームを立ち上げ、モデル+ハーネス=AIエージェントという公式を確認しています。

  • 論文は、AIエージェントのボトルネックはモデルではなくソフトウェアハーネスにあると指摘。
  • ツール、メモリ、テスト、権限管理が重要な要素。
サイト内本文

PPIO、非凡産研「2026 Global AI 100」に選出、AIで海外展開の新潮流をリード

PPIO は非凡産研が発表した「2026 Global AI 100」リストに選ばれました。このリストは非凡大賞 – 年次 AI グローバリゼーション成長サミットで選定され、グローバルな AI ネイティブ企業を表彰するものです。PPIO はグローバル分散型コンピューティングインフラ、フルスタッククラウドサービス、DeepSeek・GLM などのモデルプラットフォーム、革新的なエージェントサンドボックスを提供。2026年4月時点で4,800以上の分散ノードを統合し、日次トークン呼び出しは1兆回超、開発者は57万人超。また、上海市デジタル海外サービスプラットフォームのパイロットユニットやGDAパイロットサービスステーションにも選ばれています。

  • PPIO が「2026 Global AI 100」に選出、AIグローバル化のリーダーシップを示す。
  • 全GPU構成をカバーするグローバル分散コンピューティングインフラを提供。
サイト内本文

オープンソース安全ガードモデルのベンチマーキング:包括的評価

14のオープンソース安全ガードモデルの包括的評価により、Qwen Guard(4Bパラメータ)が83.97%の再現率でトップであることが明らかになった。一方、Llama Guard(12B)やGPT-OSS Safeguard(20B)などの大規模モデルは保守的で、最大75%の不適切コンテンツを見逃した。モデルサイズと安全性検出性能には相関がなく、汎用ガードモデルが専門モデルよりも優れていることが示された。

  • Qwen Guard(4Bパラメータ)が79,331サンプルのベンチマークで最高再現率(83.97%)を達成。
  • Llama Guard(12B)やGPT-OSS Safeguard(20B)は不適切コンテンツの75%を見逃す。
サイト内本文

RightNow-Arabic-0.5B-Turbo:語彙注入とエッジ優先デプロイメントによるオープンなサブ10億アラビア語言語モデル

本論文は、Qwen2.5-0.5Bをベースに語彙注入とエッジ優先デプロイメントを採用した518Mパラメータのアラビア語特化LLM、RightNow-Arabic-0.5B-Turboを提案する。アラビア語ベンチマークで平均精度35.9%を達成し、同クラスのオープンモデルを凌駕。COPA-arではFalcon-H1-1.5Bと同等の成績を1/3のサイズで達成。量子化後は398MB、単一H100上で635トークン/秒の推論速度を実現する。

  • Qwen2.5-0.5Bをベースに27,032のアラビア語トークンを追加した518Mパラメータのアラビア語LLM。
  • 3つのアラビア語ベンチマークで平均精度35.9%を達成し、同クラスの全オープンモデルを上回る。
サイト内本文

破局的忘却のメカニズム起源:RLがSFTより回路を保持する理由

最近の研究では、強化学習(RL)が教師あり微調整(SFT)よりも事前の能力を効果的に保持することが示されています。本論文はこれをメカニズムレベルに拡張し、微調整中の回路劣化を測定する「差分回路脆弱性」を導入します。Qwen2.5-3B-Instructを科学質問応答に適用した実験では、SFTはタスク適応が速いものの回路破壊と忘却が大きく、RLは回路を保持する代わりに適応が遅いことが明らかになりました。結果は、回路保持がRLの破局的忘却に対する頑健性を説明することを示唆しています。

  • SFTは適応が速いが内部回路を破壊し、破局的忘却を引き起こす。
  • RLはベースモデルの回路をより多く保持し、忘却が少ないがタスク適応は遅い。
サイト内本文

AIがソフトウェア業界を書き換える?8歳児がOSを開発、一人会社が1000万円の受注

2026年中国AIGC産業サミットで、百度の秒哒(Miaoda)製品責任者・朱広翔氏が、AIがプログラミングのハードルをコード記述から会話に下げたと発表。秒哒ユーザーの87%はコード非習得者で、8歳児がOSを開発、一人会社(OPC)がプロジェクトマネージャーだけで千万円の受注を獲得。石油技術者が140万元の調達プラットフォームを代替。Vibe Codingが需要側を供給側に変え、大衆創業を実現。

  • 第四次プログラミング革命:自然言語プログラミングで創造者数が爆発的に増加
  • 秒哒ユーザーの87%はコード非習得、OPCが最大グループ(16%が起業家)
サイト内本文

NVIDIA、Codex、Claude Code、Qwen Code向けGRPOトレーニングのためのトークン忠実型ロールアウトフレームワーク「Polar」を公開

NVIDIAの研究者は、エージェントハーネスを変更せずに強化学習で言語エージェントを訓練するロールアウトフレームワークPolarを発表した。Polarはハーネスと推論サーバーの間にモデルAPIプロキシを配置し、トークンレベルの相互作用を捕捉してトレーナー対応の軌跡を再構築する。Qwen3.5-4BベースモデルにGRPOを適用した結果、CodexハーネスでSWE-Bench Verified pass@1を22.6ポイント、Claude Codeで4.8ポイント、Piで6.2ポイント改善した。本フレームワークはNeMo Gym環境として登録され、ProRL Agent Serverリポジトリで公開されている。

  • PolarはモデルAPIプロキシを介して既存のエージェントハーネスを変更せずにRLトレーニングを可能にする
  • Qwen3.5-4BにGRPOを適用し、4つのコーディングハーネスでSWE-Bench Verifiedを最大22.6ポイント改善
サイト内本文

自己検証蒸留:あなたの言語モデルは密かに自身の合成データパイプラインである

大規模言語モデルが外部教師やツールのフィードバックなしに、ラベルのないプロンプトのみを使用して自己改善できるようにする「自己検証蒸留(SVD)」を提案。数学、科学、コーディングの3つの推論領域でQwen3モデルを訓練し、顕著な性能向上を達成。

  • SVDは循環一貫性、事実性、正しさの3段階検証で自己生成解をフィルタリング。
  • より多くの候補生成と検証予算が高品質な自己キュレーションデータをもたらす。
サイト内本文

DeepSeekの陳德里氏が自動研究スキルを開発、論文作成における人間の作業はわずか2時間

DeepSeekの研究者である陳德里氏は、自身が開発したDeliAutoResearchスキルを用いて、DeepSeek-V4-ProとGPT-Image2と協力し、わずか6日間で46ページの論文を完成させた。この論文は、研究エージェントの自律性をL1~L5に分類する枠組みを提案し、4つのアーキテクチャパターンと17の主流システムを分析、6つの未解決問題を指摘している。陳氏によると、人間の「CPU時間」はわずか2時間未満であり、残りはAIエージェントが担当した。

  • 陳德里氏のDeliAutoResearchスキルにより、論文の99%がAIエージェントによって執筆された。
  • 論文は、自動運転のSAEレベルに類似した研究エージェントの自律性分類(L1~L5)を提案。
サイト内本文

AIウィークリー第496号:Anthropicの国防総省モデルが今や誰でも使える

今週のAIニュース:Anthropicがこれまで政府契約業者限定だったMythosモデルを公開、国防総省級AIが誰でも利用可能に。DeepMindのDemis HassabisはAGI実現時期を2029年に前倒し。Starletteフレームワークに重大な認証バイパス脆弱性、数百万のAIエージェントに影響。CrowdStrikeらがGlasswormボットネットを共同撃滅。BNPパリバがMistralと主権AIセキュリティ提携、中国はAlibabaとDeepSeekのトップAIエンジニアの海外渡航を制限。UberはAIトークン予算を4ヶ月で使い切り、ClickUpは2200人を解雇して3000の内部AIエージェントを導入。一方、MITテクノロジーレビューはAI露出職種の失業率が低いと報告、Altmanはホワイトカラー消滅予測を撤回。

  • AnthropicがMythosモデルを公開、NSAや国防総省の能力が標準APIで利用可能に。
  • DeepMindのハサビスCEOがAGI実現を2029年と明言、AlphaProof Nexusの成果を根拠に。
サイト内本文

その他の成長タグ

中国 AI AI News | AI News Hub