モデル AI ニュース

モデルの最新ニュース

Mira Murati率いるThinking Machines Lab、カスタマイズ可能なモデル重みに基づく人間中心AIの技術的根拠を提示

2026-07-12 09:46 UTC+9

Thinking Machines Labは「構築する価値のある未来は人間である」と題する報告書を発表。人間参加、モデル所有権、分散型アライメントを技術的課題と位置づけ、インタラクションモデルとTinkerのLoRA微調整に結びつけ、チームが独自のモデル重みを訓練し保持できるようにする。

Thinking Machines Labは分散型でカスタマイズ可能なAIを提唱。
暗黙知・局所知の存在がAIの分散を要請する。

sqlite-utils 4.1 リリース

2026-07-12 08:50 UTC+9

sqlite-utils 4.1 は 4.0 から数日後の最初のドットリリースであり、いくつかのマイナーな新機能を導入しています。インサートおよびアップサートコマンドに --code オプションが追加され、インラインのPythonコードから行を生成できるようになりました。また、CSV/TSVインポート時に列タイプをオーバーライドする --type オプション、インデックス削除コマンド、標準入力からのSQLクエリ読み取り機能が追加されました。さらに、table.transform() で STRICT モードの切り替えが可能になりました。

insert/upsert に --code オプションを追加、インラインPythonコードで行生成
新たに --type オプションでテーブル作成時の列タイプを指定可能に

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

2026-07-12 07:54 UTC+9

Mac Studio上でQwen3.5-122Bを実行する際、3つのバグが原因でキャッシュが無効になり、長文コンテキストでの応答が数分待たされる問題が発生していた。これらのバグを修正した結果、プリフィル時間が88秒から0.64秒に短縮され、会話の流れを妨げなくなった。

Qwen3.5-122BモデルはMac Studioでハイブリッドアテンションによりプレフィックスキャッシュが頻繁にミスしていた。
3つのバグ：システムプロンプトのタイムスタンプ、中断時の応答未保存、チェックポイントストアのゴミ書き込み。

Mesh LLM: iroh上での分散AIコンピューティング

2026-07-12 07:38 UTC+9

Mesh LLMは、irohネットワークを介して複数のマシンのGPUとメモリをプールし、OpenAI互換のAPIを提供する新しい分散型AIコンピューティングシステムです。ローカルまたはピアノード上でモデルを実行したり、大規模モデルを複数のマシンに分割して実行できます。AIコンピューティングのコスト高と制御不足の問題を解決し、中央サーバーに依存せずにプライベートデプロイや公開グリッドをサポートします。

Mesh LLMは複数のマシンのGPUリソースをプールし、統一されたOpenAI互換APIを提供
ローカル実行、ピアへのルーティング、または複数マシンへのモデル分割をサポート

2つのLLMがライブチェスをプレイし、各ゲーム後に自らの脳を書き換える

2026-07-12 06:44 UTC+9

ChatGPT 5.5とClaude Fable 5がリアルタイムでチェス対決を行い、ユーザーは無料でAIに挑戦できます。AIは夜間の復習で人間の手を学習します。また、リアルタイムのトレーディング戦略も実行しています。

ChatGPT 5.5とClaude Fable 5のライブチェス対決
ユーザーは無料でAIに挑戦可能

AIエージェントの出力を評価する無料ツールを構築しました（人間のラベルとLLM審査員）

2026-07-12 04:55 UTC+9

Verdictは、AIエージェントの出力を評価するためのオープンソースのブラウザベースツールです。人間によるラベリング、グラウンデッド・セオリーによるエラー分析、LLM審査員の人間ラベルに対する検証を、データを外部に送信することなくローカルで実行できます。

Verdictはブラウザ上で完全に動作し、バックエンドやアカウントは不要。
複数のトレース形式をサポートし、クリーンなチャットタイムラインを提供。

RAG評価フレームワーク比較：RAGAS vs TruLens vs DeepEval

2026-07-12 03:16 UTC+9

本記事では、RAGAS、TruLens、DeepEvalの3つの主要なRAG評価フレームワークを深く比較します。RAGに特化した評価が必要な理由、評価の3層（検索品質、生成品質、エンドツーエンド品質）、および主要な検索指標（Precision@K、Recall@K、MRR、NDCG）を解説します。その後、RAGAS（LLM判定役、正解データ不要、合成テストセット生成機能）とTruLens（可観測性、RAGトライアド、ダッシュボード）を詳述し、DeepEvalについても簡単に触れ、フレームワーク選択の指針を提供します。

RAGシステムは、BLEU/ROUGEでは検索と生成の失敗を捉えきれないため、専用の評価が必要です。
RAGASはLLMを判定役とし、正解データなしでスコアリングでき、ドキュメントからテストセットを自動生成します。

2026年中期AIモデルティアリスト

2026-07-12 00:43 UTC+9

著者がコーディングと監査の経験に基づき、2026年中期の主要AIモデルを非公式にランク付け。Anthropic Fable、OpenAI Sol、Mistral、Gemini、DeepSeekを対象とし、米国の輸出規制や欧州の視点も含む。

Fable（Anthropic）はB評価：流暢だが信頼性に欠け、バグを隠す傾向がある。
Sol（OpenAI）はS評価：低レベルコードとテストで信頼できる。

アントグループのRobbyant、LingBot-VA 2.0を発表：物理AI向けにネイティブ構築された因果ビデオアクションモデル

2026-07-11 16:56 UTC+9

アントグループのRobbyantは、LingBot-VA 2.0のテクニカルレポートを公開しました。これは、ビデオジェネレーターからファインチューニングするのではなく、最初から身体性AI向けに構築された物理AIビデオアクションファンデーションモデルです。先見推論により実行前に将来の状態を予測し、実際の観測ごとに再接地し、225 Hzの非同期制御を実現します。本稿では、因果DiT、スパースMoEビデオストリーム、意味的ビジュアルアクショントークナイザー、および論文内の数値の不一致を解説します。

LingBot-VA 2.0は、ビデオジェネレーターの微調整ではなく、身体性AI向けにネイティブにプレトレーニングされた因果ビデオアクションモデルです。
因果DiTとスパースMoEアーキテクチャ、意味的トークナイザーを採用し、先見推論によるリアルタイム制御を実現。

AINews：今日は穏やかな一日、モデル発表ラッシュの後の休息

2026-07-11 11:53 UTC+9

一週間のモデル発表ラッシュの後、今日は比較的穏やかな一日でした。主なニュースは、GPT-5.6の混乱した公開と迅速な修正、MetaのMuse Spark 1.1、オープンソースモデルの最適化、そしてセキュリティへの懸念です。

GPT-5.6が36のバリアントとUX問題でローンチされ、迅速な修正が行われる。
MetaのMuse Spark 1.1が攻撃的な価格設定でフロンティアに迫る品質を提供。

GDP.pdf：フロンティアモデルは世界を動かす文書を習得できるか？

2026-07-11 11:26 UTC+9

GDP.pdfは、現実世界のPDF文書を処理するAIモデルの能力を評価する新しいベンチマークです。金融、法律、医療など10の分野をカバーし、最先端モデルでもGPT-5.5の25%が最高で、全モデルが30%未満のスコアに留まりました。PDFが世界経済の命脈であること、そしてモデルの失敗が重大な結果を招く可能性を強調しています。

GDP.pdfベンチマークは、10の専門分野にわたる100の実世界のプロンプトとPDFで構成されています。
すべてのフロンティアモデルは30%未満のスコアで、GPT-5.5が25%でトップでした。

DeepSeek V3.2がHugging Bayで公開

2026-07-11 10:44 UTC+9

DeepSeek V3.2がHugging Bayで利用可能になりました。Hugging Bayは、出所、ライセンス検証、信頼できるホスティングを提供するオープンソースAIアーティファクトレジストリです。

DeepSeek V3.2がHugging Bayで公開されました。
Hugging Bayは出所と信頼機能を備えたオープンレジストリです。

Meta、公開アカウントのAIディープフェイク作成を可能にしたInstagram機能を停止

2026-07-11 08:49 UTC+9

Metaは今週発表した、公開Instagramアカウントをタグ付けするだけでAI画像を生成できる機能を、強い反発を受けて停止した。この機能は当初、アカウント所有者の許可なしに公開コンテンツをAI生成に利用できるようにしていた。

Metaが今週公開した、公開Instagramアカウントのコンテンツを利用したAI画像生成機能が批判を受け停止。
この機能はアカウント所有者の許可なしに公開コンテンツを利用可能だった。

中国のオープンAIモデルが世界のソフトパワーを強化

2026-07-11 06:45 UTC+9

中国のオープンAIモデルは、国際的な協力とイノベーションを促進し、世界のAIエコシステムにおける中国のソフトパワーを向上させています。

中国のオープンAIモデルが国際協力と技術交流を促進
世界のAI分野における中国の影響力とソフトパワーを強化

本番AIエージェントをGPT 5.6に移行

2026-07-11 05:40 UTC+9

Ploy社はAIエージェントをClaude Opus 4.8からOpenAIが新たにリリースしたGPT-5.6 Solに移行し、ビルド速度2.2倍、コスト27%削減、ビジュアルスコア向上を達成しました。移行では、ツール呼び出しのパラメータ設定、プロンプトキャッシュの違い、推論リプレイの問題を解決する必要がありました。

GPT-5.6 Solは速度、コスト、品質でClaude Opus 4.8を上回る
ツール呼び出しの全パラメータ入力問題をスキーマ変換で解決

Kyutai、MuScriptorを公開：マルチインストゥルメント音楽をMIDIに変換するオープンウェイトのデコーダ専用Transformer

2026-07-11 05:21 UTC+9

MuScriptorはKyutaiとMireloが開発したオープンウェイトのデコーダ専用Transformerであり、マルチインストゥルメントのオーディオをMIDIに変換します。訓練は三段階で行われます：145万の合成MIDIによる事前訓練、17万の実録音（1万1千時間以上）による微調整、および300の手動検証済みトラックによる強化学習。DTestベンチマークではMulti F1が48.2%に達し、YourMT3+ベースラインの21.9%を大きく上回ります。103M、307M、1.4Bパラメータの3サイズが提供され、推論コードはMITライセンス、重みはCC BY-NC 4.0です。

MuScriptorはKyutaiとMireloによるオープンウェイトのデコーダ専用Transformerで、マルチインストゥルメント音楽をMIDIに変換する。
三段階訓練：合成データでの事前訓練、17万の実録音での微調整、300の手動検証トラックでの強化学習。

OpenAIモデルが世界プログラミングコンテストでトップ人間プログラマーを圧倒

2026-07-11 03:16 UTC+9

2026年のAtCoderワールドツアーファイナルで、OpenAIのAIモデルがヒューリスティック部門とアルゴリズム部門の両方で人間トップ選手を破り、人間が解けなかった問題も解決した。主催者は「人類降伏賞」を授与。これがプログラミングコンテストで人間がトップAIに勝つ最後の現実的な機会だったかもしれない。

OpenAIモデルが2026年AtCoderファイナルのヒューリスティック部門で人間を大きく上回った。
アルゴリズム部門では5問すべてを解決し、うち2問は12人の人間誰も解けなかった。

今週のAI：チップ、規制、そして変化する仕事

2026-07-11 01:04 UTC+9

今週のAIニュース：IBMが0.7ナノメートルチップ技術を発表、OpenAIとBroadcomが推論専用チップJalapeñoを公開、NVIDIAが全液冷AI工場設計を披露。政府の監視強化：Anthropicがモデルへのアクセスを再開、OpenAIが米政府への株式譲渡を提案。職種の進化：フォワードデプロイエンジニア、SAPの外部採用とIKEAの内部再教育に焦点。

IBMが0.7nmチップを発表、性能50%向上、消費電力70%削減。
OpenAIとBroadcomがLLM推論専用チップJalapeñoを発表。

Amazon SageMaker AI サーバーレスモデルカスタマイゼーションで NVIDIA Nemotron 3 モデルを微調整

2026-07-11 00:35 UTC+9

この記事では、NVIDIA Nemotron 3 モデルの独自のアーキテクチャ（Mamba-Transformer MoE ハイブリッド、最大 1M トークンのコンテキスト長対応）を探り、利用可能な微調整手法（SFT、RLVR、RLAIF）を説明し、SageMaker Studio を使用したサーバーレスカスタマイゼーションのステップバイステップガイドを提供します。

NVIDIA Nemotron 3 は Mamba-Transformer ハイブリッド MoE アーキテクチャを採用し、パラメータの一部のみを活性化して効率的に動作します。
Amazon SageMaker AI は Nemotron 3 Nano および Super 向けにサーバーレスモデルカスタマイゼーションを提供し、インフラ管理は不要です。

SageMaker HyperPod でのLLM推論のための分離型プリフィルとデコード

2026-07-11 00:20 UTC+9

この記事では、Amazon SageMaker HyperPod上でvLLMとHyperPod推論オペレーターを使用して、分離型プリフィルとデコード（DPD）を実装する方法を説明します。DPDはプリフィルとデコードのフェーズを別々のGPUプールに分離し、長いプロンプトによる干渉を排除して、ファーストトークン遅延とトークン間遅延を改善します。

DPDはLLM推論のプリフィルとデコードを独立したGPUプールで実行する。
長いコンテキストの高同時実行ストリーミングワークロードに特に効果的。

GPT-5.6が新たなAI規制を反映する方法

2026-07-10 23:40 UTC+9

このリリースは、米国政府が現在AIモデルの分野で持つ力を示しています。ChatGPT Workは、OpenAIがエンタープライズベンダーへと進化し続けていることを浮き彫りにしています。

米国政府のAI規制における影響力が増大している。
GPT-5.6のリリースは新たな規制環境を反映している。

初心者のためのファインチューニング解説（事前学習済みモデルが新しいスキルを学ぶ方法）

2026-07-10 23:00 UTC+9

この記事では、ファインチューニングの概念をわかりやすく説明します。事前学習とファインチューニングの違い、2つの主要なタイプ（フルファインチューニングとパラメータ効率的ファインチューニング）、そして他の手法よりもファインチューニングを選ぶべきタイミングについて解説します。

事前学習によりモデルは一般的な言語知識を習得し、ファインチューニングの基盤を築く。
ファインチューニングでは、少量の高品質なタスク固有データを使用してモデルを特定のタスクに適応させる。

Google Research、SensorFMを発表：1兆分のセンサーデータで事前学習されたウェアラブルヘルス基礎モデル

2026-07-10 17:52 UTC+9

Google Research、Google DeepMind、および大学の共同研究者は、500万人の参加者から得られた1兆分以上のセンサーデータで事前学習されたウェアラブルヘルス向け基礎モデルSensorFMを発表しました。ViT-1Dマスクド・オートエンコーダをバックボーンとし、大規模データでのスケーリング特性を示します。凍結された埋め込みにPCA-50線形プローブを組み合わせることで、35タスク中34タスクで特徴エンジニアリングベースラインを上回りました。また、30,516個の予測ヘッドを探索したエージェント教室と、パーソナルヘルスエージェントを評価する臨床医評価についても詳述されています。

SensorFMは500万人、1兆分超のセンサーデータで事前学習され、100カ国以上、20種以上のウェアラブル端末をカバー。
適応的継承マスキング（AIM）により欠損データを効果的に処理し、再構成誤差を最大83.7%削減。

「AINews」OpenAIがGPT 5.6 Sol/Terra/Lunaを発表、CodexがChatGPTスーパーアプリに

2026-07-10 15:19 UTC+9

OpenAIは3つの新しいGPT-5.6モデル（Sol、Terra、Luna）を発表し、アプリ層も大幅に更新してChatGPT WorkとCodexを統合しました。新モデルはベンチマークで低コストながら高い性能を示し、Solが最も強力です。独立評価では、特にコーディングやエージェントタスクで最前線に近い結果が確認されています。

OpenAIがGPT-5.6を3サイズでリリース：旗艦Sol、中位Terra、低コストLuna。
新しいultra推論レベルは複数のエージェントを並列調整し複雑なタスクを処理。

LingBot-World-Infinityの紹介：オープンな因果的世界モデルとエージェントハーネス

2026-07-10 13:38 UTC+9

アントグループのエンボディードインテリジェンス部門Robbyantは、LingBot-World-Infinity（LingBot-World 2.0）をリリースしました。これは140億パラメータの因果的ビデオ生成モデルで、対話型世界シミュレーターとして機能します。核心技術は双方向自己回帰混合注意マスク（MoBA）と分布マッチング蒸留であり、長期的ドリフトを解決します。ディレクター・パイロットエージェントハーネスにより無限のビデオ生成が可能です。論文は60分のセッションを示していますが、オープンソースリリースは1つのチェックポイントと480Pスクリプトのみで、デプロイコードや定量的ベンチマークが欠けており、非商用ライセンスです。

LingBot-World-InfinityはアントグループのRobbyantによる140億パラメータの因果的ビデオ生成モデルで、対話型世界シミュレーションを実現。
MoBA注意機構と分布マッチング蒸留により、世界モデルの長期的ドリフトを抑制。

GPT-5.6 登場：Sol、Terra、Luna

2026-07-10 13:19 UTC+9

OpenAI が GPT-5.6 シリーズを発表。フラッグシップの Sol、ワークホースの Terra、高速な Luna の3モデルで、全ユーザーが無料で利用可能。価格、性能、安全性、ハンズオンテストの詳細を解説。

3モデル：Sol（フラッグシップ）、Terra（実務用）、Luna（高速）、全ユーザーに無料開放。
価格：Sol 標準 $5/$30、高速版 $12.50/$75、Terra $2.50/$15、Luna $1/$6（100万トークンあたり）。

衝突時間に基づく動的障害物回避：未構造環境におけるロボットのための事前学習済みビジョンモデルの利用

2026-07-10 13:00 UTC+9

データ効率が高く解釈可能な視覚ベースの動的障害物回避手法を提案。事前学習済み単眼深度推定モデルUniDepthと特徴対応パイプラインSuperPoint+SuperGlueを活用し、各キーポイントの衝突時間（TTC）を計算して回避動作を選択。M3EDデータセットでの評価では、精度0.49、再現率0.38を達成し、22個の障害物のうち20個でTTCが1秒未満のフレームを検出。ロボット専用モデルの訓練は不要で、ハイパーパラメータ調整に74秒のデータのみを必要とする。

事前学習済みモデルUniDepthとSuperPoint+SuperGlueを用いた訓練不要の回避手法
キーポイントごとの衝突時間（TTC）計算と地面運動プリミティブの選択

STEMbot：植物の葉冠下を航行する準拠型ロボット

2026-07-10 13:00 UTC+9

STEMbotは、植物の葉冠下を自律航行するために設計された小型の攀じ登りロボットで、早期害虫検出を目的とする。PIN-SLAMとセマンティックOcTreeを統合し、多様体制約A*プランナーを使用して、7～33mmの茎での信頼性の高い移動を実現し、再構築精度は1cm未満。

有機農業における害虫監視の労働力問題に取り組み、早期発見を可能にする。
幾何学的PIN-SLAMとセマンティックOcTreeを組み合わせ、堅牢な位置推定とマッピングを実現。

APIVOT: 適応的な視覚言語思考のインターリーブによる長期的ロボット計画

2026-07-10 13:00 UTC+9

APIVOTは、言語思考と視覚思考を適応的にインターリーブすることで、長期的なロボット計画の成功率と推論効率を向上させるVLMベースのプランナーです。空間制約のあるキッチンタスクにおいて、汎用VLMや既存の計画フレームワークを大幅に上回る性能を示しました。

APIVOTは意味的推論に言語思考を、幾何学的実現可能性の検証に視覚思考を適応的に活用。
長期的なキッチンタスクにおいて、特に空間制約のある環境で最大の性能向上を達成。

SAGA: 自己回帰ビデオ生成のための安定加速ガイダンス

2026-07-10 13:00 UTC+9

本論文では、自己回帰ビデオ拡散における時間的不安定性を改善するために、訓練不要の安定加速ガイダンス手法SAGAを提案する。加速領域スペクトルガイダンスと構造化ノイズ初期化により、ちらつきやジッターを低減し、時間品質と画像品質を向上させる。

自己回帰ビデオ拡散は長期生成において時間誤差が蓄積し、ちらつきや構造ドリフトを引き起こす。
SAGAは加速領域スペクトルガイダンスとノイズ初期化戦略により、再訓練なしで時間的安定性を向上させる。

LightCrafter: PBR条件付きビデオ拡散精錬による制御可能で一貫したリライティング

2026-07-10 13:00 UTC+9

LightCrafterは、ビデオリライティングをプロキシPBRレンダリングのビデオ翻訳として再構成する新しいハイブリッドパイプラインであり、物理ベースレンダリングと拡散モデルの強みを組み合わせて、長編動画の時間的一貫性と詳細な照明制御を実現し、実世界ベンチマークで従来手法を凌駕し、さらに分析用の合成ベンチマークを提供する。

ビデオリライティングをプロキシビデオ翻訳に変換するLightCrafterハイブリッドパイプラインを提案。拡散モデルに照明概念を教える必要がない。
PBRプロキシで照明制御を行い、CogVideoXの後訓練で大域照明などの複雑な効果を捉える。

FedTR: 産業用ビジュアル検査のための転移学習を組み込んだ連合学習フレームワーク

2026-07-10 13:00 UTC+9

FedTRは連合学習と転移学習を組み合わせ、産業用ビジュアル検査におけるデータ不足と複雑性の問題に対処し、ラベル欠陥識別で高精度を達成。

FedTRは転移学習を連合学習に統合し、産業用ビジュアル検査に適用。
公開データで事前学習後、分散したプライベートデータでファインチューニング。

LOGOS：言語ガイドによる航空シーンの指向性物体検出

2026-07-10 13:00 UTC+9

テキストプロンプトを活用して航空画像中の指向性物体検出をガイドする新しいTransformerベースの手法LOGOSを提案。DOTAデータセットで既存手法を上回り、特に密集・回転シーンで優れる。

LOGOSはプロンプト変調コンテンツクエリを用いてモデルの焦点を動的に調整し、複雑環境での検出精度を向上。
DOTAデータセットでの実験により、密集・回転物体シーンで最先端手法を凌駕。

敵対的デコイ：Vision Transformerにおける注意ベース防御の誤誘導

2026-07-10 13:00 UTC+9

研究者は、注意ベースの防御を回避するために、独立して最適化された画像パッチである敵対的デコイを提案しました。この手法は、誤分類と防御回避を分離し、攻撃非依存であり、既存の敵対的パッチ攻撃に容易に統合できます。ImageNetでの実験により、デコイが注意スコアを真の敵対領域から逸らしつつ攻撃効果を維持することが示され、注意の大きさを敵対的関連性の指標として使用することの根本的な限界が明らかになりました。

敵対的デコイは、Vision Transformerにおける注意を再指向し、注意ベースの防御を回避する独立最適化された画像パッチです。
この手法は誤分類と防御回避を分離し、攻撃非依存で既存のパッチ攻撃と統合可能です。

GIRAF：関節物体との汎化可能な人間インタラクションに向けて

2026-07-10 13:00 UTC+9

GIRAFは、関節物体との現実的な全身インタラクションを生成するテキスト条件付き拡散モデルです。物体中心表現、混合ドメイン訓練、接触ベースのデータ拡張により、移動、微細な接触、物体の関節動作を統合的に推論し、未見の物体構成への強い汎化を実現します。

既存モデルは静的物体や手のみの操作に限定され、全身協調が欠けていた。
物体中心表現で手-物体接触を物体表面に統合し、形状間の転移を可能に。

DreamCharacter-1：3D生成基盤モデルから製品レベルのキャラクター生成へ

2026-07-10 13:00 UTC+9

DreamCharacter-1は、事前学習済み3D基盤モデルを高忠実度で製品化可能な3Dキャラクター生成に調整する軽量後適応フレームワーク。幾何後トレーニング、テクスチャ後トレーニング、推論高速化の3つのコンポーネントで構成され、最先端手法を凌駕する性能を示す。

幾何後トレーニングで表面の微細なディテールを向上
テクスチャ後トレーニングで高解像度テクスチャを合成し隠れた領域を補完

幻覚セルフプレイ：進化する生成器による強化学習型検出器のブートストラップ

2026-07-10 13:00 UTC+9

LLM出力における忠実度幻覚の識別は、高品質なアノテーションデータの不足により困難である。本論文では、検出器と生成器が相互にブートストラップするフレームワーク「幻覚セルフプレイ（HSP）」を提案する。検出器は人間ラベルデータで微調整され、その後RLAIFによる生成器の訓練ための報酬モデルとして使用され、より検出困難な幻覚を生成する。進化した生成器の出力は、ルールベース強化学習により検出器をさらに最適化する。RAGTruthベンチマークと2つのモデルファミリーでの実験により、小型LLMが外部教師なしで高度なLLMに匹敵または凌駕できることが示された。

HSPフレームワークは検出器と生成器のセルフプレイにより幻覚検出を反復的に改善
検出器は人間データで微調整後、RLAIFによる生成器訓練の報酬モデルとして機能

全二重音声エージェントにおけるLALM音声審査員の信頼性評価

2026-07-10 13:00 UTC+9

新たな研究が、全二重音声エージェントの会話を評価する音声審査員としてのGeminiモデルの信頼性を評価。209のステレオセッションを8つの次元でスコアリングし、Gemini 2.5 Flashはほとんどの次元で人間の評価者と高い一致を示し、コストは人間の評価の約100分の1。モデル交換時には校正データによる再検証が必要と警告。

Gemini 2.5 FlashのLALM-人間間のSpearman rhoは、8次元中5次元で人間同士の差が最大0.07
LALMは6次元でセッションの60～92%において3人の人間評価者の平均と1点以内で一致

あり得ないトークンが強化されるとき：LLM強化学習のためのテール認識クレジット調整

2026-07-10 13:00 UTC+9

本論文は、LLMの強化学習における一様なクレジット割り当てが引き起こす「正のクレジット汚染」問題を特定し、TACO（Tail-Aware Credit calibratiOn）手法を提案する。TACOは、ローカル生成コンテキストに基づいて各トークンのテールリスクスコアを計算し、リスクの高いトークンへの正の更新を抑制する。3つのLLMと8つのベンチマークでの実験により、GRPOスタイルのベースラインを一貫して上回り、長期的RLの訓練安定性を向上させることを示した。

「正のクレジット汚染」問題を特定：低確率の誤ったトークンが妥当なトークンと同じ正のクレジットを得て、誤った推論行動が強化される。
TACOを提案：ローカル生成コンテキストからテールリスクスコアを計算し、リスクトークンの正のクレジットを動的に調整。

MiniLM埋め込みによるアウトオブスコープ意図検出のためのマルチクラスター境界学習法

2026-07-10 13:00 UTC+9

本研究では、MiniLM埋め込みを用いたマルチクラスター境界学習法を提案し、アウトオブスコープ（OOS）意図を検出します。従来のマルチクラス分類の精度低下やLLM埋め込みの大規模パラメータ問題を克服し、3つの公開データセットで最先端の性能を達成しました。

MiniLM埋め込みを用いたマルチクラスター境界学習法によるOOS意図検出を提案。
従来のマルチクラス分類とLLM埋め込み手法の限界に対処。

偏見除去が逆効果になるとき：前処理ベースのステレオタイプ緩和の直感に反する副作用

2026-07-10 13:00 UTC+9

自然言語処理における前処理ベースのステレオタイプ緩和手法は、対象グループの測定可能なステレオタイプを低減する一方で、他の人口統計グループ（無関係なカテゴリを含む）に対してステレオタイプ化または反ステレオタイプ化が中立ベースラインと比較して増加するという意図しないシフト（副作用）を引き起こすことが多い。この研究では、エンコーダーのみとデコーダーのみの2つのモデルファミリー、複数の前処理戦略（ステレオタイプ文の削除、グループ言及の削除、グループ参照の交換）、およびウィキペディア上の異なるデータ規模での事前学習および事後学習にわたってこれらの副作用を示している。標準的なベンチマークはこれらのシフトを見逃すことが多い。アテンションロールアウト分析により、このような副作用はアテンションフローの大きな変化を伴わず、メカニズムの説明が複雑になることが観察された。評価への影響を議論し、実用的な診断方法を提供し、副作用を意識した透明な緩和実践を主張する。

前処理ベースの偏見除去は、非対象グループに対するステレオタイプを増加させる副作用を引き起こす可能性がある。
副作用はエンコーダーのみおよびデコーダーのみのモデル、複数の前処理戦略、異なるデータ規模で発生する。

人間とLLMの協働によるスケーラブルで文化特異的なステレオタイプデータセットの構築

2026-07-10 13:00 UTC+9

本研究は、コスト効率の高い人間とLLMの協働アノテーションフレームワークを提案し、スペイン語でEspanStereoデータセットを構築。複数のスペイン語圏の文化特異的な偏見を捉え、LLMのステレオタイプ行動が国によって大きく異なることを示した。

LLMが生成した候補ステレオタイプを現地のアノテーターが検証する人間-LLM協働フレームワークを提案。
欧州とラテンアメリカの複数のスペイン語圏をカバーするEspanStereoデータセットを構築。

次に何を言うべきか？ハリース統合主義を豊かにするバレンホルツの自己生成理論

2026-07-10 13:00 UTC+9

本論文は、バレンホルツの自己生成言語理論がハリース統合主義を強化し、記号の将来的開放性、言語と非言語的記号活動の連続性、統合のアーカイブに関する構造的メカニズムを提供することを論じる。自然言語処理と大規模言語モデルの設計に洞察を与え、統計的構造の本質と限界を明らかにする。

統合主義言語学には説明上のギャップがある。
自己生成理論は記号の開放性、記号連続性、アーカイブ理論を提供する。

DeepSearch-World：検証可能な環境におけるディープサーチエージェントの自己蒸留

2026-07-10 13:00 UTC+9

DeepSearch-Evolveは、決定論的で検証可能な環境DeepSearch-Worldに基づいたウェブエージェント向け自己蒸留フレームワークです。42万件のマルチホップQAタスクを含み、進捗確認や障害回復などの認知行動をサポートします。教師蒸留なしで、DeepSearch-World-9BはBrowseCompで31.2%、GAIAで61.5%、HotpotQAで93.4%を達成し、検証可能な環境が長期的なウェブエージェントの自己進化を可能にすることを示しています。

DeepSearch-Evolveは教師モデルなしでエージェントを改善する自己蒸留フレームワークです。
DeepSearch-Worldは42万件の再現可能なマルチホップQAタスクを提供します。

ソルバーから研究へ：大規模言語モデルが導くフロンティア形式数学

2026-07-10 13:00 UTC+9

本ポジションペーパーは、AI for Mathematics（AI4Math）分野の最近の進展、特に大規模言語モデル（LLM）駆動の定理証明器による形式証明生成の成功を概観する。しかし、既存システムは新定理の発見や未解決予想の解決など、未定義で抽象度の高い最前線の研究数学には根本的に対応できない。著者らは、AI4Mathシステムを所定の問題ソルバーから厳密な形式数学的推論が可能な研究エージェントへと転換する必要性を主張し、データセット、関係構造、数学的探索、ツールエコシステム、人間-AI協調における核心的限界を特定し、将来の戦略的ロードマップを示す。

LLM駆動の定理証明器は明確な問題に対する形式証明生成で成功を収めたが、オープンエンドな研究には不十分。
現行システムは抽象性、不完全な仕様、探索を要するフロンティア数学に根本的な限界がある。

MetaNCAによるアーキテクチャ汎化

2026-07-10 13:00 UTC+9

本論文では、局所更新ルールを用いてニューラルネットワークの重みを自己組織化するMeta Neural Cellular Automata (MetaNCA) フレームワークを提案。逆伝播なしに多様なアーキテクチャの重みを生成し、未見のアーキテクチャにも汎化できる。

生物学的ニューロンの局所相互作用に着想を得て、局所ルールでネットワーク重みを更新。
線形注意機構を用いて近傍の重み信号を集約するWeight Transformerアーキテクチャを提案。

Jet-Long: 動的二焦点RoPEによる効率的な長コンテキスト拡張

2026-07-10 13:00 UTC+9

Jet-Longは、動的二焦点RoPEを使用して大規模言語モデルのコンテキストウィンドウを拡張する、チューニング不要のゼロショット手法を提案する。シーケンス長に応じてリスケーリング係数を適応させ、複数のベンチマークで高い効率と強力な性能を達成する。

既存のゼロショットコンテキスト拡張手法は固定のリスケーリング係数を使用し、短いコンテキストと長いコンテキストの間にトレードオフがある。
Jet-Longは局所ウィンドウと長距離ウィンドウを備えた動的二焦点RoPEを採用し、シーケンス長に基づいて自動的にリスケーリング係数を調整する。

SHIFT：不完全で不均一なゲノムデータからの生存予測

2026-07-10 13:00 UTC+9

SHIFTは、マスク付き自己注意機構と特徴利用可能性マスクを用いて、テスト時の補完なしに不完全なゲノム入力から直接予測する欠損認識生存モデルです。トレーニング中に可変レートの特徴マスキングを導入し、異質な欠損パターンに対するロバスト性を向上させます。膠芽腫と肺扁平上皮癌の複数コホートで評価した結果、SHIFTは強力な一般化を示し、標準的な生存ベースラインや補完ベースの手法を上回り、精密腫瘍学における多施設生存予測のための実用的な戦略として欠損認識モデリングを支持します。

テスト時の補完なしで不完全なゲノムデータを処理
マスク付き自己注意と特徴利用可能性マスクを使用

不確実性ゲート付き選択：ブロックスパース注意機構の効率化

2026-07-10 13:00 UTC+9

長文脈言語モデルにおけるブロックスパース注意機構の固定 top-k 打ち切りは、スコアが拮抗したブロックを見落とす問題がある。本稿では、クエリごとの不確実性に基づき保持ブロック数を動的に増やすルーターを提案し、再現率を大幅に向上させる。

ブロックスパース注意機構の top-k 選択は、隣接ブロックのスコアが近いと近視眼的になる。
提案ルーターは打ち切りの確実性を測定し、不確実なクエリに対して保持ブロック数を倍増する。

モデル

関連タグ

モデルの最新ニュース

人気AIモデルの政治的中立性ベンチマーク

Mira Murati率いるThinking Machines Lab、カスタマイズ可能なモデル重みに基づく人間中心AIの技術的根拠を提示

sqlite-utils 4.1 リリース

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

Mesh LLM: iroh上での分散AIコンピューティング

2つのLLMがライブチェスをプレイし、各ゲーム後に自らの脳を書き換える

AIエージェントの出力を評価する無料ツールを構築しました（人間のラベルとLLM審査員）

RAG評価フレームワーク比較：RAGAS vs TruLens vs DeepEval

2026年中期AIモデルティアリスト

アントグループのRobbyant、LingBot-VA 2.0を発表：物理AI向けにネイティブ構築された因果ビデオアクションモデル

AINews：今日は穏やかな一日、モデル発表ラッシュの後の休息

GDP.pdf：フロンティアモデルは世界を動かす文書を習得できるか？

DeepSeek V3.2がHugging Bayで公開

Meta、公開アカウントのAIディープフェイク作成を可能にしたInstagram機能を停止

中国のオープンAIモデルが世界のソフトパワーを強化

本番AIエージェントをGPT 5.6に移行

Kyutai、MuScriptorを公開：マルチインストゥルメント音楽をMIDIに変換するオープンウェイトのデコーダ専用Transformer

OpenAIモデルが世界プログラミングコンテストでトップ人間プログラマーを圧倒

今週のAI：チップ、規制、そして変化する仕事

Amazon SageMaker AI サーバーレスモデルカスタマイゼーションで NVIDIA Nemotron 3 モデルを微調整

SageMaker HyperPod でのLLM推論のための分離型プリフィルとデコード

GPT-5.6が新たなAI規制を反映する方法

初心者のためのファインチューニング解説（事前学習済みモデルが新しいスキルを学ぶ方法）

Google Research、SensorFMを発表：1兆分のセンサーデータで事前学習されたウェアラブルヘルス基礎モデル

「AINews」OpenAIがGPT 5.6 Sol/Terra/Lunaを発表、CodexがChatGPTスーパーアプリに

LingBot-World-Infinityの紹介：オープンな因果的世界モデルとエージェントハーネス

GPT-5.6 登場：Sol、Terra、Luna

衝突時間に基づく動的障害物回避：未構造環境におけるロボットのための事前学習済みビジョンモデルの利用

STEMbot：植物の葉冠下を航行する準拠型ロボット

APIVOT: 適応的な視覚言語思考のインターリーブによる長期的ロボット計画

SAGA: 自己回帰ビデオ生成のための安定加速ガイダンス

LightCrafter: PBR条件付きビデオ拡散精錬による制御可能で一貫したリライティング

FedTR: 産業用ビジュアル検査のための転移学習を組み込んだ連合学習フレームワーク

LOGOS：言語ガイドによる航空シーンの指向性物体検出

敵対的デコイ：Vision Transformerにおける注意ベース防御の誤誘導

GIRAF：関節物体との汎化可能な人間インタラクションに向けて

DreamCharacter-1：3D生成基盤モデルから製品レベルのキャラクター生成へ

幻覚セルフプレイ：進化する生成器による強化学習型検出器のブートストラップ

全二重音声エージェントにおけるLALM音声審査員の信頼性評価

あり得ないトークンが強化されるとき：LLM強化学習のためのテール認識クレジット調整

MiniLM埋め込みによるアウトオブスコープ意図検出のためのマルチクラスター境界学習法

偏見除去が逆効果になるとき：前処理ベースのステレオタイプ緩和の直感に反する副作用

人間とLLMの協働によるスケーラブルで文化特異的なステレオタイプデータセットの構築

次に何を言うべきか？ハリース統合主義を豊かにするバレンホルツの自己生成理論

DeepSearch-World：検証可能な環境におけるディープサーチエージェントの自己蒸留

ソルバーから研究へ：大規模言語モデルが導くフロンティア形式数学

MetaNCAによるアーキテクチャ汎化

Jet-Long: 動的二焦点RoPEによる効率的な長コンテキスト拡張

SHIFT：不完全で不均一なゲノムデータからの生存予測

不確実性ゲート付き選択：ブロックスパース注意機構の効率化

トピック

モデル

Agent

チップ

政策

研究

スタートアップ

ロボット

ツール