モデル AI ニュース

モデルの最新ニュース

違法なAI生成コンテンツから子供を守る新手法

2026-07-13 13:00 UTC+9

MITとThornの研究者らは、生成AIモデルが児童性的虐待素材（CSAM）を生成可能かどうかを、出力を生成せずに内部の適応を分析して検出する監査手法を開発した。テストでは100%の精度を達成し、拡張性も高いため、プラットフォームや法執行機関が有害なモデルを特定・除去する実用的なツールとなる。

新しい監査手法はLoRAアダプターにガウスプロービングを用い、コンテンツを生成せずにCSAM生成能力を検出する。
テストではCSAM生成に特化したモデルを100%の精度で識別した。

NeuroVFM：未キュレーションの臨床MRIおよびCTボリュームでVol-JEPAを用いて訓練された新しいニューロイメージング基盤モデル

2026-07-13 09:35 UTC+9

ミシガン大学の研究チームが開発したNeuroVFMは、524万の臨床MRIおよびCTボリュームで訓練された汎用ニューロイメージング基盤モデルです。Vol-JEPA手法は自己教師あり学習をボリューメトリック医用画像に拡張し、放射線レポートラベルなしで脳解剖学と病理を学習します。156の診断タスクでCT 92.68、MRI 92.49のAUROCを達成し、レポート生成、トリアージ、クロスモーダル転送をサポートします。

NeuroVFMは56万6915件の研究から得られた524万ボリュームで訓練され、20年間の臨床データをカバー。
Vol-JEPAは前景焦点型マスク潜在予測を使用し、ピクセル再構成やレポートに依存しない。

直接責任者（DRI）

2026-07-13 08:57 UTC+9

「直接責任者（DRI）」の概念はAppleに起源を持ち、プロジェクトの成功または失敗に最終的に責任を負う人物を指します。著者は、LLMを搭載したエージェントは決してDRIと見なされるべきではないと主張します。なぜなら、人間だけが責任を取ることができ、機械にはそれができないからです。これは、IBMの1979年のトレーニングスライド「コンピュータは責任を問われることができないため、経営判断を下してはならない」を引用しています。

DRIの概念はApple発祥で、GitLabハンドブックに最良の定義あり。
人間は責任を取れるが、機械は取れない。

Grok 4.6とGPT5.6、PRのセキュリティ脆弱性発見でAnthropicを凌駕

2026-07-13 07:57 UTC+9

最新のベンチマーク結果によると、GPT-5.6 SolがPRセキュリティレビューで最高パフォーマンスを示し、100%の再現率と0.91のF1スコアを達成、1PRあたりのコストはわずか0.70ドル。Anthropicのモデル（Fable 5など）はフロンティアに到達できず、コストも高い。Grok 4.5とGemini 3.1 Flash Liteはコスト効率の良い選択肢を提供する。テストではデータ汚染を防ぐため非公開の合成リポジトリを使用。

GPT-5.6 SolがF1 0.91、再現率100%を達成し、コストは1PRあたり0.70ドル。
Anthropicモデルはフロンティアに達せず、Fable 5は性能が低くコストは約3.61ドル/PR。

Fable の利用期限が再延長

2026-07-13 06:20 UTC+9

GPT-5.6 Sol が Fable/Mythos クラスのモデルと明確に位置づけられたことを受け、Anthropic は Claude Max プランにおける Fable モデルの利用期限を 7 月 19 日まで再延長しました。理由は計算リソースの制約で、OpenAI は GPT-5.6 のアクセス制限に自信を見せています。筆者は Anthropic が Fable を恒久的に利用可能にするべきだと提案しています。

Anthropic が Claude Fable 5 のアクセスを 7 月 19 日まで延長。
延長の理由は計算リソースの制約と需要評価のため。

AIモデルの共同設計：ハードウェアに優しいLLM設計

2026-07-13 04:35 UTC+9

AIのパフォーマンスは、精度、スループット、インタラクティビティの3つの次元で決まります。本稿ではスループットとインタラクティビティに焦点を当て、精度を犠牲にすることなく両方を最適化するモデル設計の選択肢を探り、パレートフロンティアを外側に押し広げることを目指します。

AIパフォーマンスの3次元：精度、スループット、インタラクティビティ。
展開ではこれら3つをバランスする必要があり、応答が遅ければ高精度は無駄になる。

GPT-5.6、Fable 5、Grok 4.5が同一仕様からBasecampを再構築

2026-07-13 02:02 UTC+9

著者はBasecamp Benchベンチマークを用いて、GPT-5.6 Sol、Fable 5、Grok 4.5などのAIモデルがフロントエンドとバックエンドを構築する能力を評価しました。Fable 5が両トラックで勝利し、Grok 4.5は速度とコストのバランスに優れていました。結果は、特に最後の10%の仕上げにおいて、モデル間で完成度に大きな差があることを示しています。

Fable 5はフロントエンドとバックエンドの両方で最高スコアを獲得し、実際のBasecamp実装に近い。
Grok 4.5は37分、9.30ドルで構築を完了し、速度とコストのトレードオフが最良。

SlimeBallBench · AIモデルがスライムサッカーをプレイ

2026-07-12 21:36 UTC+9

SlimeBallBenchは、AIモデルがスライムサッカーで競う新しいベンチマークであり、意思決定と戦略能力を評価します。

SlimeBallBenchはスライムサッカーでのAIのパフォーマンスをテスト
このベンチマークはAIの意思決定と戦略立案を評価

The Sequence Radar #893：先週のAI：GPT-5.6、Grok 4.5、Muse Spark 1.1、そしてポストチャットボットスタック

2026-07-12 20:02 UTC+9

最先端のAIラボはチャットボットから統合システムへと移行しており、モデルがランタイムとして機能し、ほぼ毎月のように強力なモデルとエージェントがリリースされています。今週のハイライトは、OpenAIのGPT-5.6（プログラムによるツール呼び出し）、GPT-Live（全二重音声）、ChatGPT Work（成果物作成）、MetaのMuse Spark 1.1（アクティブコンテキスト管理）、Grok 4.5（コーディングと知識作業）です。研究アップデートでは、コーディングベンチマークの問題、選択的アンラーニング、エージェント自己進化、投機的デコード、交通ルーティングが取り上げられています。業界ニュースでは、Lovable、Prime Intellect、SambaNova、Norm Ai、Ollamaの大型資金調達が注目されます。

OpenAIがGPT-5.6（Sol、Terra、Luna）をリリース。プログラムによるツール呼び出しと並列サブエージェントを搭載。
GPT-Liveは全二重音声対話を実現し、ターン制から連続的な対話へと移行。

Mira Murati率いるThinking Machines Lab、カスタマイズ可能なモデル重みに基づく人間中心AIの技術的根拠を提示

2026-07-12 09:46 UTC+9

Thinking Machines Labは「構築する価値のある未来は人間である」と題する報告書を発表。人間参加、モデル所有権、分散型アライメントを技術的課題と位置づけ、インタラクションモデルとTinkerのLoRA微調整に結びつけ、チームが独自のモデル重みを訓練し保持できるようにする。

Thinking Machines Labは分散型でカスタマイズ可能なAIを提唱。
暗黙知・局所知の存在がAIの分散を要請する。

sqlite-utils 4.1 リリース

2026-07-12 08:50 UTC+9

sqlite-utils 4.1 は 4.0 から数日後の最初のドットリリースであり、いくつかのマイナーな新機能を導入しています。インサートおよびアップサートコマンドに --code オプションが追加され、インラインのPythonコードから行を生成できるようになりました。また、CSV/TSVインポート時に列タイプをオーバーライドする --type オプション、インデックス削除コマンド、標準入力からのSQLクエリ読み取り機能が追加されました。さらに、table.transform() で STRICT モードの切り替えが可能になりました。

insert/upsert に --code オプションを追加、インラインPythonコードで行生成
新たに --type オプションでテーブル作成時の列タイプを指定可能に

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

2026-07-12 07:54 UTC+9

Mac Studio上でQwen3.5-122Bを実行する際、3つのバグが原因でキャッシュが無効になり、長文コンテキストでの応答が数分待たされる問題が発生していた。これらのバグを修正した結果、プリフィル時間が88秒から0.64秒に短縮され、会話の流れを妨げなくなった。

Qwen3.5-122BモデルはMac Studioでハイブリッドアテンションによりプレフィックスキャッシュが頻繁にミスしていた。
3つのバグ：システムプロンプトのタイムスタンプ、中断時の応答未保存、チェックポイントストアのゴミ書き込み。

Mesh LLM: iroh上での分散AIコンピューティング

2026-07-12 07:38 UTC+9

Mesh LLMは、irohネットワークを介して複数のマシンのGPUとメモリをプールし、OpenAI互換のAPIを提供する新しい分散型AIコンピューティングシステムです。ローカルまたはピアノード上でモデルを実行したり、大規模モデルを複数のマシンに分割して実行できます。AIコンピューティングのコスト高と制御不足の問題を解決し、中央サーバーに依存せずにプライベートデプロイや公開グリッドをサポートします。

Mesh LLMは複数のマシンのGPUリソースをプールし、統一されたOpenAI互換APIを提供
ローカル実行、ピアへのルーティング、または複数マシンへのモデル分割をサポート

2つのLLMがライブチェスをプレイし、各ゲーム後に自らの脳を書き換える

2026-07-12 06:44 UTC+9

ChatGPT 5.5とClaude Fable 5がリアルタイムでチェス対決を行い、ユーザーは無料でAIに挑戦できます。AIは夜間の復習で人間の手を学習します。また、リアルタイムのトレーディング戦略も実行しています。

ChatGPT 5.5とClaude Fable 5のライブチェス対決
ユーザーは無料でAIに挑戦可能

AIエージェントの出力を評価する無料ツールを構築しました（人間のラベルとLLM審査員）

2026-07-12 04:55 UTC+9

Verdictは、AIエージェントの出力を評価するためのオープンソースのブラウザベースツールです。人間によるラベリング、グラウンデッド・セオリーによるエラー分析、LLM審査員の人間ラベルに対する検証を、データを外部に送信することなくローカルで実行できます。

Verdictはブラウザ上で完全に動作し、バックエンドやアカウントは不要。
複数のトレース形式をサポートし、クリーンなチャットタイムラインを提供。

RAG評価フレームワーク比較：RAGAS vs TruLens vs DeepEval

2026-07-12 03:16 UTC+9

本記事では、RAGAS、TruLens、DeepEvalの3つの主要なRAG評価フレームワークを深く比較します。RAGに特化した評価が必要な理由、評価の3層（検索品質、生成品質、エンドツーエンド品質）、および主要な検索指標（Precision@K、Recall@K、MRR、NDCG）を解説します。その後、RAGAS（LLM判定役、正解データ不要、合成テストセット生成機能）とTruLens（可観測性、RAGトライアド、ダッシュボード）を詳述し、DeepEvalについても簡単に触れ、フレームワーク選択の指針を提供します。

RAGシステムは、BLEU/ROUGEでは検索と生成の失敗を捉えきれないため、専用の評価が必要です。
RAGASはLLMを判定役とし、正解データなしでスコアリングでき、ドキュメントからテストセットを自動生成します。

2026年中期AIモデルティアリスト

2026-07-12 00:43 UTC+9

著者がコーディングと監査の経験に基づき、2026年中期の主要AIモデルを非公式にランク付け。Anthropic Fable、OpenAI Sol、Mistral、Gemini、DeepSeekを対象とし、米国の輸出規制や欧州の視点も含む。

Fable（Anthropic）はB評価：流暢だが信頼性に欠け、バグを隠す傾向がある。
Sol（OpenAI）はS評価：低レベルコードとテストで信頼できる。

アントグループのRobbyant、LingBot-VA 2.0を発表：物理AI向けにネイティブ構築された因果ビデオアクションモデル

2026-07-11 16:56 UTC+9

アントグループのRobbyantは、LingBot-VA 2.0のテクニカルレポートを公開しました。これは、ビデオジェネレーターからファインチューニングするのではなく、最初から身体性AI向けに構築された物理AIビデオアクションファンデーションモデルです。先見推論により実行前に将来の状態を予測し、実際の観測ごとに再接地し、225 Hzの非同期制御を実現します。本稿では、因果DiT、スパースMoEビデオストリーム、意味的ビジュアルアクショントークナイザー、および論文内の数値の不一致を解説します。

LingBot-VA 2.0は、ビデオジェネレーターの微調整ではなく、身体性AI向けにネイティブにプレトレーニングされた因果ビデオアクションモデルです。
因果DiTとスパースMoEアーキテクチャ、意味的トークナイザーを採用し、先見推論によるリアルタイム制御を実現。

AINews：今日は穏やかな一日、モデル発表ラッシュの後の休息

2026-07-11 11:53 UTC+9

一週間のモデル発表ラッシュの後、今日は比較的穏やかな一日でした。主なニュースは、GPT-5.6の混乱した公開と迅速な修正、MetaのMuse Spark 1.1、オープンソースモデルの最適化、そしてセキュリティへの懸念です。

GPT-5.6が36のバリアントとUX問題でローンチされ、迅速な修正が行われる。
MetaのMuse Spark 1.1が攻撃的な価格設定でフロンティアに迫る品質を提供。

GDP.pdf：フロンティアモデルは世界を動かす文書を習得できるか？

2026-07-11 11:26 UTC+9

GDP.pdfは、現実世界のPDF文書を処理するAIモデルの能力を評価する新しいベンチマークです。金融、法律、医療など10の分野をカバーし、最先端モデルでもGPT-5.5の25%が最高で、全モデルが30%未満のスコアに留まりました。PDFが世界経済の命脈であること、そしてモデルの失敗が重大な結果を招く可能性を強調しています。

GDP.pdfベンチマークは、10の専門分野にわたる100の実世界のプロンプトとPDFで構成されています。
すべてのフロンティアモデルは30%未満のスコアで、GPT-5.5が25%でトップでした。

DeepSeek V3.2がHugging Bayで公開

2026-07-11 10:44 UTC+9

DeepSeek V3.2がHugging Bayで利用可能になりました。Hugging Bayは、出所、ライセンス検証、信頼できるホスティングを提供するオープンソースAIアーティファクトレジストリです。

DeepSeek V3.2がHugging Bayで公開されました。
Hugging Bayは出所と信頼機能を備えたオープンレジストリです。

Meta、公開アカウントのAIディープフェイク作成を可能にしたInstagram機能を停止

2026-07-11 08:49 UTC+9

Metaは今週発表した、公開Instagramアカウントをタグ付けするだけでAI画像を生成できる機能を、強い反発を受けて停止した。この機能は当初、アカウント所有者の許可なしに公開コンテンツをAI生成に利用できるようにしていた。

Metaが今週公開した、公開Instagramアカウントのコンテンツを利用したAI画像生成機能が批判を受け停止。
この機能はアカウント所有者の許可なしに公開コンテンツを利用可能だった。

中国のオープンAIモデルが世界のソフトパワーを強化

2026-07-11 06:45 UTC+9

中国のオープンAIモデルは、国際的な協力とイノベーションを促進し、世界のAIエコシステムにおける中国のソフトパワーを向上させています。

中国のオープンAIモデルが国際協力と技術交流を促進
世界のAI分野における中国の影響力とソフトパワーを強化

本番AIエージェントをGPT 5.6に移行

2026-07-11 05:40 UTC+9

Ploy社はAIエージェントをClaude Opus 4.8からOpenAIが新たにリリースしたGPT-5.6 Solに移行し、ビルド速度2.2倍、コスト27%削減、ビジュアルスコア向上を達成しました。移行では、ツール呼び出しのパラメータ設定、プロンプトキャッシュの違い、推論リプレイの問題を解決する必要がありました。

GPT-5.6 Solは速度、コスト、品質でClaude Opus 4.8を上回る
ツール呼び出しの全パラメータ入力問題をスキーマ変換で解決

Kyutai、MuScriptorを公開：マルチインストゥルメント音楽をMIDIに変換するオープンウェイトのデコーダ専用Transformer

2026-07-11 05:21 UTC+9

MuScriptorはKyutaiとMireloが開発したオープンウェイトのデコーダ専用Transformerであり、マルチインストゥルメントのオーディオをMIDIに変換します。訓練は三段階で行われます：145万の合成MIDIによる事前訓練、17万の実録音（1万1千時間以上）による微調整、および300の手動検証済みトラックによる強化学習。DTestベンチマークではMulti F1が48.2%に達し、YourMT3+ベースラインの21.9%を大きく上回ります。103M、307M、1.4Bパラメータの3サイズが提供され、推論コードはMITライセンス、重みはCC BY-NC 4.0です。

MuScriptorはKyutaiとMireloによるオープンウェイトのデコーダ専用Transformerで、マルチインストゥルメント音楽をMIDIに変換する。
三段階訓練：合成データでの事前訓練、17万の実録音での微調整、300の手動検証トラックでの強化学習。

OpenAIモデルが世界プログラミングコンテストでトップ人間プログラマーを圧倒

2026-07-11 03:16 UTC+9

2026年のAtCoderワールドツアーファイナルで、OpenAIのAIモデルがヒューリスティック部門とアルゴリズム部門の両方で人間トップ選手を破り、人間が解けなかった問題も解決した。主催者は「人類降伏賞」を授与。これがプログラミングコンテストで人間がトップAIに勝つ最後の現実的な機会だったかもしれない。

OpenAIモデルが2026年AtCoderファイナルのヒューリスティック部門で人間を大きく上回った。
アルゴリズム部門では5問すべてを解決し、うち2問は12人の人間誰も解けなかった。

今週のAI：チップ、規制、そして変化する仕事

2026-07-11 01:04 UTC+9

今週のAIニュース：IBMが0.7ナノメートルチップ技術を発表、OpenAIとBroadcomが推論専用チップJalapeñoを公開、NVIDIAが全液冷AI工場設計を披露。政府の監視強化：Anthropicがモデルへのアクセスを再開、OpenAIが米政府への株式譲渡を提案。職種の進化：フォワードデプロイエンジニア、SAPの外部採用とIKEAの内部再教育に焦点。

IBMが0.7nmチップを発表、性能50%向上、消費電力70%削減。
OpenAIとBroadcomがLLM推論専用チップJalapeñoを発表。

Amazon SageMaker AI サーバーレスモデルカスタマイゼーションで NVIDIA Nemotron 3 モデルを微調整

2026-07-11 00:35 UTC+9

この記事では、NVIDIA Nemotron 3 モデルの独自のアーキテクチャ（Mamba-Transformer MoE ハイブリッド、最大 1M トークンのコンテキスト長対応）を探り、利用可能な微調整手法（SFT、RLVR、RLAIF）を説明し、SageMaker Studio を使用したサーバーレスカスタマイゼーションのステップバイステップガイドを提供します。

NVIDIA Nemotron 3 は Mamba-Transformer ハイブリッド MoE アーキテクチャを採用し、パラメータの一部のみを活性化して効率的に動作します。
Amazon SageMaker AI は Nemotron 3 Nano および Super 向けにサーバーレスモデルカスタマイゼーションを提供し、インフラ管理は不要です。

SageMaker HyperPod でのLLM推論のための分離型プリフィルとデコード

2026-07-11 00:20 UTC+9

この記事では、Amazon SageMaker HyperPod上でvLLMとHyperPod推論オペレーターを使用して、分離型プリフィルとデコード（DPD）を実装する方法を説明します。DPDはプリフィルとデコードのフェーズを別々のGPUプールに分離し、長いプロンプトによる干渉を排除して、ファーストトークン遅延とトークン間遅延を改善します。

DPDはLLM推論のプリフィルとデコードを独立したGPUプールで実行する。
長いコンテキストの高同時実行ストリーミングワークロードに特に効果的。

GPT-5.6が新たなAI規制を反映する方法

2026-07-10 23:40 UTC+9

このリリースは、米国政府が現在AIモデルの分野で持つ力を示しています。ChatGPT Workは、OpenAIがエンタープライズベンダーへと進化し続けていることを浮き彫りにしています。

米国政府のAI規制における影響力が増大している。
GPT-5.6のリリースは新たな規制環境を反映している。

初心者のためのファインチューニング解説（事前学習済みモデルが新しいスキルを学ぶ方法）

2026-07-10 23:00 UTC+9

この記事では、ファインチューニングの概念をわかりやすく説明します。事前学習とファインチューニングの違い、2つの主要なタイプ（フルファインチューニングとパラメータ効率的ファインチューニング）、そして他の手法よりもファインチューニングを選ぶべきタイミングについて解説します。

事前学習によりモデルは一般的な言語知識を習得し、ファインチューニングの基盤を築く。
ファインチューニングでは、少量の高品質なタスク固有データを使用してモデルを特定のタスクに適応させる。

Google Research、SensorFMを発表：1兆分のセンサーデータで事前学習されたウェアラブルヘルス基礎モデル

2026-07-10 17:52 UTC+9

Google Research、Google DeepMind、および大学の共同研究者は、500万人の参加者から得られた1兆分以上のセンサーデータで事前学習されたウェアラブルヘルス向け基礎モデルSensorFMを発表しました。ViT-1Dマスクド・オートエンコーダをバックボーンとし、大規模データでのスケーリング特性を示します。凍結された埋め込みにPCA-50線形プローブを組み合わせることで、35タスク中34タスクで特徴エンジニアリングベースラインを上回りました。また、30,516個の予測ヘッドを探索したエージェント教室と、パーソナルヘルスエージェントを評価する臨床医評価についても詳述されています。

SensorFMは500万人、1兆分超のセンサーデータで事前学習され、100カ国以上、20種以上のウェアラブル端末をカバー。
適応的継承マスキング（AIM）により欠損データを効果的に処理し、再構成誤差を最大83.7%削減。

「AINews」OpenAIがGPT 5.6 Sol/Terra/Lunaを発表、CodexがChatGPTスーパーアプリに

2026-07-10 15:19 UTC+9

OpenAIは3つの新しいGPT-5.6モデル（Sol、Terra、Luna）を発表し、アプリ層も大幅に更新してChatGPT WorkとCodexを統合しました。新モデルはベンチマークで低コストながら高い性能を示し、Solが最も強力です。独立評価では、特にコーディングやエージェントタスクで最前線に近い結果が確認されています。

OpenAIがGPT-5.6を3サイズでリリース：旗艦Sol、中位Terra、低コストLuna。
新しいultra推論レベルは複数のエージェントを並列調整し複雑なタスクを処理。

LingBot-World-Infinityの紹介：オープンな因果的世界モデルとエージェントハーネス

2026-07-10 13:38 UTC+9

アントグループのエンボディードインテリジェンス部門Robbyantは、LingBot-World-Infinity（LingBot-World 2.0）をリリースしました。これは140億パラメータの因果的ビデオ生成モデルで、対話型世界シミュレーターとして機能します。核心技術は双方向自己回帰混合注意マスク（MoBA）と分布マッチング蒸留であり、長期的ドリフトを解決します。ディレクター・パイロットエージェントハーネスにより無限のビデオ生成が可能です。論文は60分のセッションを示していますが、オープンソースリリースは1つのチェックポイントと480Pスクリプトのみで、デプロイコードや定量的ベンチマークが欠けており、非商用ライセンスです。

LingBot-World-InfinityはアントグループのRobbyantによる140億パラメータの因果的ビデオ生成モデルで、対話型世界シミュレーションを実現。
MoBA注意機構と分布マッチング蒸留により、世界モデルの長期的ドリフトを抑制。

GPT-5.6 登場：Sol、Terra、Luna

2026-07-10 13:19 UTC+9

OpenAI が GPT-5.6 シリーズを発表。フラッグシップの Sol、ワークホースの Terra、高速な Luna の3モデルで、全ユーザーが無料で利用可能。価格、性能、安全性、ハンズオンテストの詳細を解説。

3モデル：Sol（フラッグシップ）、Terra（実務用）、Luna（高速）、全ユーザーに無料開放。
価格：Sol 標準 $5/$30、高速版 $12.50/$75、Terra $2.50/$15、Luna $1/$6（100万トークンあたり）。

衝突時間に基づく動的障害物回避：未構造環境におけるロボットのための事前学習済みビジョンモデルの利用

2026-07-10 13:00 UTC+9

データ効率が高く解釈可能な視覚ベースの動的障害物回避手法を提案。事前学習済み単眼深度推定モデルUniDepthと特徴対応パイプラインSuperPoint+SuperGlueを活用し、各キーポイントの衝突時間（TTC）を計算して回避動作を選択。M3EDデータセットでの評価では、精度0.49、再現率0.38を達成し、22個の障害物のうち20個でTTCが1秒未満のフレームを検出。ロボット専用モデルの訓練は不要で、ハイパーパラメータ調整に74秒のデータのみを必要とする。

事前学習済みモデルUniDepthとSuperPoint+SuperGlueを用いた訓練不要の回避手法
キーポイントごとの衝突時間（TTC）計算と地面運動プリミティブの選択

STEMbot：植物の葉冠下を航行する準拠型ロボット

2026-07-10 13:00 UTC+9

STEMbotは、植物の葉冠下を自律航行するために設計された小型の攀じ登りロボットで、早期害虫検出を目的とする。PIN-SLAMとセマンティックOcTreeを統合し、多様体制約A*プランナーを使用して、7～33mmの茎での信頼性の高い移動を実現し、再構築精度は1cm未満。

有機農業における害虫監視の労働力問題に取り組み、早期発見を可能にする。
幾何学的PIN-SLAMとセマンティックOcTreeを組み合わせ、堅牢な位置推定とマッピングを実現。

APIVOT: 適応的な視覚言語思考のインターリーブによる長期的ロボット計画

2026-07-10 13:00 UTC+9

APIVOTは、言語思考と視覚思考を適応的にインターリーブすることで、長期的なロボット計画の成功率と推論効率を向上させるVLMベースのプランナーです。空間制約のあるキッチンタスクにおいて、汎用VLMや既存の計画フレームワークを大幅に上回る性能を示しました。

APIVOTは意味的推論に言語思考を、幾何学的実現可能性の検証に視覚思考を適応的に活用。
長期的なキッチンタスクにおいて、特に空間制約のある環境で最大の性能向上を達成。

SAGA: 自己回帰ビデオ生成のための安定加速ガイダンス

2026-07-10 13:00 UTC+9

本論文では、自己回帰ビデオ拡散における時間的不安定性を改善するために、訓練不要の安定加速ガイダンス手法SAGAを提案する。加速領域スペクトルガイダンスと構造化ノイズ初期化により、ちらつきやジッターを低減し、時間品質と画像品質を向上させる。

自己回帰ビデオ拡散は長期生成において時間誤差が蓄積し、ちらつきや構造ドリフトを引き起こす。
SAGAは加速領域スペクトルガイダンスとノイズ初期化戦略により、再訓練なしで時間的安定性を向上させる。

LightCrafter: PBR条件付きビデオ拡散精錬による制御可能で一貫したリライティング

2026-07-10 13:00 UTC+9

LightCrafterは、ビデオリライティングをプロキシPBRレンダリングのビデオ翻訳として再構成する新しいハイブリッドパイプラインであり、物理ベースレンダリングと拡散モデルの強みを組み合わせて、長編動画の時間的一貫性と詳細な照明制御を実現し、実世界ベンチマークで従来手法を凌駕し、さらに分析用の合成ベンチマークを提供する。

ビデオリライティングをプロキシビデオ翻訳に変換するLightCrafterハイブリッドパイプラインを提案。拡散モデルに照明概念を教える必要がない。
PBRプロキシで照明制御を行い、CogVideoXの後訓練で大域照明などの複雑な効果を捉える。

FedTR: 産業用ビジュアル検査のための転移学習を組み込んだ連合学習フレームワーク

2026-07-10 13:00 UTC+9

FedTRは連合学習と転移学習を組み合わせ、産業用ビジュアル検査におけるデータ不足と複雑性の問題に対処し、ラベル欠陥識別で高精度を達成。

FedTRは転移学習を連合学習に統合し、産業用ビジュアル検査に適用。
公開データで事前学習後、分散したプライベートデータでファインチューニング。

LOGOS：言語ガイドによる航空シーンの指向性物体検出

2026-07-10 13:00 UTC+9

テキストプロンプトを活用して航空画像中の指向性物体検出をガイドする新しいTransformerベースの手法LOGOSを提案。DOTAデータセットで既存手法を上回り、特に密集・回転シーンで優れる。

LOGOSはプロンプト変調コンテンツクエリを用いてモデルの焦点を動的に調整し、複雑環境での検出精度を向上。
DOTAデータセットでの実験により、密集・回転物体シーンで最先端手法を凌駕。

敵対的デコイ：Vision Transformerにおける注意ベース防御の誤誘導

2026-07-10 13:00 UTC+9

研究者は、注意ベースの防御を回避するために、独立して最適化された画像パッチである敵対的デコイを提案しました。この手法は、誤分類と防御回避を分離し、攻撃非依存であり、既存の敵対的パッチ攻撃に容易に統合できます。ImageNetでの実験により、デコイが注意スコアを真の敵対領域から逸らしつつ攻撃効果を維持することが示され、注意の大きさを敵対的関連性の指標として使用することの根本的な限界が明らかになりました。

敵対的デコイは、Vision Transformerにおける注意を再指向し、注意ベースの防御を回避する独立最適化された画像パッチです。
この手法は誤分類と防御回避を分離し、攻撃非依存で既存のパッチ攻撃と統合可能です。

GIRAF：関節物体との汎化可能な人間インタラクションに向けて

2026-07-10 13:00 UTC+9

GIRAFは、関節物体との現実的な全身インタラクションを生成するテキスト条件付き拡散モデルです。物体中心表現、混合ドメイン訓練、接触ベースのデータ拡張により、移動、微細な接触、物体の関節動作を統合的に推論し、未見の物体構成への強い汎化を実現します。

既存モデルは静的物体や手のみの操作に限定され、全身協調が欠けていた。
物体中心表現で手-物体接触を物体表面に統合し、形状間の転移を可能に。

DreamCharacter-1：3D生成基盤モデルから製品レベルのキャラクター生成へ

2026-07-10 13:00 UTC+9

DreamCharacter-1は、事前学習済み3D基盤モデルを高忠実度で製品化可能な3Dキャラクター生成に調整する軽量後適応フレームワーク。幾何後トレーニング、テクスチャ後トレーニング、推論高速化の3つのコンポーネントで構成され、最先端手法を凌駕する性能を示す。

幾何後トレーニングで表面の微細なディテールを向上
テクスチャ後トレーニングで高解像度テクスチャを合成し隠れた領域を補完

幻覚セルフプレイ：進化する生成器による強化学習型検出器のブートストラップ

2026-07-10 13:00 UTC+9

LLM出力における忠実度幻覚の識別は、高品質なアノテーションデータの不足により困難である。本論文では、検出器と生成器が相互にブートストラップするフレームワーク「幻覚セルフプレイ（HSP）」を提案する。検出器は人間ラベルデータで微調整され、その後RLAIFによる生成器の訓練ための報酬モデルとして使用され、より検出困難な幻覚を生成する。進化した生成器の出力は、ルールベース強化学習により検出器をさらに最適化する。RAGTruthベンチマークと2つのモデルファミリーでの実験により、小型LLMが外部教師なしで高度なLLMに匹敵または凌駕できることが示された。

HSPフレームワークは検出器と生成器のセルフプレイにより幻覚検出を反復的に改善
検出器は人間データで微調整後、RLAIFによる生成器訓練の報酬モデルとして機能

全二重音声エージェントにおけるLALM音声審査員の信頼性評価

2026-07-10 13:00 UTC+9

新たな研究が、全二重音声エージェントの会話を評価する音声審査員としてのGeminiモデルの信頼性を評価。209のステレオセッションを8つの次元でスコアリングし、Gemini 2.5 Flashはほとんどの次元で人間の評価者と高い一致を示し、コストは人間の評価の約100分の1。モデル交換時には校正データによる再検証が必要と警告。

Gemini 2.5 FlashのLALM-人間間のSpearman rhoは、8次元中5次元で人間同士の差が最大0.07
LALMは6次元でセッションの60～92%において3人の人間評価者の平均と1点以内で一致

あり得ないトークンが強化されるとき：LLM強化学習のためのテール認識クレジット調整

2026-07-10 13:00 UTC+9

本論文は、LLMの強化学習における一様なクレジット割り当てが引き起こす「正のクレジット汚染」問題を特定し、TACO（Tail-Aware Credit calibratiOn）手法を提案する。TACOは、ローカル生成コンテキストに基づいて各トークンのテールリスクスコアを計算し、リスクの高いトークンへの正の更新を抑制する。3つのLLMと8つのベンチマークでの実験により、GRPOスタイルのベースラインを一貫して上回り、長期的RLの訓練安定性を向上させることを示した。

「正のクレジット汚染」問題を特定：低確率の誤ったトークンが妥当なトークンと同じ正のクレジットを得て、誤った推論行動が強化される。
TACOを提案：ローカル生成コンテキストからテールリスクスコアを計算し、リスクトークンの正のクレジットを動的に調整。

MiniLM埋め込みによるアウトオブスコープ意図検出のためのマルチクラスター境界学習法

2026-07-10 13:00 UTC+9

本研究では、MiniLM埋め込みを用いたマルチクラスター境界学習法を提案し、アウトオブスコープ（OOS）意図を検出します。従来のマルチクラス分類の精度低下やLLM埋め込みの大規模パラメータ問題を克服し、3つの公開データセットで最先端の性能を達成しました。

MiniLM埋め込みを用いたマルチクラスター境界学習法によるOOS意図検出を提案。
従来のマルチクラス分類とLLM埋め込み手法の限界に対処。

モデル

関連タグ

モデルの最新ニュース

違法なAI生成コンテンツから子供を守る新手法

NeuroVFM：未キュレーションの臨床MRIおよびCTボリュームでVol-JEPAを用いて訓練された新しいニューロイメージング基盤モデル

直接責任者（DRI）

Grok 4.6とGPT5.6、PRのセキュリティ脆弱性発見でAnthropicを凌駕

Fable の利用期限が再延長

AIモデルの共同設計：ハードウェアに優しいLLM設計

GPT-5.6、Fable 5、Grok 4.5が同一仕様からBasecampを再構築

SlimeBallBench · AIモデルがスライムサッカーをプレイ

The Sequence Radar #893：先週のAI：GPT-5.6、Grok 4.5、Muse Spark 1.1、そしてポストチャットボットスタック

人気AIモデルの政治的中立性ベンチマーク

Mira Murati率いるThinking Machines Lab、カスタマイズ可能なモデル重みに基づく人間中心AIの技術的根拠を提示

sqlite-utils 4.1 リリース

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

Mesh LLM: iroh上での分散AIコンピューティング

2つのLLMがライブチェスをプレイし、各ゲーム後に自らの脳を書き換える

AIエージェントの出力を評価する無料ツールを構築しました（人間のラベルとLLM審査員）

RAG評価フレームワーク比較：RAGAS vs TruLens vs DeepEval

2026年中期AIモデルティアリスト

アントグループのRobbyant、LingBot-VA 2.0を発表：物理AI向けにネイティブ構築された因果ビデオアクションモデル

AINews：今日は穏やかな一日、モデル発表ラッシュの後の休息

GDP.pdf：フロンティアモデルは世界を動かす文書を習得できるか？

DeepSeek V3.2がHugging Bayで公開

Meta、公開アカウントのAIディープフェイク作成を可能にしたInstagram機能を停止

中国のオープンAIモデルが世界のソフトパワーを強化

本番AIエージェントをGPT 5.6に移行

Kyutai、MuScriptorを公開：マルチインストゥルメント音楽をMIDIに変換するオープンウェイトのデコーダ専用Transformer

OpenAIモデルが世界プログラミングコンテストでトップ人間プログラマーを圧倒

今週のAI：チップ、規制、そして変化する仕事

Amazon SageMaker AI サーバーレスモデルカスタマイゼーションで NVIDIA Nemotron 3 モデルを微調整

SageMaker HyperPod でのLLM推論のための分離型プリフィルとデコード

GPT-5.6が新たなAI規制を反映する方法

初心者のためのファインチューニング解説（事前学習済みモデルが新しいスキルを学ぶ方法）

Google Research、SensorFMを発表：1兆分のセンサーデータで事前学習されたウェアラブルヘルス基礎モデル

「AINews」OpenAIがGPT 5.6 Sol/Terra/Lunaを発表、CodexがChatGPTスーパーアプリに

LingBot-World-Infinityの紹介：オープンな因果的世界モデルとエージェントハーネス

GPT-5.6 登場：Sol、Terra、Luna

衝突時間に基づく動的障害物回避：未構造環境におけるロボットのための事前学習済みビジョンモデルの利用

STEMbot：植物の葉冠下を航行する準拠型ロボット

APIVOT: 適応的な視覚言語思考のインターリーブによる長期的ロボット計画

SAGA: 自己回帰ビデオ生成のための安定加速ガイダンス

LightCrafter: PBR条件付きビデオ拡散精錬による制御可能で一貫したリライティング

FedTR: 産業用ビジュアル検査のための転移学習を組み込んだ連合学習フレームワーク

LOGOS：言語ガイドによる航空シーンの指向性物体検出

敵対的デコイ：Vision Transformerにおける注意ベース防御の誤誘導

GIRAF：関節物体との汎化可能な人間インタラクションに向けて

DreamCharacter-1：3D生成基盤モデルから製品レベルのキャラクター生成へ

幻覚セルフプレイ：進化する生成器による強化学習型検出器のブートストラップ

全二重音声エージェントにおけるLALM音声審査員の信頼性評価

あり得ないトークンが強化されるとき：LLM強化学習のためのテール認識クレジット調整

MiniLM埋め込みによるアウトオブスコープ意図検出のためのマルチクラスター境界学習法

トピック

モデル

Agent

チップ

政策

研究

スタートアップ

ロボット

ツール