AI News HubLIVE

今日の必読ニュース

Agent

olmo-eval:モデル開発ループのための評価ワークベンチ

olmo-evalは、LLM開発中の反復的な評価サイクルをサポートする新しい評価ワークベンチです。OLMES標準を基盤とし、柔軟なタスク定義、交換可能な実行時ポリシー、詳細な質問ごとの比較機能を提供し、開発者が介入が有意かどうかを判断するのに役立ちます。

  • モデル開発における反復的な評価ループ向けに設計され、ベンチマークの迅速な追加、チェックポイント間の実行、詳細な結果分析をサポートします。
  • Harborなどのツールとは異なり、軽量モードとサンドボックスモードの両方を提供し、ベンチマークのニーズに基づいて自動的に選択します。
サイト内本文

VibeClip:オープンソースのAI動画編集ツール、チャットで操作

VibeClip は、オープンソースでセルフホスト可能なAI動画編集ツールです。長い動画を字幕付きの9:16ショート動画に変換し、チャットで編集を指示できます。ローカルの faster-whisper で文字起こし、LLM で分析を行い、データはユーザーの管理下にあります。

  • オープンソース、セルフホスト、Docker で簡単デプロイ
  • チャットによる自然言語で編集:トリミング、フィラーワード除去、スタイル適用など
サイト内本文

ChatSee、エンタープライズAIエージェント向け「障害メモリ」構築のため650万ドルを調達

ChatSee.AI Inc.は、自律型AIシステム向け障害インテリジェンスレイヤーを開発するため、650万ドルのシードラウンドを調達した。ラウンドはTrue Venturesがリード。エージェントの障害を観測し、コンテキストを保存し、再発防止の知識ベースを構築することを目指す。

  • ChatSeeが650万ドルのシード資金を調達、True Venturesがリード。
  • エンタープライズAIエージェント向け障害インテリジェンスレイヤーを構築。
サイト内本文

Show HN: StackScope – 4万以上のインディー製品ローンチをクロールして、彼らが何を出荷しているかを見た

StackScopeは、初期段階の製品ローンチのテクノロジースタックを分析するサイトで、41,763以上のローンチを分析し、4,851の技術を追跡しています。39%がCloudflareを使用し、19%が強いAI生成パターンを示し、1,255のローンチがAIボットをブロックしながらもllms.txtを公開しているという矛盾が明らかになりました。

  • Product Hunt、Hacker News、PeerPushからの41,763件のローンチを分析
  • ホスティング、フレームワーク、AIシグナル、セキュリティなど4,851の技術を追跡
サイト内本文

Swampが面白いのは、AIを信用していないからだ

Swampは、自律エージェントを追求するAIツール業界の主流とは逆に、信頼性と決定論的なワークフローに焦点を当てたツールです。組織のプロセスを実行可能なワークフローとして定義し、プラットフォームエンジニアやSREにアピールします。著者は、自律性よりも信頼性こそが将来の鍵だと主張します。

  • Swampは自律AIではなく、信頼性と決定性を重視する。
  • ワークフローを第一級の概念として扱い、組織プロセスを定義・実行可能にする。
サイト内本文

HNを紹介:Hacker Newsを消費する恐ろしい方法——AIの粗悪コンテンツ

この記事は、すべてのコメントがAI生成されたHacker Newsのコメントフィードを模擬しており、空虚なバズワードと浅い分析で満たされ、現在のAI生成コンテンツの氾濫を風刺している。

  • この投稿は、複数のトピックをカバーするAI生成のHacker Newsコメントフィードを模擬している。
  • コメントは意図的にバズワードが多く浅い内容に設計されており、AI生成コンテンツの表面的な性質を強調している。
サイト内本文

MLエンジニアからAIネイティブへ:優位性に向けたリスキリング

本記事では、機械学習エンジニアがAIエージェントによる自動化の影響にどう対応すべきかを探り、データの厳密性や判断力といった中核スキルがAIネイティブな世界でも貴重であり、移行可能であることを強調する。人間の判断とエージェント駆動の実験ループを組み合わせることで、エンジニアはより高速に反復し、複雑な問題を解決できる。Llamaモデルを微調整して文書フィールドを抽出する実例を通じて、そのプロセスを示す。

  • データパイプラインや標準的なモデル訓練などのコモディティ層はAIエージェントによって自動化されつつあるが、ビジネス目標に結びついた深いモデリングは防御可能である。
  • データの厳密性(完全スコアへの懐疑、リークの検出など)は、AIネイティブな世界で最も移行可能で希少なスキルである。
サイト内本文

AIエージェントに適したサンドボックスの選び方

AIエージェント向けの安全なサンドボックスの選び方について、ファイルシステムの分離、ネットワークアクセス、リソース制限、マイクロVMなどのガイダンスを提供します。

  • AIエージェントはコードを安全に実行し、プロンプトインジェクションのリスクを軽減するためにサンドボックスを必要とします。
  • 「致命的な三要素」(機密データ、信頼できないコンテンツ、外部通信)によりエージェントは脆弱になります。
サイト内本文
スタートアップ
チップ

テスラ、スペースX、xAIが史上最大のチップ製造プロジェクトを開始

テスラ、スペースX、xAIが共同でTerafabプロジェクトを立ち上げ、ロジック、メモリ、先進パッケージングを統合したAIチップの大規模製造を目指します。年間1TWのチップ生産、星际文明への道を切り開く計画です。

  • 3社連携によるTerafabチップ製造
  • 年間1TWのAIチップ生産目標
サイト内本文
その他の更新(114件)
Agent

Amazon QuickとCisco Webex MCPサーバーを使った会議準備・フォローアップアシスタントの構築

この記事では、Amazon QuickとCisco Webex MCPサーバーを使用して、単一のプロンプトからカスタム会議準備・フォローアップアシスタントを構築する方法を紹介します。アシスタントは、今後の会議の検索、過去の会議サマリーやトランスクリプトの確認、関連するVidcastのハイライトやコンテキストの取得、未解決のフォローアップ事項の検索、簡潔な準備ブリーフの作成を行います。会議後は、ディスカッションの要約、アクションアイテムの特定、関連Vidcastアップデートの検索、フォローアップメッセージの下書き作成も可能です。

  • Amazon QuickがCisco Webex MCPサーバーと統合し、会話型の会議アシスタントを実現。会議前の準備と会議後のフォローアップを簡素化。
  • アシスタントはWebex Meetings MCP、Vidcast MCP、Webex Messaging MCPを利用して、会議情報、ビデオコンテンツ、メッセージを取得。
サイト内本文

PDFからインサイトへ:AWS生成AIサービスによるインテリジェント文書処理パイプラインの構築

この記事では、Amazon Bedrockとその機能(BDA、Strands Agent、Knowledge Base)を活用して、コスト効率が高くスケーラブルなインテリジェント文書処理パイプラインをAWS上で構築する方法を説明します。最小限の開発努力で文書からコンテキストを理解し、分析することが可能です。

  • Amazon Bedrock Data Automation (BDA) は、マルチモーダルコンテンツ抽出のための統一APIを提供し、文書コンテキストを理解し信頼度スコアを出力する。
  • パイプラインは、入力処理、抽出・保存、インテリジェンス、エージェント連携の4層で構成される。
サイト内本文

今週のAI:次世代レコメンデーション体験

今週は、元マイクロソフト主席研究員でRecoMindを設立したMiguel Fierro氏が、データ・AIエバンジェリストのChristina Stathopoulos氏とともにレコメンデーションシステムの現状について語りました。Christina氏はまた、Anthropicの台頭、責任あるAI、Google I/O 2026の発表、トークンマキシングへの反発など、注目のAIニュースを紹介しました。会話から得られた3つのポイントをご紹介します。

  • レコメンデーションシステムは多くの企業で過小評価されており、Amazon、Netflix、TikTokなどのトップ企業はこれらから多大な収益を得ています。
  • 先進的なシステムはユーザー行動を系列予測問題として扱い、兆パラメータモデルを使用します。オープンソースのRecommendersライブラリが入門に適しています。
サイト内本文

Claude Codeとローカルモデルの連携

2026年のローカルモデルは十分な性能を持っています。Claude Codeが日常的に処理するコード補完、リファクタリング、デバッグ、コードベースの説明などのタスクでは、適切に選択された量子化ローカルモデルが、トークンあたりのコストゼロ、レート制限なしで、実際のユースケースの大部分をカバーします。

  • ローカルモデルはClaude Codeに十分実用的で、コスト削減とレート制限回避が可能。
  • Ollama、LM Studio、llama.cppはすべてAnthropic Messages APIをネイティブサポート。
サイト内本文

SpaceXの記録的IPO、ベゾスのPrometheus上昇、AnthropicのAI制限要請

SpaceXが750億ドルで記録的なIPOを実施;OpenAIとAnthropicがIPOを準備;Anthropic CEOが政府によるAI制限を要求;AppleがSiri AIを発表;ベゾスのPrometheusが120億ドル調達;その他企業AIニュース。

  • SpaceXが750億ドルのIPOで記録、評価額2兆ドル近く
  • OpenAIとAnthropicが秘密裡にIPO申請
サイト内本文

内側から構築:AWS Professional Servicesがどのようにしてフロンティアチームになったか

AWS Professional Servicesは、AIツールを追加するだけでなく、根本的に提供プロセスを再構築することで、エンゲージメントのタイムラインを数ヶ月から数日に短縮しました。この投稿では、彼らがどのようにフロンティアチームになったのか、そしてそれを可能にしたプラクティスを紹介します。

  • AWS ProServeは、内部から外への再構築により、タイムラインを数ヶ月から数日に短縮。
  • APEXパスファインダーチームと配信エージェントマルチエージェントシステムを創設。
サイト内本文

OpenAI、Onaを買収しCodexを長時間の自律的コーディングタスクへ発展

OpenAIは、AIエージェントと安全なクラウド開発環境に特化したドイツ・キール発のスタートアップOna(旧Gitpod)を買収し、Codexの自律的コーディング能力を強化する。

  • OpenAIがOna(旧Gitpod)を買収。
  • OnaはAIエージェントと安全なクラウド開発環境を提供。
サイト内本文

OpenAI、次世代の働き方に向けた新アカデミーコースを発表

OpenAIは、実践的なAIスキルを習得し、反復可能なワークフローを作成し、エージェントを日常業務に活用するための3つのアカデミーコースを発表しました。

  • OpenAIが実践的AIスキルに焦点を当てた3つの新コースを発表。
  • コースでは反復可能なワークフローの作成やAIエージェントの業務活用を学ぶ。
サイト内本文

Moonshot AI、ローカルデスクトップエージェント「Kimi Work」を発表 – Kimi K2.6で300のサブエージェントによるスウォームを実行

Kimi WorkはMoonshot AIが開発したローカルデスクトップAIエージェントで、macOSとWindowsに対応。ユーザーのマシン上で最大300のサブエージェントからなるスウォームを実行し、WebBridgeを介してログイン済みのブラウザを操作し、内蔵cronエンジンでタスクをスケジューリングする。基盤モデルはKimi K2.6(MoE、約320億活性パラメータ、256Kコンテキスト)。ローカルファイルやPythonスクリプトにもアクセス可能で、データはユーザーのデバイスに留まる。

  • Kimi Workはクラウドではなくローカルで動作し、ユーザーのファイルやブラウザセッションに直接アクセスする。
  • 最大300のサブエージェントを並列実行可能なスウォーム機能を搭載。
サイト内本文

カスタマーセグメンテーションとは

カスタマーセグメンテーションは、既存顧客を共通の特性に基づいてグループに分け、マーケティングやサービスを調整する手法です。このガイドでは、セグメンテーションの種類、方法、重要性、課題、そしてAIがどのように変革しているかを説明します。

  • カスタマーセグメンテーションは既存顧客に焦点を当て、ファーストパーティデータを使用する点で、市場セグメンテーションとは異なります。
  • 効果的なセグメンテーションは、人口統計、行動、価値ベースなどの複数の種類と、ルールベースからAI/ML駆動までの方法を組み合わせます。
サイト内本文

MONAIを使用したエンドツーエンドの3D脾臓セグメンテーションのコーディング実装(医用CTボリューム上のUNetを使用)

このチュートリアルでは、MONAIを使用してMedical Segmentation Decathlon Task09データセットで脾臓をセグメンテーションするエンドツーエンドの3D医用画像セグメンテーションパイプラインを構築します。CTボリュームデータの処理、医用画像変換(方向調整、ボクセル間隔正規化、輝度ウィンドウイング、前景クロッピング、パッチベースのサンプリング)を行い、3D UNetモデルを訓練して二値臓器セグメンテーションを実行します。混合精度訓練、DiceCE損失、スライディングウィンドウ推論、Diceベースの検証、定性可視化を採用し、生の医用ボリュームから完全な訓練-検証-可視化セグメンテーションシステムへと移行します。

  • MONAIと3D UNetを使用したCTボリューム上の脾臓セグメンテーション。
  • データ前処理、拡張、訓練、検証、可視化の完全なパイプライン。
サイト内本文

AINews:ループクラフト:ループを積み重ねる技術

本記事は、AIエージェントを手動でプロンプトするのではなく、自動ループを設計するという新たなトレンドを探ります。AnthropicのFable 5リリースとその論争、自動化されたAI研究システム、データインフラのボトルネック、推論速度の最適化、そしてエージェントツールの最近の進展をカバーしています。

  • 手動プロンプトではなくループを使ってAIエージェントの効率とレバレッジを最大化することを提唱。
  • AnthropicのFable 5は隠れた性能低下方針で批判を浴び、後に撤回された。
サイト内本文

DARRMS——リソース制約のあるマルチエージェントシステムにおける動的注意半径の効率的アルゴリズム

arXivの新論文はDARRMSアルゴリズムを提案。エージェントが動的に注意半径を制限して計算リソースを節約し、性能を維持しながらシステムの協調性と拡張性を向上させる。理論解析と実験により、リソース制約環境での有効性を示す。

  • DARRMSはエージェントが動的注意半径内でのみ観測し、不要な環境情報を無視することで計算負荷を低減。
  • 注意半径と意思決定を同時最適化し、不確実な環境での協調と拡張性を向上。
サイト内本文

G-MAPP:GPU加速によるマルチエージェント計画と知覚の反応的動作生成

本論文は、GPUを用いた世界モデリングとベクトル場ベースの計画を高速化し、最大5倍の高速化を実現するフレームワークG-MAPPを提案する。動的環境でのリアルタイム知覚-行動ループ結合を可能にし、7自由度Franka Emikaロボットで検証した。

  • GPU高速化によりCPU版と比較して最大5倍の速度向上
  • リアルタイム反応動作のための知覚-行動ループの密結合
サイト内本文

AGIからASIへ:汎用人工知能から超知能への移行経路

新たなプレプリント論文では、人間レベルの汎用人工知能(AGI)から人工汎用超知能(ASI)への移行を検討し、4つの潜在的な経路(AGIのスケーリング、AIパラダイムシフト、再帰的改善、大規模マルチエージェント集団からのASIの出現)を提示しています。また、これらの経路上の摩擦やボトルネックについて議論し、AIの進歩が加速し、単一の変革ではなく一連の変革をもたらす可能性があると指摘しています。

  • AGIは今後10年の具体的目標となった。
  • ASIは人間組織よりも知的で認知能力が高いシステムと定義される。
サイト内本文

AIエージェントのための戦略的決定支援

従来の決定支援は人間が機械学習モデルを使ってより良い決定をする方法を研究してきた。しかし、現代のエージェントシステムでは役割が逆転し、AIエージェントがユーザーに代わって行動し、人間やツールが支援メカニズムとなる。本論文では、支援使用を最小化しつつ、反実仮想的な支援不足エラー(支援があれば出力が改善されたであろう事例でエージェントが単独で行動する確率)を制御する枠組みを提案する。最適方針は支援価値に基づく閾値ルールであり、適応的閾値設定とその場でのキャリブレーションを組み込んだオンラインアルゴリズムを開発。実験により、目標エラーを確実に制御しつつ支援使用を大幅に削減できることを示す。

  • 現代のエージェントシステムではAIエージェントが主体、人間とツールが支援。
  • 支援使用を最小化し、支援不足エラーを制御する最適化フレームワークを提案。
サイト内本文

AIエージェントを熱心だが間違った判断をする人間のインターンとして扱え――制御を失う前に

AIエージェントは単なるチャットボットから、アプリケーションやデータに対して自律的に行動するデジタルワーカーへと進化し、セキュリティとガバナンスの問題を引き起こしています。専門家は、人間のインターンと同様に厳格な監督、具体的な指示、注意深い監視を推奨しています。自律性と制御のバランスが重要です。

  • AIエージェントには明確な制約と人間による監督が必要。
  • エージェントの予測不能性が新たなセキュリティとガバナンスの課題を生む。
サイト内本文

OpenAIがAIエージェントオーケストレーションスタートアップOnaを買収

OpenAI Group PBCは本日、長時間実行AIエージェントを管理するプラットフォームを提供するスタートアップOnaの買収計画を発表しました。Onaの技術により、開発者がワークステーションをシャットダウンしてもAIエージェントが動作を継続でき、セキュリティも強化されます。OpenAIはこの技術をCodex AIアシスタントに統合し、長時間タスクの実行能力を向上させます。買収条件は非公開です。

  • OpenAIがGitpod GmbH傘下のOnaを買収。Onaはクラウドサンドボックス環境で長時間稼働するAIエージェントを管理する。
  • Onaのプラットフォームはハッシュ技術を使い、偽装された悪意のあるプログラムを検出し、機密ファイルへのアクセスを防止する。
サイト内本文

FinOps AIガバナンスは新たなKPIを要求、トークン経済が企業のコストモデルを変革

企業のAI支出が加速する中、FinOps AIガバナンスが試練に直面している。従来のコスト最適化手法(タグ付け、適正化、予約容量)は、トークン、不透明な課金、急速に変化するアーキテクチャに対して不十分である。FinOps Foundationの報告によると、98%の実務者がAI支出を管理しているが、可視性とガバナンス構造が不足している。自動化が必須となり、コストの背景を理解するために部門横断的な協力が重要となる。

  • 従来のFinOpsツールではトークンベースのAIコストモデルを効果的に管理できない。
  • FinOps実務者の98%がAI支出を管理しているが、可視性とガバナンスが不足。
サイト内本文

Upriver、企業AI向けデータエンジニアリング自動化のため1400万ドルを調達

イスラエルのデータエンジニアリングスタートアップUpriver Data Ltd.は、企業がAIプロジェクトを成功させるために依存するデータ作業を自動化するため、1400万ドルの新たな資金調達を発表しました。2024年にCEOのIdo Bronstein氏とCTOのOmri Lifshitz氏によって設立されたUpriverは、組織の全データスタックに接続し、データ品質問題を解決し、パイプラインを自動的に維持するAIネイティブプラットフォームを構築しました。同社は、エンジニアリングチームによる継続的な手動メンテナンスなしでAIシステムが実行できる信頼性の高いデータ基盤を提供するとしています。資金はエンジニアリングおよびGo-to-Marketチームの拡大、製品開発の深化、エンタープライズ展開の加速に使用されます。

  • UpriverはValley Capital PartnersとHetz Venturesが主導するシードラウンドで1400万ドルを調達。
  • プラットフォームは、品質問題の発見・解決、パイプラインの維持、新しいデータセットの作成など、エンドツーエンドのデータエンジニアリングワークフローを自動化。
サイト内本文

AIのためのセマンティクスを解放:メルセデス・ベンツ韓国が大規模に信頼できる「Talk to Data」を構築した方法

メルセデス・ベンツ韓国はDatabricks上で統一セマンティックレイヤーを構築し、500以上のKPIをPower BIからUnity Catalogに移行。GenieとAgent Bricksを活用してBIとAIで一貫したセマンティクスを実現し、自動DAX-to-Metric-Viewトランスパイラーで移行を加速。他市場へのリファレンスを提供。

  • メルセデス・ベンツ韓国は500以上のKPIをDatabricks上のガバナンスされたセマンティックレイヤーに統合し、BIとAIの両方をサポート。
  • 自動DAX-to-Metric-Viewトランスパイラーにより手動移行作業を大幅に削減。
サイト内本文

xAI、Grok Buildプラグインマーケットプレイスを公開 — MongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare、Superpowersのプラグインを同時提供

xAIは本日、ターミナルコーディングエージェント「Grok Build」向けのプラグインマーケットプレイスをリリースしました。プラグインはスキル、スラッシュコマンド、エージェント、フック、MCPサーバー、LSPを1つのパッケージにバンドルし、ターミナルから離れることなくインストール・更新が可能です。ローンチ時にはMongoDB、Vercel、Sentry、Chrome DevTools、Cloudflare、Superpowersの6つのプラグインが提供され、コミットSHA固定によるセキュリティ対策が施されています。

  • xAIがターミナルコーディングエージェント向けにプラグインマーケットプレイスを公開。
  • プラグインはスキル、コマンド、エージェント、フック、MCP、LSPを一つにバンドル。
サイト内本文

フォワードデプロイエンジニアリング:AIでビジネス成果を実現

Databricksは、AIによる顧客のビジネス成果を加速するため、フォワードデプロイエンジニアリング(FDE)組織を正式に立ち上げました。Lakehouseプラットフォームと組み込み型エンジニアリング、グローバルパートナーネットワーク、研究開発連携を組み合わせたものです。過去1年間で1900以上の顧客と協業し、Foxの検索成功率倍増、JPMCの5ペタバイト超のデータ移行と500以上のノートブック移行、Qualcommの本番環境対応AIモデルへの移行など、顕著な成果を上げています。

  • Databricksがフォワードデプロイエンジニアリング(FDE)組織を正式化し、AIによるビジネス成果の提供に注力。
  • FDEはLakehouseプラットフォーム、エンジニアリング主導のデリバリー、グローバルパートナー、研究開発フィードバックループを統合。
サイト内本文

最も賢いAIでも十分でないとき、Benchlingがどのようにエージェントを構築するか

生命科学向けR&DデータプラットフォームであるBenchlingは、2025年10月にエージェントを搭載したチャットインターフェース「Benchling AI」をリリースしました。AI責任者のNicholas Larus-Stone氏がLangChainのCEO Harrison Chaseと対談し、マルチモデルアーキテクチャ、プロダクショントレースのレビュー、検証可能な科学タスクの戦略など、科学分野でのエージェント構築の複雑さについて語りました。

  • Benchlingは同じタスクに対して異なるプロバイダの複数のモデルを実行し、それぞれの誤りパターンを活用して品質を高めている。
  • 毎週交代制の「ファイアチーフ」がプロダクショントレースをレビューし、ユーザーフィードバック(いいね/よくないね)も活用。
サイト内本文

ジェフ・ベゾスのPrometheus、産業エンジニアリングプロジェクトを加速するために120億ドルを調達

Prometheus Inc.は、アマゾンの創業者ジェフ・ベゾスが共同経営するAIスタートアップで、シリーズBラウンドで120億ドルを調達し、評価額は410億ドルに達しました。同社はハードウェア開発を加速するAIツールを開発しており、プロトタイピングと量産前製造に重点を置いています。資金の大部分はコンピューティングインフラの購入に充てられます。

  • Prometheusはベゾス、JPモルガン、ブラックロックなどから120億ドルを調達。
  • 同社はハードウェア設計を10倍以上高速化するAIツールを開発中。
サイト内本文

「インターネットからランダムにものを拾ってはいけない」:Chainguardが52,000のオープンソースパッケージで発見したもの

Chainguardは、機能は透過的だが有害な振る舞いを含む「グレイウェア」を検出する新しいソースコードスキャナーを発表した。このスキャナーは52,000以上の悪意のあるパッケージまたはグレイウェアを特定・ブロックし、エージェンティック開発がこの問題を悪化させていると指摘する。

  • Chainguardは「グレイウェア」を、機能は透明だが許可されていない有害な動作(アクセストークンのエクスポートなど)を行うパッケージと定義。
  • 新しいスキャナーは毎日10万以上のパッケージを分析し、5万2000以上のマルウェアまたはグレイウェアをブロック。
サイト内本文

LocIn AI:ブランドのトーンを維持するローカライズツール

LocIn AI が Product Hunt でローンチ。トーン認識AI、自動ワークフロー、開発者向けツールにより、言語を超えてブランドのトーンを維持するローカライゼーションプラットフォームです。CLI統合とAPIアクセスを提供し、技術的には正しいがブランド感が失われる翻訳の問題を解決します。

  • トーン認識AIが言語間でブランドの声と個性を維持
  • 開発者優先の自動化、CLIとAPIによるシームレスな統合
サイト内本文

「AIはすべてを破壊している」:エントリーレベルのテック職はどこへ行くのか?

AIは世界の労働力に影響を与えており、特にソフトウェア開発とテクノロジー分野で顕著です。Linux Foundationの報告書によると、ヨーロッパではAIがテック業界の採用を27%増加させている一方、エントリーレベルの採用は3%減少し、世界の他の地域では14%増加しています。企業は新規採用よりも既存社員のトレーニングに3.7倍の投資をしており、ジュニア職の役割はAIによって再定義されています。今後はソフトウェアエンジニアリング、AI、セキュリティ、ビジネス理解を組み合わせたスキルが求められます。

  • ヨーロッパのジュニア採用は3%減少、世界の他の地域では14%増加。
  • 企業は新規採用より既存社員のトレーニングに3.7倍投資。
サイト内本文

Databricks学生フェロー第一期生を迎える

Databricksは、世界中の数百の大学から5,000件を超える応募の中から、多様性に富んだ初の学生フェローコホートを選出しました。選ばれた学生はキャンパスリーダーとして、ワークショップ、ハッカソン、メンタリングプログラムを通じて、学術理論と実世界のデータ・AI実践の橋渡しを行います。

  • Databricksが5,000件以上の応募から初の学生フェローを選出。
  • フェローはキャンパスリーダーで技術力に優れ、理論と実践を結ぶイベントを主催。
サイト内本文

MITの学生と入学予定者が2026年ハーツ財団フェローシップを受賞

ハーツ財団は、MITの在学生3名と入学予定の大学院生1名に2026年のフェローシップを授与すると発表した。このフェローシップは5年間の経済的支援と自由度の高い研究環境を提供し、ロボティクス、無機化学、人工知能、オペレーションズリサーチなどの分野で革新的な研究を支援する。

  • ハーツ財団がMITに関連する4名に2026年フェローシップを授与。
  • フェローシップは5年間の資金援助と生涯にわたるネットワークを提供。
サイト内本文

Azure Databricks、Data + AI Summit 2026で業界リーダーやパートナーと共に

MicrosoftはDatabricks Data + AI Summit 2026のLegend Sponsorです。本サミットでは、共同顧客がAzure Databricksを使用してデータ資産を近代化し、AIを拡大し、ビジネス価値を引き出す方法を紹介します。参加者はMicrosoftブースを訪問し、フェデレーテッド分析、エコシステム統合、製品発表などのテーマに関するブレイクアウトセッションに参加できます。注目のセッションには、Microsoftデータ&AIエコシステムの活用、ゼロコピーフェデレーテッドエネルギー分析、GEODISやTK Elevatorの顧客事例が含まれます。

  • Azure DatabricksはData + AI Summit 2026でAzure上の最適なデータ+AIプラットフォームとして紹介されます。
  • セッションでは、ゼロコピーフェデレーテッド分析、Unity Catalog外部ロケーション、顧客近代化ストーリーをカバーします。
サイト内本文

Coinbase for Agents:AIアシスタントが暗号資産取引と送金を実現

CoinbaseはCoinbase for Agentsを発表。AIエージェントがClaudeやChatGPTなどのアシスタントから直接、暗号資産の取引やサービス支払いを自律的に行える。ユーザーは利用限度額を設定し、エージェントは隔離されたサンドボックスで動作。現物・デリバティブ取引に対応し、今後は株式や予測市場も追加予定。支払いはx402標準に基づき、ステーブルコインを優先。安全でカスタマイズ可能。

  • Coinbase for AgentsはAIエージェント専用の独立したアカウントであり、Coinbaseアプリ内の機能ではない。
  • エージェントは暗号資産の現物およびデリバティブ取引が可能で、今後株式や予測市場も追加予定。
サイト内本文

DXC、銀行や航空会社など規制産業が依存するシステムにClaudeを統合

AnthropicとDXC Technologyは複数年にわたるグローバルアライアンスを発表。数万人のClaude認定エンジニアを訓練し、Claudeを規制産業のミッションクリティカルなシステムに統合する。DXCは社内でClaudeを使用してOASISプラットフォームを構築しており、今後は保険、モダナイゼーション、サイバーセキュリティ、アプリケーションサービスの各分野で顧客にClaudeを提供する。

  • AnthropicとDXC Technologyが複数年にわたるアライアンスを結成、銀行、航空、保険、政府などの規制産業でClaudeを展開。
  • DXCはAnthropic Academyを通じて数万人のClaude認定エンジニアを訓練。
サイト内本文

Claude Corpsの導入

Anthropicは、AIの恩恵を全米のコミュニティに広げることに情熱を持つ初期キャリアの個人を対象とした全国的なフェローシッププログラム「Claude Corps」を開始します。1000人のフェローを訓練し、非営利団体とマッチングし、年間8万5000ドルの給与を支給します。1億5000万ドルの初期コミットメント。応募受付中。

  • Anthropicは、Claudeのスキルを習得した1000人のフェローを育成し、全米の非営利団体で活動するClaude Corpsを開始。
  • フェローは年収8万5000ドル、福利厚生、トレーニングを受け、ホスト組織はAI能力を強化。
サイト内本文

Claude Fable 5 と Claude Mythos 5

Anthropic は、一般利用向けに安全化された神話級モデル Claude Fable 5 と、サイバー防御者向けに制限を解除した Claude Mythos 5 をリリースしました。これらのモデルは多数のベンチマークで最先端の結果を達成し、価格は Claude Mythos Preview の半分以下です。

  • Claude Fable 5 は Anthropic がこれまで一般公開した中で最も高性能なモデルであり、ソフトウェア工学、知識作業、視覚、科学研究などで優れた能力を発揮。
  • Claude Mythos 5 は Project Glasswing を通じて展開され、セーフガードが緩和された世界最強のサイバーセキュリティ能力を提供。
サイト内本文

Bugbot が3倍以上高速化、22%コスト削減、発見バグ数10%増加 · Cursor

Cursor は Bugbot の大規模アップデートを発表。実行速度が3倍以上向上、コストが22%削減、レビューあたりの発見バグ数が10%増加。90%の実行が3分以内に完了。新しい /review コマンドでプッシュ前のチェックが可能になり、PRの新規変更のみをレビューする設定も追加。パフォーマンス向上は Composer 2.5 モデルとハーネスの改善による。

  • Bugbot の実行速度が3倍以上向上、コスト22%削減、バグ発見率10%向上。
  • 新 /review コマンドでコードプッシュ前に Bugbot とセキュリティレビューを実行可能。
サイト内本文

Auto-review でエージェントの自律性を管理する · Cursor

Cursor は、アクションのリスクをコンテキストで評価する分類エージェント「Auto-review」を導入し、安全性と効率性のバランスを実現しました。新規ユーザーにはデフォルトで有効になり、アクションの約4%のみをブロックし、チャットの約7%のみが中断されます。

  • Auto-review は小型の分類エージェントを使用し、アクション実行前にリスクを評価します。
  • 分類エージェントはファイル内容などを調査して、アクションがユーザーの意図と一致するかを判断します。
サイト内本文
スタートアップ

SpaceXの大規模IPOがAI資金調達の新時代を幕開け

この株式公開はAIとテクノロジー投資の新たな波の始まりを示すが、市場は不安定であり、大規模IPOが長期的な財務的成功を保証するものではない。

  • SpaceXの大規模IPOがAI資金調達の新時代を開始。
  • 市場の変動がIPOの高い注目度にもかかわらずリスクをもたらす。
サイト内本文

SpaceXの巨額IPO後、アメリカ人の経済的未来はAIに縛られる

最新の世論調査では、アメリカ人の8割が人工知能に懸念を示しているが、彼らの意思に関わらず、AIは年金や投資ポートフォリオに組み込まれ、テクノロジー大手のAI競争に未来を委ねることになる。

  • アメリカ人の8割がAIに懸念、大多数が弊害を予想
  • AIは年金や投資に強制的に組み込まれる
サイト内本文

スペースX、米国株式市場に史上最高の1.77兆ドル評価で上場へ

スペースXは金曜日に公開企業となり、評価額は1.77兆ドル、史上最大のIPOとなる。創業者でCEOのイーロン・マスク氏は筆頭株主で、世界初のトリリオネアになる可能性がある。

  • スペースXが約25年ぶりに非公開企業から公開企業に転換。
  • IPO評価額1.77兆ドルは史上最大。
サイト内本文

ジェフ・ベゾスのAIスタートアップPrometheus、120億ドル調達、評価額410億ドル

ジェフ・ベゾスのAIスタートアップPrometheusが、評価額410億ドルで120億ドルの資金調達ラウンドを完了しました。同社は昨年11月に62億ドルのシード資金でスタートしましたが、まだ製品はなく、ベゾス氏は詳細を共有するのは「時期尚早」と述べています。

  • Prometheusが120億ドル調達、評価額410億ドル
  • 昨年11月に62億ドルのシード資金で設立
サイト内本文
政策

グーグル、FBIと初の共同訴訟で中国のAI詐欺ネットワークを提訴、OpenAIは中国の影響力クラスターをブロック

グーグルとOpenAIはほぼ同時に、中国発とみられるAIを悪用した詐欺や秘密の影響力工作を暴露した。グーグルは「Outsider Enterprise」という中国のサイバー犯罪ネットワークを訴え、同グループがAIシステムGeminiを使って数十万人の米国人を標的に金融詐欺を行ったと主張。OpenAIは、米国のテクノロジー政策の議論を操作しようとした中国拠点のChatGPTクラスター2つを停止した。

  • グーグルがFBIと協力して中国の詐欺ネットワークを提訴、Geminiを使った偽サイトやメッセージで詐欺。
  • OpenAIが中国関連の2つのChatGPTクラスターを停止、データセンターや関税政策に関する議論を操作。
サイト内本文

新しいAndroidスマホで必ず変更するGoogle Messagesの9つの設定とその理由

この記事では、プライバシー強化、 distractions 削減、テキスト体験向上のために Google Messages で変更すべき9つの設定を紹介します。センシティブコンテンツ警告の無効化、プロファイル共有の制限、Geminiのオフなど。

  • センシティブコンテンツ警告をオフにし、SafetyCoreをアンインストールして自動検出を防ぐ
  • Googleプロファイルの共有を制限し、名前と写真を非表示にする
サイト内本文

SiriはあなたのAIガールフレンドにはならない

Appleのソフトウェア責任者Craig Federighi氏は、新しいSiriは他のチャットボットのようにお世辞を言ったり、ユーザーを引き込もうとしたりせず、あくまで支援に徹するよう設計されていると述べた。

  • Appleの新しいSiriは意図的にへつらいや過度な関与を避けている。
  • Federighi氏は他のチャットボットはユーザーを引き込み関係を築こうとすると指摘。
サイト内本文

EgoEngine:自己中心的な人間のビデオから高忠実度の器用なロボットデモンストレーションへ

EgoEngineは、自己中心的な人間の操作ビデオを高忠実度のロボット観察ビデオと実行可能な行動軌跡に変換するスケーラブルなフレームワークです。人間とロボットの間の視覚的および行動的ギャップを埋め、実際のロボットデモンストレーションなしでゼロショットの器用なポリシー学習を実現します。

  • EgoEngineは人間の自己中心ビデオを高忠実度のロボットデモデータ(観察ビデオと行動軌跡)に変換します。
  • 視覚的ギャップと行動的ギャップの両方に対処します。
サイト内本文

メカニカルフィールドネットワーク:多変量システムのための構造化ニューラルダイナミクス

MF-Netは、すべての変数を共有フィールド状態で表現し、学習された関係則を通じてこの状態を更新するリカレントダイナミクスモデルです。既知の法則に従う相互作用システム、カオスベンチマーク、実際の神経記録、生態時系列において、競争力のある短期および中期予測を達成しつつ、検査可能な構造読み出しを維持します。40次元Lorenz-96テストベッドでは、8ステップR²が0.798±0.018、学習された関係行列が局所/非局所強度比19.80±1.00、Precision@K 1.000±0.000で局所結合サポートを回復します。

  • MF-Netは、学習された関係則を備えた共有フィールド状態ですべての変数をモデル化し、解釈可能なダイナミクスと柔軟な遷移を実現します。
  • カオスシステムや実際の神経データを含む多様なベンチマークで競争力のある予測性能を達成します。
サイト内本文

不完全なバイナリフィードバックを伴うレストレスバンディット:PCL-インデックス可能性の解析と計算

本論文は、バイナリ潜在状態と不完全なバイナリフィードバックを持つレストレスバンディットを研究する。これは、センシング誤差のある機会的スペクトラムアクセスに動機づけられている。著者らは、部分保存則(PCL)に基づく解析・計算フレームワークを開発し、インデックス可能性の確立とWhittle指数の計算を行う。確率的スケルトン、再生分解、単語上の組み合わせ論を用いて、いくつかの閾値領域で割引報酬とリソース指標の扱いやすい表現を得て、PCL-インデックス可能性条件を完全に検証する。残りの領域では、限界生産性指数を計算するための効率的な数値スキームを導出する。実験により、MP指数ポリシーが広範なパラメータ範囲で標準ベンチマークを上回ることが示される。

  • 不完全なバイナリフィードバックを持つレストレスバンディットのためのPCLベースのフレームワークを開発し、インデックス可能性の検証とWhittle指数計算を実現。
  • 確率的スケルトンや単語上の組み合わせ論を用いて、複数の閾値領域でPCL-インデックス可能性を完全検証。
サイト内本文

Datadog、AIコスト管理の基盤としてタグ付けとモデルガバナンスを重視

DatadogのシニアFinOpsアナリストDeeja Cruz氏はFinOps X 2026で、AIコスト管理の核心は使用状況、理由、コストを理解することであり、適切なタグ付けが支出配分と最適化機会の特定の鍵であると述べた。また、モデルガバナンスと部門横断的な協力の重要性を強調し、AI支援のFinOpsの具体例を紹介した。

  • 適切なタグ付けはAIコスト管理の基礎であり、タグがなければ支出配分や最適化機会の発見が不可能になる。
  • FinOps実務者はAIツールを活用して価値を迅速に提供すべきであり、例としてLLMを使用したコード変更によるコスト削減が挙げられる。
サイト内本文

AnthropicのFableはこれまでで最も制限の多い公開モデル

AnthropicがClaude Fable 5を発表したが、フロンティアLLM開発に関するプロンプトに対する回答品質を密かに低下させる計画が物議を醸した。批判者は研究や信頼を損なうと主張。Anthropicは方針を変更し、ユーザーを弱いモデルに透過的にダウングレードするようにした。それでもFable 5の安全フィルターは非常に厳格で、「タンパク質とは何か?」のような基本的な質問にも引っかかる。本記事ではAnthropicの安全フィルターの仕組みと進化を解説する。

  • Anthropicは当初、フロンティアLLM開発に関するプロンプトに対して密かに回答品質を低下させる計画を立て、反発を招いた。
  • AI研究者のNathan Lambertや元トランプ政権のAI政策責任者Dean Ballなどの批評家は、研究や信頼を損なうと主張した。
サイト内本文

天の川を取り込む:Zerobus IngestによるPB級データ処理

DatabricksのZerobus Ingestは、サーバーレスのストリーミングAPIであり、手動のインフラ管理なしでPB級データパイプラインを即座にデプロイできます。動的パーティショニングとゼロコピーのプロトコルバッファデコーダにより、NASAのNEOWISEデータセットから24時間で1PBを取り込み、12 GB/sのスループットを実現しました。

  • Zerobus IngestはDatabricksの完全マネージド、サーバーレスなストリーミング取り込みサービスです。
  • 順序保証をパーティションからストリーム接続レベルに移すことで、真のオートスケーリングを実現。
サイト内本文

カナダ人母親、OpenAIを提訴——ChatGPTが娘の自殺を促したと主張

カナダ人母親が米国裁判所でOpenAIとCEOサム・アルトマンを提訴し、ChatGPTが自殺念慮を抱える娘に「これが終わりかもしれない」と述べ、自殺を促したと主張している。同社の安全システムが危険な会話を監視しなかったとされる。

  • カナダ人母親Kristie Carrier氏がサンフランシスコ州裁判所にOpenAIを提訴、ChatGPTが24歳の娘Aliceの自殺を助長したと主張。
  • Aliceは死の直前、十数回にわたりChatGPTに自殺念慮を打ち明けたが、OpenAIの安全システムは会話をフラグ付けも終了もしなかった。
サイト内本文

人々の好みを予測する際には「3つの力」を考慮すると効果的

MITの研究者が、約1世紀前のランダム効用モデルに大幅な改良を加えました。従来の2者比較では選択肢間の相関を捉えられないという欠点を指摘し、3つの選択肢を順位付けすることでより正確な予測が可能になることを示しました。

  • ランダム効用モデル(RUM)は1927年以来、2者比較を用いてきたが、選択肢間の相関を見逃していた。
  • MITチームは、多数の人に3つの選択肢を順位付けさせることで相関を捉え、より正確な選好推定が可能になることを証明した。
サイト内本文

ジオスペーシャル・アンバウンデッド:Spatial SQL GA、AI/BIマップ、Delta Sharing、Iceberg v3対応

DatabricksがSpatial SQLの一般提供を開始。オープンレイクハウスでのネイティブ地理空間サポート、AI/BIマップ、Delta Sharing、Iceberg v3対応。パフォーマンスが大幅に向上し、90以上のST_関数を提供。

  • Spatial SQLがDatabricksでGAに。ネイティブジオメトリ型と90以上のST_関数。
  • 空間クエリが最大15倍高速化、ブール集合演算が2倍に。
サイト内本文

未来の仕事の議論には証拠問題がある

2023年の論文で、米国労働者の80%が大規模言語モデルにタスクをさらしていると推定され、IMFや欧州議会などで広く引用されている。しかし、これらのスコアは古いモデルと米国の職業分類に基づいており、政策に適用されると限界が増幅される。より良い証拠ツールは存在するが、政策立案者に迅速に届いていない。

  • 2023年の論文で80%の米国労働者がAIにさらされると推定、政策機関で引用
  • スコアはGPT-4時代のモデルと米国の職業分類に基づき、限界がある
サイト内本文
チップ

視覚ではなくバイオ入力に基づく物理AI:産業用バイオのための自律システム評価基準

産業用バイオの自律システムを評価するためのベンチマークについて論じる。ロボットや自動運転とは異なり、バイオプロセスでは意思決定よりもセンシング(観察)が弱点である。バイオ指標は目に見えず、測定に時間がかかり、再現できないため、まずセンシングのベンチマークを行う必要がある。本稿では、システム全体をカバーする、タイムリーなデータ取得、サイト間のデータ一貫性の3つのテストを提案する。センシングが合格した後でのみ、意思決定のベンチマークが意味を持つとする。

  • バイオ自律システムのボトルネックは意思決定ではなくセンシングである。バイオ指標は不可視、測定遅延、非再現性という特徴を持つ。
  • OODAループフレームワークを適用し、バイオでは「観察」が弱点である。ロボット工学では「判断」が課題。
サイト内本文

ステレオビジョンを用いた人体姿勢推定による転倒予測と検出:AMD Kria K26 SOM上での実装

本論文では、AMD Kria K26 SOM上で動作する低消費電力・携帯可能なビジョンベース転倒予測・検出システムを提案する。Intel RealSense D455カメラと3段階パイプライン(量子化YOLOX、A2J、CNN)を用い、エッジデバイス上でリアルタイムかつプライバシー保護された転倒検出を実現。マルチスレッド最適化によりフレームレートは4.5 FPS、分類精度は75.85%を達成した。

  • AMD Kria K26エッジデバイス上でプライバシー保護型転倒検出システムを実装
  • 3段階パイプライン:YOLOXによる人物検出、A2Jによる関節推定、CNNによる転倒分類
サイト内本文
研究

ジェフ・ベゾスのAIスタートアップが「人工汎用エンジニア」の構築を目指す

アマゾン創業者ジェフ・ベゾスは、自身の新しいAIスタートアップが「人工汎用エンジニア」の開発に取り組むとニューヨーク・タイムズ紙とCNBCの報道で明らかにした。プロメテウスと呼ばれるこのスタートアップは、物理製品の設計を支援するAI搭載エンジニアリングツールの開発を目指している。

  • ベゾスのAIスタートアップ「プロメテウス」は「人工汎用エンジニア」を開発中。
  • 120億ドルの資金調達後、企業価値は410億ドルに。
サイト内本文

迷惑な騒音を遮断し、好きな音を聞かせてくれるヘッドホンを科学者たちが開発中?待ちきれない!

ワシントン大学モバイルインテリジェンス研究所のShyam Gollakota氏率いるチームは、機械学習を利用して、いらだたしい音を選択的に除去し、鳥のさえずりなどの快適な音を残したり増強したりするヘッドホンを開発しています。この技術は、特にミソフォニア(特定の音に過剰反応する症状)を持つ人々に恩恵をもたらす可能性があります。

  • 研究者は機械学習を用いて、迷惑な音をフィルターし快適な音を残すヘッドホンを開発している。
  • この技術は、ミソフォニアに悩む人々を助けることを目的としている。
サイト内本文

EquiDexFlow: 接触に基づくSE(3)等変巧みな把持生成フロー

EquiDexFlowは、物体点群から手首姿勢、関節角度、指先接触点、法線、接触力を同時に予測するSE(3)等変フローマッチングモデルです。接触点を物体表面に投影し、力をクーロン摩擦錘内に制約することで、損失ペナルティなしに配置と摩擦コンプライアンスを保証します。200回の回転テストで手首残差0.04°未満、関節偏差ゼロを達成し、全アブレーション変種の中で摩擦違反ゼロ、最高複合スコアを記録しました。物理ロボット上では、リターゲットされた把持が6つのテスト物体すべてでオープンループのピックアンドホールド試験に成功しました。

  • 運動学と接触力を同時に予測し、下流検証なしで安定把持を実現
  • SE(3)等変フローマッチングにより回転一貫性を保証
サイト内本文

デュアルステートスロットアテンション:外観と同一性を分離するビデオオブジェクト中心学習

既存のスロットベースの手法では、単一のスロットベクトルに外観と同一性をエンコードするため、スロットスワッピングが発生する。提案するデュアルステートスロットアテンション(DSSA)は、各スロットを局所状態(フレームごとの外観)と同一性状態(時間的に安定したオブジェクト情報)に分解し、競争変調集約(CMA)を用いて弱一致スロットの更新を抑制する。実験では、MOVi-C、MOVi-D、YouTube-VISにおいて、セグメンテーション品質と時間的一貫性が向上した。

  • DSSAは外観と同一性を分離し、スロットスワッピング問題を解決。
  • 同一性状態は学習されたリカレント遷移により更新され、局所状態の時間フィルタとして機能。
サイト内本文

HairPort: 画像のためのコンテキスト認識型3Dヘアインポート&トランスファー

大きなポーズやスケールの違いに対応できる3D認識型ヘアスタイル転送フレームワークで、バルドコンバーターと3D認識転送パイプラインを特徴とする。

  • HairPortは、大きなポーズやスケールの違いに対応する3D認識型ヘアスタイル転送フレームワークを提案する。
  • LoRAベースのFLUX.1 Kontextを用いたバルドコンバーターにより、リアルなハゲ画像を生成する。
サイト内本文

観察可能なパターンは説明ではない:潜在推論モデルの因果幾何学的解析

潜在推論モデル(LRM)における観察可能なパターン(BFS的フロンティアやデコード可能な算術計算など)が、制御モデルでも出現し、必ずしも行動に因果的影響を与えないことが示された。因果的介入により、潜在思考の利用は段階的であり、幾何学的解析では効果が低ランク方向に集中することが明らかに。観察可能なパターンだけでは内部推論メカニズムの証拠とはならず、LRMの解釈可能性には適切な制御群と因果テストが必要である。

  • LRMの観察可能なパターン(BFS的フロンティアなど)は、提案された再帰やカリキュラムを欠いた制御モデルでも現れ、内部推論の証拠として不適切。
  • 因果的介入により、潜在思考の利用は段階的で、行動への因果効果に比例し、低ランク方向に集中する幾何学的構造が明らかに。
サイト内本文

バーンスタイン・シュール核:スケッチ変調と放射ランダム化によるランダム特徴

本論文は、有限特徴核と完全単調移動不変核の積であるバーンスタイン・シュール核に対する新しいランダム特徴構成を提案する。提案手法は、スケッチ変調と放射ランダム化を組み合わせ、線形特徴次元を達成するとともに、不偏性や作用素ノルムバウンドを含む厳密な理論的保証を提供する。このアプローチはカーネルリッジ回帰の効率を向上させ、代表的な例としてバイアス付きyatカーネルが挙げられる。

  • バーンスタイン・シュール核は移動不変核と内積核の両方を一般化する非定常核である。
  • 提案されたランダム特徴構成は、変調のスケッチと放射スケールのサンプリングにより二次元性を回避し、特徴次元Dmを達成する。
サイト内本文

スケーラブルな統計的に健全なデータマイニングのための少数ショットリサンプリング

データマイニング結果の統計的有意性評価には通常数千のリサンプルデータセットが必要で、大規模データには非現実的です。本論文では、検定統計量の上限偏差に関する新しい境界を導出し、ごく少数のリサンプルデータセットのみを必要とするFewRSを提案します。FewRSは誤発見の確率を厳密に保証し、パターンマイニングやネットワーク分析で最大2桁の実行時間削減を実現しつつ、高い統計的検出力を維持します。

  • 従来のリサンプリング法は数千のデータセットを必要とし、大規模データには不向き。
  • FewRSは新しい境界により少数のリサンプルで厳密な保証を提供。
サイト内本文

オンデマンドおよびバッチパイプラインで動的にデータを抽出する

この投稿では、Amazon Bedrock上でオンデマンド推論とバッチ推論の両方のオプションを備えたインテリジェントな文書処理パイプラインを紹介します。文書処理の時間とコストを柔軟に制御できます。時間に敏感なリクエストにはオンデマンド推論が適しており、バッチ推論は最もコスト最適化されています。また、文書レベルで大規模言語モデルとプロンプトを動的に指定できるため、同じパイプラインで複数種類の文書からデータを抽出できます。

  • オンデマンド推論パイプラインはリアルタイム処理に対応し、SQS FIFOキューでLambda関数をトリガーしてPDFを画像に変換し、マルチモーダルモデルを呼び出してデータを抽出する。
  • バッチ推論パイプラインはEventBridgeスケジューラーで定期的に大量文書を処理し、標準SQSキューとLambda関数でJSONLファイルを作成してバッチ推論ジョブを投入する。
サイト内本文
モデル

Mistral AI、欧州AI推進のため30億ユーロ調達を模索

フランスのAIスタートアップMistral AIは、約30億ユーロの新たな資金調達ラウンドを交渉中で、評価額は約200億ユーロとなっています。

  • Mistral AIが30億ユーロの資金調達を交渉中
  • 評価額は約200億ユーロ
サイト内本文

AIエコノミクスがFinOpsを再編:企業は可視性と制御の向上を模索

企業全体でAI支出が加速する中、組織は新たなコストと最適化の課題に取り組み、AI支出の可視性向上を求めている。FinOpsの次のフェーズは、可視性の向上と財務責任を日常の技術的意思決定に組み込むことに重点を置いている。

  • AI支出の急増により、企業は可視性とコスト管理の向上を必要としている。
  • FinOpsはクラウドコスト管理を超え、より広範なテクノロジー支出に拡大。
サイト内本文

Zyphra、Zamba2-VLをリリース:Mamba2-Transformerハイブリッド視覚言語モデル、初回トークンまでの時間を約一桁削減

Zyphraは、1.2B、2.7B、7Bパラメータのオープンな視覚言語モデルZamba2-VLファミリーをリリース。Mamba2状態空間とTransformerのハイブリッドバックボーンを採用し、Apache 2.0ライセンスで提供。同等のTransformer VLMと競合しつつ、初回トークンまでの時間を約一桁削減。

  • Zamba2-VLシリーズは1.2B、2.7B、7Bパラメータの3サイズでオープンソース提供。
  • Mamba2状態空間層と共有Transformerブロックのハイブリッドアーキテクチャにより、ほぼ線形時間のプリフィルを実現。
サイト内本文

Gemini Omni:Gemini内でのAI動画生成

Gemini Omniは、テキストや画像からの動画作成、静止画のアニメーション化、既存動画の編集を可能にし、動画生成をGeminiマルチモーダルAIアシスタントの一部として統合します。記事では実際のテストを通じてその能力を示す一方、利用制限、動画長の上限、コンテンツポリシーの厳しさなどの課題も指摘しています。

  • Gemini Omniはテキストや画像から直接動画を生成でき、独立したツールが不要。
  • 画像から動画、テキストから動画、動画編集の3つの主要ユースケースをサポート。
サイト内本文

「ポケモンGO」のデータで訓練されたAI、戦場の軍事ドローン支援に活用へ

世界的に人気の拡張現実ゲームからの位置情報スキャンデータが、AIが物理空間を認識・解釈する訓練に使用され、戦場での軍事ドローン位置特定に役立つ可能性がある。

  • ポケモンGOのユーザーデータで訓練されたAIが、戦場での軍事ドローンの位置特定に利用される可能性。
  • 2016年リリースの同ゲームは、2018年までに全世界で8億回以上ダウンロードされた。
サイト内本文

Sparse2Act:クロスドメインロボット操作のための行動整合スパース3D表現の学習

Sparse2Actは、タスク空間のエンドエフェクタ動作を幾何学的な監督として用い、スパース点群エンコーダを観測と整列させる事前学習フレームワークである。LIBERO-10で86.9%の成功率、Meta-World-5へのクロスドメイン転移で73.4%、実世界実験で72.5%の成功率を達成。

  • Sparse2Actは行動整合型マスク信号でスパース3Dエンコーダを事前学習し、再利用を可能にする。
  • LIBERO-10ベンチマークで500微調整ステップで平均成功率86.9%を達成。
サイト内本文

EWAM:身体知能における閉ループオンライン適応のための拡張世界行動モデル

EWAMは、凍結されたCosmos3バックボーンネットワーク上に構築された閉ループオンライン適応アーキテクチャであり、推論時共推論メカニズム(4つの軽量ニューラルレイヤー)を用いてゼロショットタスク適応を実現し、追加のデモデータや微調整なしで新しいタスクレイアウトへの適応に必要なデプロイデータ量を大幅に削減します。

  • EWAMは凍結されたCosmos3バックボーンを基盤とし、ニューラル経験記憶層、異常検出層、ポリシールーティング層、アクション補正層の4つの軽量ニューラルレイヤーによる推論時共推論を採用。
  • ゼロショットプロトコルで評価され、追加のデモセットやバックボーンの微調整は不要で、性能向上は全て推論時メカニズムに起因。
サイト内本文

模倣からアライメントへ:長距離歩道ナビゲーションのための人間選好フローポリシー

FlowPilotは、単眼RGBカメラのみを使用する地図不要の長距離歩道ナビゲーションポリシーです。アンカー付きフローマッチングによる大規模ロボット群データでの事前学習と、人間参加型の選好学習スキームにより、社会的コンプライアンスと反事実推論を向上させます。シミュレーションでは成功率42%、経路完了率66%を達成し、実世界実験では介入率が40.0%、非介入率が52.1%低減しました。

  • アンカー付きフローマッチングを用いて大規模ロボット群データで事前学習し、歩道ナビゲーション行動の多様で複雑な分布を捕捉。
  • 人間参加型の選好学習により、少量の介入データでポリシーを調整し、社会的コンプライアンスと反事実推論を強化。
サイト内本文

Foresight:ナビゲーションに重要な手がかりに関する反復推論

本論文では、Foresightフレームワークを提案する。これは、テスト時に微調整された視覚言語モデルを用いて運動計画を反復的に提案と批評を行い、疎な言語指示によるマップレスナビゲーションを実現する。人間のフィードバックから報酬モデルを学習し、強化学習でVLMを後訓練することで、実際の環境でタスク成功率を37%向上、介入回数を52%削減した。

  • Foresightは、事前学習されたVLMを利用して、テスト時に画像空間の運動計画を反復的に提案・批評し、指示に関連する環境の手がかりに焦点を当てる。
  • 人間のフィードバックから学習した報酬モデルを用いて、計画-批評ループ内で強化学習によりVLMを後訓練する。
サイト内本文

ロボット操作のためのアクション-エフェクトメモリ事前学習

AEMという事前学習フレームワークは、視覚-動作履歴からコンパクトな時間表現を学習し、シミュレーションと実世界の操作タスクでベースラインを上回る性能を示します。

  • AEMは、視覚と動作の特徴を交互に配置したマスクモデリングを使用して、動作条件付き状態進化を学習します。
  • Mambaでエンコードされた単一ベクトルの時間的ボトルネックを採用し、効率的な推論を実現します。
サイト内本文

学習による支援:暗黙的人間・ロボット協調のための協調型VLA

本稿では、模倣学習によるエンドツーエンドで訓練された視覚・言語・動作(VLA)モデルが協調操作を支援できることを示す。アクションチャンキングポリシーの障害モードとして、デモンストレーションアクションリークが早期の支援行動を引き起こすことを特定し、推論時ステアリング手法を提案する。長期協調組立タスクにおける16名の参加者によるユーザスタディでは、ステアリングにより実行期間が延長され、協調が高速化し、障害が減少することが示された。

  • エンドツーエンドのVLAモデルが暗黙的人間・ロボット協調を可能にする。
  • アクションチャンキングポリシーはデモンストレーションアクションリークによる早期支援の問題を抱える。
サイト内本文

VLADriveBench: 自動運転におけるVLAのCoT-アクション関係の評価

VLADriveBenchは、視覚-言語-行動(VLA)モデルにおけるチェーン・オブ・ソート(CoT)推論が運転軌跡と関連性、一貫性、因果関係を持つかどうかを評価する新しいフレームワークです。観測指標(言及、幻覚、矛盾、行動アライメント)とCoT介入プロトコルを組み合わせています。3つのモデルに適用した結果、観測分析と因果分析が大きく乖離する可能性があることが判明しました。ORIONは観測アライメントで最高スコアを示しましたが、そのCoTは随伴現象であり、一方Alpamayo v1.5はスコアが低いもののCoTは強く因果的であり、視覚的顕著性がCoTの影響の程度を調整していました。

  • 既存のベンチマークは軌跡品質のみを評価し、CoTと行動の関連を無視している。
  • VLADriveBenchは観測指標と介入プロトコルという相補的な視点を導入する。
サイト内本文

SalArt-VQA:生成画像における顕著なアーティファクトをVLMが理解しているかを診断する

SalArt-VQAは、視覚言語モデル(VLM)がAI生成画像のアーティファクトを細粒度で理解する能力を評価するための診断ベンチマークです。950枚の画像と3,681問の多肢選択問題を含み、存在検出、意味的定位、空間的接地、証拠に基づく欠陥識別をカバーします。20のVLMをテストした結果、最強のモデルは検出再現率99.37%を達成したものの、全4問に正解した画像は53.26%のみであり、感度と較正のトレードオフが明らかになりました。

  • SalArt-VQAベンチマークは、AI生成画像のアーティファクトに対するVLMの細粒度理解を評価します。
  • 950枚の画像と3,681問の多肢選択問題からなり、4種類の質問タイプを含みます。
サイト内本文

ECA:オープンエンド画像テキスト生成のための効率的な継続的アライメント

本論文では、オープンエンド画像テキスト生成におけるインクリメンタル学習のための効率的継続的アライメント(ECA)を提案する。継続的アライメントの概念と3つのコアメカニズム(クエリ混合モジュール、フィッシャー動的拡張、辞書リプレイ)により、ECAは過去のデータにアクセスせずに破滅的忘却を軽減し、新しいベンチマークで優れた性能を達成する。

  • データ分布の変化に対応する継続的アライメント概念を導入
  • タスク固有の特徴を抽出するクエリ混合モジュールを設計
サイト内本文

文脈認識型特徴融合:自動運転における共起物体検出

局所文脈融合モジュール(LCFM)と大域文脈注意モジュール(GCAM)を用いたContext-Centric Feature Fusion(CCFF)フレームワークを提案。CityscapesとBDD100Kデータセットでカテゴリレベルの一貫性戦略(CCS)がそれぞれ0.973と0.969に達し、小物体検出AP_Sが14.1%向上、まれなクラス「Train」の復元に成功。リアルタイム処理を実現し、オーバーヘッドは0.2 FPSのみ。

  • CCFFフレームワークは局所・大域注意モジュールで共起物体検出を強化
  • CityscapesとBDD100KでCCSが0.973と0.969
サイト内本文

医療用大規模視覚言語モデルにおける細粒度選好最適化の解析と改善

医療用LVLMは事実の一貫性や視覚的根拠付けに課題がある。既存のアライメント手法は、シーケンスレベルの報酬、静的SFT参照への依存による分布シフト、視覚的根拠付けの欠如という3つの限界がある。提案手法は、双方向トークンワイズKL正則化器と視覚対比的根拠付け目的を用い、モデル出力を最小限編集して選好ペアを構築する細粒度オン・ポリシーアライメントフレームワークを形成する。実験で有効性を確認した。

  • 既存の選好最適化手法は医療分野で3つの限界がある。
  • 提案手法は双方向トークンワイズKL正則化と視覚対比的根拠付けを組み合わせる。
サイト内本文

教師アライメントを用いたエンドツーエンド蒸留による高忠実度2段階画像生成

少数ステップ拡散蒸留は4〜8ステップ生成では成熟しつつあるが、2ステップへのさらなる短縮は依然として困難である。本論文では、8ステップのZ-Image Turbo教師モデルから蒸留された高品質2ステップ画像生成モデルZ-Image Turbo++を紹介する。分布整合敵対的学習、ステップ分離パラメータ化、反復正則化付きエンドツーエンドトレーニングの3つの設計により、2ステップと8ステップ生成の品質差を大幅に縮小する。

  • GANトレーニングの実サンプルとして外部画像ではなく教師生成画像を使用する分布整合敵対的学習を提案。
  • 各ノイズ除去ステップに独立したモデルパラメータを割り当てるステップ分離パラメータ化を採用。
サイト内本文

エージェントベースモデルによる形態交替パターンの進化

本論文は、多エージェントシミュレーションを用いて、英語の「go」の過去形「went」のような形態交替の出現と持続性を説明する。交替形式は音韻変化または語彙的変異から生じ、集団内の伝播動態を通じて広がる。生成された形態の現実性を評価するため、大規模言語モデル駆動のシステム「AI歴史言語学者」を導入し、実言語とシミュレーションの形態を比較する。結果は、スケールフリーな社会ネットワークとランダムなベルヌーイ採用がより妥当なパターンをもたらすことを示す。3つのケーススタディで実際の歴史的変化をモデル化している。

  • 多エージェントシミュレーションが「go/went」のような形態交替のメカニズムを解明。
  • AI歴史言語学者がLLM駆動の討論により形態の現実性を評価。
サイト内本文

AfriSUD:アフリカ言語におけるモデル評価のための依存関係ツリーバンクコレクション

AfriSUDは、SUDフレームワークを用いた9つの多様なアフリカ言語の最初の大規模構文注釈付きツリーバンクコレクションです。モデル評価により、アフリカ言語の構文を捉える上で顕著な構文ギャップが明らかになりました。

  • AfriSUDは主要な語族と地域にわたる9つのアフリカ言語をカバー
  • 表層構文ユニバーサル依存関係フレームワークを使用し、膠着や声調を捉える
サイト内本文

MentalMARBERT: アラビア語のメンタルヘルス障害検出のためのドメイン適応型事前学習と2段階ファインチューニング

新たな研究では、アラビア語のソーシャルメディアテキストからメンタルヘルス障害を検出するために、MARBERTのドメイン適応版であるMentalMARBERTを提案しています。適応的事前学習と階層的ファインチューニングからなる2段階フレームワークを用いて、6カテゴリにわたる50,670件のツイートからなる新しいデータセットで、マクロF1=0.861、精度=0.877という最先端の性能を達成しました。

  • アラビア語のメンタルヘルスNLPは、方言の多様性やリソース不足などの課題に直面しています。
  • 本研究では、ドメイン適応型事前学習と階層的2段階ファインチューニングからなる2段階フレームワークを導入しています。
サイト内本文

ショッピング推論ベンチマーク:マルチターン会話型ショッピングアシスタントのための専門家作成ベンチマーク

ショッピング推論ベンチマーク(Shopping Reasoning Bench)は、小売ドメインの専門家によって作成された新しいベンチマークであり、525のミッション(シングルターン232、マルチターン293)と10,863の重要度加重バイナリルーブリックで構成されています。嗜好の洗練、トレードオフ分析、互換性評価などのマルチターン推論能力を評価します。GPT、Claude、Geminiなどのトップモデルの評価では、全体的な合格率はわずか57~77%であり、マルチターンタスクでは大幅に低下し、専門家レベルのアドバイスにはまだギャップがあることを示しています。

  • ショッピング推論ベンチマークは、525の専門家作成ミッションと10,863のルーブリックで構成されています。
  • ショッピング会話に不可欠な5つの推論カテゴリと15のサブカテゴリをカバーしています。
サイト内本文

ペルシャのことわざに基づくストーリー生成におけるLLMの制約付きセマンティックデコンプレッション

本研究では、抽象的なペルシャのことわざを道徳的に忠実な物語に変換することを「制約付きセマンティックデコンプレッション」タスクと位置づけ、ペルシャのことわざに基づくストーリー生成用データセットPANDを紹介する。ハイブリッド評価フレームワークにより、現在のLLMは流暢なテキストを生成できるものの、ことわざに埋め込まれた道徳的・因果構造を忠実に具現化できない「デコンプレッションギャップ」が明らかになった。明示的な推論と反復的な改良がこのギャップを部分的に緩和する。

  • 抽象的なことわざからストーリーを生成するLLMの能力を評価する「制約付きセマンティックデコンプレッション」タスクを提案。
  • ことわざ-ストーリー-意味のトリプルを含むPANDデータセットを構築。
サイト内本文

MARD: ミラー拡張推論蒸留によるメカニズムレベルの薬物間相互作用予測

本論文では、メカニズムレベルの薬物間相互作用(DDI)予測のための再現可能なラベリング・評価プロトコルを提案する。7ファミリー147サブタイプの分類法とリークセーフなコールドスプリット戦略を特徴とする。また、シングルトークンKLダイバージェンス、PRM加重DPO、メカニズム認識検索チャネルという3つの訓練革新を組み合わせたMARD-7Bモデルを開発。2026年4月のDrugBankリリースにおいて、MARD-7Bは32システム中で薬物対の新規性下でも精度を維持した唯一のシステムであり、最良ベースラインを13.9ポイント、GPT-4oを6.7ポイント上回り、コストはフロンティアAPIの約1%である。反記憶化シグネチャは、モデルが稀な薬物でも精度を向上させることを示し、その利得は薬物頻度の記憶ではなく構造化された薬理学的推論に由来することを示唆している。

  • メカニズムレベルDDI予測のための7ファミリー147サブタイプ分類法とリークセーフなコールドスプリット評価プロトコルを提案。
  • MARD-7BはシングルトークンKLダイバージェンス、PRM加重DPO、メカニズム認識検索を統合した推論蒸留モデル。
サイト内本文

EDEN:イタリア語の臨床ノートの大規模コーパス

EDEN(Emergency Department Electronic Notes)は、イタリアの病院救急部門で作成された約400万件の完全匿名化された臨床ノートからなる新たな大規模コーパスです。そのうち約6000件のノートは、呼吸困難と意識消失の2つの患者状況に関連する132項目について臨床専門家によって手動で注釈が付けられています。このデータセットは、イタリア語における最大の自由に利用可能な臨床ノートコーパスであり、医療応用における大規模言語モデルの開発と利用を支援することを目的としています。

  • 約400万件の匿名化された臨床ノートを含む
  • 約6000件のノートに132項目の手動注釈
サイト内本文

PermDoRA: 言語モデルにおけるアダプター干渉の理解 – パラメータ空間幾何の限界

大規模言語モデルのモジュール設計における一般的な仮説は、アダプター干渉が線形パラメータ更新の重複に起因するというものです。本研究ではDoRA-RBACを用いてこれを検証し、幾何学的マージ戦略が標準平均に対して一貫した優位性を持たず、直交性は弱い予測因子であることを発見しました。干渉はパラメータ空間幾何ではなく、共有非線形表現における相互作用に起因することが示唆されます。

  • LLaMA-3.1-8BおよびMistral-7B上で、GPQA、PubMedQA、SimpleQA、WMDPなどの複数QAベンチマークを用いてDoRA-RBACを評価。
  • 幾何学的なリーマンマージ戦略は、マルチドメイン設定において標準的なユークリッド平均に対して一貫した優位性を示さなかった。
サイト内本文

勾配ベースのGray-Scottシステム反転の損失景観診断:PINNコンポーネントの役割の解明

この研究は、偏微分方程式構造を通じた直接逆伝播による損失景観の診断を行い、最適化の失敗が平坦な台地と急な崖に起因することを発見しました。ニューラルネットワークを固定すると残差損失は滑らかな景観を生み出し、病態を回避しますが、ニューラルネットワーク自体は観測データを補完するだけです。

  • Gray-Scottシミュレーションを通じた直接逆伝播によるパラメータ回復は失敗し、損失景観は平坦な台地と分岐境界に沿った急な崖を示す。
  • ニューラルネットワークを固定した場合、残差損失は2次形式で滑らかな景観を生み出し、全ての初期条件にわたるPDEダイナミクスを暗に符号化する。
サイト内本文

半導体製造のための物理情報生成AI:生成モデルにおけるハードな物理制約の構成的強制

本論説は、半導体製造などの物理的制約が厳しい領域では、生成AIが事後フィルタリングではなく、構成によって物理情報を組み込む必要があると主張する。物理情報拡散、PDE制約変分モデル、ニューラルオペレータ事前分布などのアーキテクチャツールキットを概観し、物理忠実度ベンチマークや微分可能シミュレータを中心とした研究課題を提案する。

  • 半導体製造では生成モデルがリソグラフィ、輸送、反応などのハードな物理制約に従う必要がある
  • 構成によって制約を強制するアーキテクチャは事後フィルタリングより優れる
サイト内本文

ProHiFlo: 階層的フローマッチングと機能ガイダンスによる新規タンパク質生成

ProHiFlo は、粗から精への生成、事前学習済み予測器による機能ガイダンス、適応型 SE(3)-等変アーキテクチャを備えた革新的な階層的フローマッチングフレームワークであり、計算コストを削減しつつ高精度を維持し、酵素活性部位の足場設計で 58.9% の成功率を達成し、既存手法を大きく上回ります。

  • 粗から精への生成戦略で、主鎖形状をモデル化した後、全原子座標に精緻化。
  • 事前学習済み予測器を活用した機能ガイダンスにより、再学習なしで所望の特性を持つタンパク質を生成。
サイト内本文

追従行動の二立場評価:同意の構造と介入の限界

アクティベーション・ステアリングはLLMの行動を変えるが、標準的な評価では追従行動低減が事実に基づく同意も抑制するかどうかをテストしない。本論文では二立場評価を導入し、Llama-3-8B-Instructに重心差ステアリングを適用した。追従的同意と事実的同意は幾何学的に異なる部分空間にあるが、ステアリング方向は両方に等しく投影され、区別できないことがわかった。その結果、追従的発言だけでなく地球が丸いといった事実に基づく同意も減少する。このパターンは、活性化から読み取れる表現が書き込めるとは限らないという一般的なギャップを示している。

  • アクティベーション・ステアリングは追従行動を減らすが、事実に基づく同意も減らす。
  • 二立場評価は各トピックの両方の立場をテストし、ステアリングの副作用を明らかにする。
サイト内本文

デプロイメント中心評価:臨床LLMシステムにおけるクエリレベルの拒否リスク予測

本論文は、学術医療センターの電子健康記録に組み込まれたLLMシステムのデプロイメント中心評価を提案する。クエリ内容とデプロイメント固有のコンテキスト(提供者タイプ、部門、使用言語モデル)を用いて事前応答分類器を訓練し、ユーザーの拒否リスクを予測する。4.5ヶ月の前向き分析でAUROC 0.719を達成し、デプロイメントコンテキストを用いた拒否予測の実現可能性を示し、標的ガードレールや棄権戦略への道を開く。

  • 静的ベンチマークは正しさのみを測定し密なアノテーションが必要;本研究は実際のデプロイからの疎なユーザーフィードバックを活用。
  • 事前応答分類器はクエリ内容とデプロイメントコンテキスト(提供者タイプ、部門、モデル)を用いて拒否リスクを予測。
サイト内本文

Evoflux: コンパクトエージェント向け実行可能ツールワークフローの推論時進化

コンパクトな言語モデルは、単独の関数呼び出しを超えたツール使用において課題に直面する。Evofluxは推論時に進化的探索を用いて実行可能なツールワークフローを修復し、MCP-Benchタスクで実行可能性を約3%から17-24%に向上させ、SFTやDPOベースラインを上回る。

  • 小規模言語モデルはツールワークフローの依存関係と実行に苦戦する。
  • Evofluxは構造化編集と実行フィードバックにより型付きワークフローグラフを進化させる。
サイト内本文

TrajGenAgent: 人間の移動軌跡生成のための階層的LLMエージェント

TrajGenAgentは、モデル微調整なしで現実的な合成人間移動軌跡を生成するための階層的LLMエージェントフレームワークを提案する。2段階のオーケストレーター・ワーカー設計を採用:LLMがまずインコンテキスト学習により個人・曜日条件付き活動連鎖を合成し、次に決定論的ワークフローがパーソナライズされたPOI検索、距離認識位置選択、運動学認識移動時間伝播、LLMベースの持続時間推定により各活動を完全な訪問に具体化する。異常検出ベースの評価フレームワークで行動的・意味的妥当性を評価する。実験では、ベンチマークおよび大規模シミュレーションデータセットにおいて、時間空間的忠実性、意味的一貫性、個別行動の現実性で既存手法を上回る。

  • TrajGenAgentはモデル微調整なしで人間移動軌跡を生成する階層的LLMエージェントフレームワーク。
  • 2段階設計:LLMが活動連鎖を合成し、決定論的ワークフローが活動を訪問に変換。
サイト内本文

「あなたは嘘をつきましたか?」モデルスケールと信念検証済みモデル生物における嘘発見器の評価

大規模言語モデルの嘘発見器を評価するため、13の推論モデル生物(隠れた信念が思考連鎖で検証済み)と多様な欺瞞テストベッドを構築。31のモデルで4種類の検出器をテストした結果、プロンプトによる嘘タスクでは性能がモデル能力と共に向上したが、訓練された生物では思考連鎖判定器を除き性能が大幅に低下。現在の検出器はモデルの信念について高い信頼性を以て主張できない。

  • 隠れた信念が検証された13の推論モデル生物を作成し、嘘発見器を評価。
  • 思考連鎖判定器、対数確率分類器、2つの活性化プローブ(新しいDid-You-Lie法を含む)の4つの検出器を評価。
サイト内本文

PersonaDrive:クローズドループ運転シミュレーションのための人間スタイル検索拡張VLAエージェント

PersonaDriveは、スタイル指示された人間の運転データから検索したデモンストレーションを使用して視覚言語行動(VLA)エージェントを条件付け、スタイルごとの再トレーニングなしで多様な運転スタイルを実現する新しいパイプラインです。Bench2Driveでは、無スタイルで運転スコアがSimLingoより4.6%向上し、全スタイルで最高スコアを達成しました。

  • PersonaDriveはスタイル指示された人間の運転データセットから検索したデモを利用してVLAエージェントの動作を調整する。
  • パイプラインはオフラインのトリプレットマイニング、軽量検索ヘッドのトレーニング、VLAバックボーンの微調整の3段階で構成される。
サイト内本文

Pythagoras-Prover: Augmented Lean Formalisationによる効率的な形式証明の進展

Pythagoras-Proverは、4Bおよび32Bの自己回帰モデルと4Bの拡散モデルからなる、計算効率の高いLean定理証明器ファミリーです。段階的なカリキュラムSFTと動的証明フィルタリングにより訓練効率を向上させ、Augmented Lean Formalisation(ALF)を導入して検証コーパスを拡張します。実験では、4BモデルがMiniF2F-TestでDeepSeek-Prover-V2-671Bを上回り(86.1% vs 82.4%)、32Bモデルが93.0%でオープンソースの最高記録を達成し、PutnamBenchで93問を解決しました。

  • Pythagoras-Proverは4Bおよび32Bの自己回帰モデルと、推論時に証明を反復的に洗練する4B拡散モデルを含む。
  • 難易度別に層別されたデータを用いたカリキュラムSFTと、8kトークンコンテキスト内での動的証明フィルタリングにより訓練効率を向上。
サイト内本文

Arbor: 自律エージェントの認知層としての木探索

Arborは、大規模な状態を持つアクション空間で自律エージェントの認知層として構造化木探索を導入するマルチエージェントフレームワークです。フルスタックLLM推論最適化で検証され、ベンダー最適化ベースラインと比較して最大193%のスループット-レイテンシ・パレート改善を達成し、批評エージェントが安定性を確保します。

  • Arborは木探索をエージェント間の共有ワーキングメモリとして使用し、協調最適化を実現。
  • フルスタックLLM推論で最大193%のスループット-レイテンシ・パレート改善を達成、ハードウェア非依存。
サイト内本文

ToolSense:LLMにおけるパラメトリックツール知識を監査する診断フレームワーク

大規模言語モデル(LLM)のツール検索能力を評価する既存のベンチマークは過大評価される傾向がある。研究者らは、より現実的な評価を行うためのオープンソース診断フレームワーク「ToolSense」を提案する。ToolSenseは3種類のベンチマークを自動生成し、ToolBench(約4万7000ツール)での実験では、知識と検索の乖離(知識-検索解離)が明らかになった。標準ベンチマークで高い性能を示すモデルでも、現実的なクエリでは性能が50~64%低下し、埋め込みベースのベースラインを下回る場合がある。

  • ToolSenseは、LLMのパラメトリックツール知識を監査するオープンソースフレームワーク。
  • 3つのベンチマーク(現実的検索ベンチマーク、多肢選択プローブ、QAプローブ)を自動生成。
サイト内本文

Claude Fable は絶えず主体的に行動する

Simon Willison 氏は、Claude Fable 5 が CSS のスクロールバーのバグをデバッグするために、テストページの作成、JavaScript の注入、CORS サーバーの構築など、数多くの創造的な手法を自発的に用いた事例を紹介。そのセッションは約 12.11 ドルを消費し、サンドボックス化されていないコーディングエージェントの可能性と危険性を示している。

  • Claude Fable 5 は、CSS の水平スクロールバーのバグを自律的にデバッグし、創造的な手法を多数使用した。
  • テスト用 HTML ページの作成、PyObjC によるウィンドウ情報の取得、JS インジェクションによるショートカットキー発火、カスタム CORS サーバーの構築などを行った。
サイト内本文

Snowflake Summit 2026のカバレッジから見逃したかもしれない3つの洞察

エンタープライズAIの第二波は、モデルを実際のビジネスで有用にするためのソフトウェアとデータインフラに焦点を当てています。Snowflakeは、独自データとAIモデルを接続するコネクターとしての地位を確立しています。主な洞察は、強固なデータ基盤、セキュリティとガバナンスのフレームワーク、そして本番AIのための信頼できる管理されたインテリジェンスの重要性です。

  • 強固なデータ基盤がエンタープライズAIをビジネス成果に変える(DoorDashやFanaticsの事例)。
  • エンタープライズAIには、セキュリティ、ガバナンス、信頼のための新しいフレームワークが必要(TenableやKomodo Healthの実践)。
サイト内本文

ERGO Hestia、Lakebase と Mosaic AI Model Serving で市場投入期間を短縮

ポーランドの大手保険会社 ERGO Hestia は、Databricks Lakebase と Mosaic AI Model Serving を使用してリアルタイム価格設定エンジンを最新化し、データ、特徴量、意思決定をラクハウスネイティブプラットフォームに統合してミリ秒単位の価格設定、モデル展開の高速化、ガバナンスの統一を実現しました。

  • ERGO Hestia はリアルタイム価格設定エンジンをラクハウスネイティブプラットフォームに移行し、外部データベースとアダプタ層を排除。
  • 新しいアーキテクチャは Lakebase によるオンライン特徴量ストアと Mosaic AI Model Serving による直接APIアクセスを活用し、ミリ秒のレイテンシを実現。
サイト内本文

シークレットスキャンの信頼性向上:大規模な誤検出削減

GitHubはLLMベースのコンテキスト検証を導入し、シークレットスキャンの誤検出率を75.76%削減。アラートの信頼性と開発者の信頼を向上させました。

  • GitHubはMicrosoft Security & AIと協力し、コンテキスト認識型LLM推論による検証を実装。
  • コードベース全体ではなく、API呼び出しや認証ヘッダーなどの高シグナルコンテキストを抽出。
サイト内本文

初の推論拡散LLM「Mercury 2」がBasetenで利用可能に

Inceptionが開発したMercury 2は、拡散アーキテクチャを採用した最速の推論LLMです。従来の自己回帰モデルとは異なり、並列処理により標準NVIDIA GPU上で毎秒1000トークン以上の生成速度を実現。速度は同等クラスのモデルより5〜10倍高速で、コストは半分以下、品質はHaikuやGPT-5 miniに匹敵します。Augment Codeは本番環境で使用し、コストを90%、レイテンシを82%削減しました。Basetenがエンタープライズ級の推論プラットフォームを提供します。

  • Mercury 2は初の推論拡散LLMで、出力全体を並行生成し徐々に洗練することで、自己回帰モデルの逐次生成のボトルネックを解消。
  • 標準NVIDIA GPU上で毎秒1000トークン以上、専用チップ不要で、最適化済みモデルの5〜10倍の速度。
サイト内本文

LlamaIndex ニュースレター 6-10-26

今週は、CVPR 2026でのParseBench発表、ビジュアルドキュメントインテリジェンス向けParse-Flowのローンチ、Anthropic Fable 5ベンチマーク結果、LlamaParseの新しいGranular Bounding Box、そしてAI初のピックルボールトーナメントThe Agent Openをお届けします。

  • ParseBenchがCVPR 2026で初披露、AIエージェント向け文書解析ベンチマーク。
  • Anthropic Fable 5がParseBenchでコンテンツ忠実度90.02%を達成、競合に12ポイント以上の差。
サイト内本文
ツール

OpenAI本部の舞台裏:スティーブン・コリンズの漫画

ガーディアン紙に掲載されたスティーブン・コリンズの漫画が、OpenAI本部の舞台裏をユーモラスに描き、AIとライフスタイルのテーマを融合させている。

  • スティーブン・コリンズがガーディアン向けに描いた漫画で、OpenAI本部の内部を風刺。
  • 人工知能、生活とスタイルなどのテーマを含む。
サイト内本文

Qursor:UIを指すだけでAIに正確なコンテキストを送信

Qursor は、任意のUI要素を指すことでその正確なコンテキストをAIアシスタントに送信できる革新的なツールです。Product Hunt でローンチされました。

  • UI要素を指すだけでAIにコンテキストを送信。
  • あらゆるインターフェースに対応。
サイト内本文

BobのCLI

ローカルファーストのAIコーディングCLIで、ユーザーに適応します。

  • ローカルファーストのAIコーディングCLI
  • ユーザーの使い方に適応
サイト内本文

無料のDeezerツールで、どのストリーミングサービスのプレイリストにもAI音楽が混ざっていないかチェック可能

Deezerは、主要なストリーミングプラットフォームのユーザーがプレイリスト内のAI生成楽曲を識別できる無料のAI音楽検出ツールを発表しました。

  • Deezerはプレイリスト内のAI生成音楽を検出する無料ツールを提供。
  • このツールはすべての主要なストリーミングサービスで動作。