AI News HubLIVE

Agent フレームワークの最新ニュース

MLXを使ってMac上でローカルエージェントAIを実行する(WWDC 2026)[動画]

このビデオでは、MLXフレームワークを使用して、クラウドやAPIキーなしでMac上に完全ローカルのエージェント型AIワークフローを構築し実行する方法を紹介します。MLXからエージェントまでの4層スタック、M5ニューラルアクセラレータによる4倍のプロンプト処理高速化、連続バッチングによる同時処理、複数Macにわたる分散推論といったパフォーマンス最適化を解説。デモでは、ローカルエージェントがSwiftUIアプリをゼロから構築し、Xcodeのバグを修正する様子を紹介します。

  • MLXフレームワークにより、Apple Silicon上で完全ローカルのAIエージェントが可能に。プライバシーと低レイテンシを実現。
  • M5チップのニューラルアクセラレータにより行列乗算が4倍高速化し、プロンプト処理を大幅に改善。
サイト内本文

Box AIがDeep Agentsでエンタープライズコンテンツエージェントを構築した方法

Box AIはDeep Agents上にBox Agentを構築し、セキュリティ、権限、モデルの柔軟性を維持しながら、エンタープライズコンテンツの検索、分析、統合を実現しました。親/子エージェントアーキテクチャは複雑なタスクに対して動的に子エージェントを生成し、ミドルウェアが引用、キャッシュ、コンテキスト管理を処理します。

  • Box Agentは単一ファイルQ&AからDeep Agentsを使用したマルチドキュメント分析へと進化。
  • Deep Agentsはモデル非依存性と3倍の反復速度を提供。
サイト内本文

40%の企業がAIエージェントを廃止する——自社のエージェントを失敗させない3つの方法

自律型AIから真のROIを生み出すには?3人のデジタルリーダーが現場で学んだ教訓を共有。フレームワーク、専門家、データ収益化の重要性を強調。

  • フレームワークに注力:Whoop社のMatt Luizzi氏は、AIエージェントのスケールには反復可能なフレームワークが重要と述べる。
  • 専門家アナリストの活用:Fanatics社のMadeleine Want氏は、専門家がエージェントを指導することで成功確率が上がる。
サイト内本文

AIエージェントに適したサンドボックスの選び方

AIエージェント向けの安全なサンドボックスの選び方について、ファイルシステムの分離、ネットワークアクセス、リソース制限、マイクロVMなどのガイダンスを提供します。

  • AIエージェントはコードを安全に実行し、プロンプトインジェクションのリスクを軽減するためにサンドボックスを必要とします。
  • 「致命的な三要素」(機密データ、信頼できないコンテンツ、外部通信)によりエージェントは脆弱になります。
サイト内本文

G-MAPP:GPU加速によるマルチエージェント計画と知覚の反応的動作生成

本論文は、GPUを用いた世界モデリングとベクトル場ベースの計画を高速化し、最大5倍の高速化を実現するフレームワークG-MAPPを提案する。動的環境でのリアルタイム知覚-行動ループ結合を可能にし、7自由度Franka Emikaロボットで検証した。

  • GPU高速化によりCPU版と比較して最大5倍の速度向上
  • リアルタイム反応動作のための知覚-行動ループの密結合
サイト内本文

TrajGenAgent: 人間の移動軌跡生成のための階層的LLMエージェント

TrajGenAgentは、モデル微調整なしで現実的な合成人間移動軌跡を生成するための階層的LLMエージェントフレームワークを提案する。2段階のオーケストレーター・ワーカー設計を採用:LLMがまずインコンテキスト学習により個人・曜日条件付き活動連鎖を合成し、次に決定論的ワークフローがパーソナライズされたPOI検索、距離認識位置選択、運動学認識移動時間伝播、LLMベースの持続時間推定により各活動を完全な訪問に具体化する。異常検出ベースの評価フレームワークで行動的・意味的妥当性を評価する。実験では、ベンチマークおよび大規模シミュレーションデータセットにおいて、時間空間的忠実性、意味的一貫性、個別行動の現実性で既存手法を上回る。

  • TrajGenAgentはモデル微調整なしで人間移動軌跡を生成する階層的LLMエージェントフレームワーク。
  • 2段階設計:LLMが活動連鎖を合成し、決定論的ワークフローが活動を訪問に変換。
サイト内本文

Arbor: 自律エージェントの認知層としての木探索

Arborは、大規模な状態を持つアクション空間で自律エージェントの認知層として構造化木探索を導入するマルチエージェントフレームワークです。フルスタックLLM推論最適化で検証され、ベンダー最適化ベースラインと比較して最大193%のスループット-レイテンシ・パレート改善を達成し、批評エージェントが安定性を確保します。

  • Arborは木探索をエージェント間の共有ワーキングメモリとして使用し、協調最適化を実現。
  • フルスタックLLM推論で最大193%のスループット-レイテンシ・パレート改善を達成、ハードウェア非依存。
サイト内本文

ToolSense:LLMにおけるパラメトリックツール知識を監査する診断フレームワーク

大規模言語モデル(LLM)のツール検索能力を評価する既存のベンチマークは過大評価される傾向がある。研究者らは、より現実的な評価を行うためのオープンソース診断フレームワーク「ToolSense」を提案する。ToolSenseは3種類のベンチマークを自動生成し、ToolBench(約4万7000ツール)での実験では、知識と検索の乖離(知識-検索解離)が明らかになった。標準ベンチマークで高い性能を示すモデルでも、現実的なクエリでは性能が50~64%低下し、埋め込みベースのベースラインを下回る場合がある。

  • ToolSenseは、LLMのパラメトリックツール知識を監査するオープンソースフレームワーク。
  • 3つのベンチマーク(現実的検索ベンチマーク、多肢選択プローブ、QAプローブ)を自動生成。
サイト内本文

Snowflake Summit 2026のカバレッジから見逃したかもしれない3つの洞察

エンタープライズAIの第二波は、モデルを実際のビジネスで有用にするためのソフトウェアとデータインフラに焦点を当てています。Snowflakeは、独自データとAIモデルを接続するコネクターとしての地位を確立しています。主な洞察は、強固なデータ基盤、セキュリティとガバナンスのフレームワーク、そして本番AIのための信頼できる管理されたインテリジェンスの重要性です。

  • 強固なデータ基盤がエンタープライズAIをビジネス成果に変える(DoorDashやFanaticsの事例)。
  • エンタープライズAIには、セキュリティ、ガバナンス、信頼のための新しいフレームワークが必要(TenableやKomodo Healthの実践)。
サイト内本文

最も賢いAIでも十分でないとき、Benchlingがどのようにエージェントを構築するか

生命科学向けR&DデータプラットフォームであるBenchlingは、2025年10月にエージェントを搭載したチャットインターフェース「Benchling AI」をリリースしました。AI責任者のNicholas Larus-Stone氏がLangChainのCEO Harrison Chaseと対談し、マルチモデルアーキテクチャ、プロダクショントレースのレビュー、検証可能な科学タスクの戦略など、科学分野でのエージェント構築の複雑さについて語りました。

  • Benchlingは同じタスクに対して異なるプロバイダの複数のモデルを実行し、それぞれの誤りパターンを活用して品質を高めている。
  • 毎週交代制の「ファイアチーフ」がプロダクショントレースをレビューし、ユーザーフィードバック(いいね/よくないね)も活用。
サイト内本文

Agent-EvalKit で AI エージェントを体系的に評価する

Agent-EvalKit は、Claude Code、Kiro CLI、Kilo Code などの AI コーディングアシスタントと統合することで、評価インフラを提供するオープンソースツールキット (Apache 2.0) です。この記事では、Agent-EvalKit の6つの評価フェーズを、Strands Agents SDK と Amazon Bedrock で構築された旅行調査エージェントを例に説明します。

  • Agent-EvalKit は、AI コーディングアシスタントと統合された6フェーズの評価ワークフロー(計画、データ、トレース、エージェント実行、評価、レポート)を提供します。
  • 旅行調査エージェントの例では、ツールが空の結果を返した際の幻覚問題を検出しました。
サイト内本文

Xebia:AIエージェントが適切なデータ基盤なしに失敗する理由

XebiaのグローバルCTO Niels Zeilemaker氏は、AIエージェントの成功は適切なデータカタログを含む強固なデータ基盤に依存すると強調する。同社のAgentic Data Foundation(ADF)およびACEフレームワークは、ガバナンスと品質を維持しながら企業のAI導入を加速する。

  • AIエージェントは正確なデータカタログと基盤を必要とし、そうでなければデータを誤解釈する。
  • XebiaのAgentic Data Foundationはデータプラットフォームを拡張してエージェントをホストする。
サイト内本文

SmithDBにおける全文検索:オブジェクトストレージ向け転置インデックスの設計

SmithDBは、エージェントトレースに対して全文検索とJSONフィルタリングをサポートし、中央値レイテンシは400ミリ秒です。本記事では、オブジェクトストレージと大規模なエージェントトレースペイロードに特化した転置インデックス設計について、直面した課題(大きなペイロード、ジップ分布、複数のクエリモダリティ、オブジェクトストレージの制約)、Tantivyを採用しなかった理由、そして2回の設計反復の教訓を詳述しています。

  • SmithDBの転置インデックスはオブジェクトストレージと大規模なエージェントトレースペイロードに最適化
  • Tantivyのような従来の検索ライブラリはmmapとローカルディスクの前提により不適切
サイト内本文

エージェントとアプリケーションの間の欠落したリンク

ほとんどのAIエージェントツールはサーバー上で実行され、ブラウザAPI、デバイス機能、フロントエンド状態へのアクセスが制限されています。LangChainのヘッドレスツールが、最新のエージェントアプリケーションのために安全なクライアントサイドツール実行を可能にする方法をご覧ください。

  • サーバー側のツールはブラウザやデバイスの機能に直接アクセスできない。
  • ヘッドレスツールはクライアントサイドの能力をエージェントループに組み込む。
サイト内本文

Ollama、MLXでApple Silicon上で最高のパフォーマンスを実現

OllamaのMLXエンジンがアップデートされ、Apple Silicon上でこれまでで最高のパフォーマンスを発揮します。AppleのユニファイドメモリとMetalバックエンドのMLXフレームワークをより活用することで、モデルは高品質な応答を出力し、より高速に応答し、メモリ使用量を削減します。NVFP4フォーマットのサポート、最大20%の出力速度向上、エージェントワークフロー向けのスナップショットシステムを導入。

  • OllamaのMLXエンジンがNVFP4フォーマットをサポートし、量子化による品質劣化を半減。
  • 融合されたMetalカーネルと最適化されたサンプリングにより、出力速度が最大20%向上。
サイト内本文

datasette-agent 0.2a0:エージェントがユーザーに質問可能に、クエリ保存機能も追加

datasette-agent 0.2a0 では、ツールが実行中にユーザーに質問できる機能と、SQLクエリを保存する新しいツールが導入されました。これらの機能は新しいLLMフレームワークによって実現されています。

  • ツールは `context.ask_user()` を使用して、yes/no、多肢選択、自由記述の質問が可能。
  • 未回答の質問はデータベースに保存され、サーバー再起動後も継続可能。
サイト内本文

ロボタクシーには、安全性は後付けではなく内蔵されていなければならない

ロボタクシーサービスが世界中で拡大する中、NVIDIAはHalos OSを発表。これは、認定済みOS、標準化されたインターフェース、AIガードレール、検証フレームワークを統合した包括的な安全システムで、自動運転車の基盤に安全性を組み込むことを目指します。

  • 世界中の複数のロボタクシープログラムがNVIDIA DRIVE Hyperionプラットフォームを使用して始動しており、ミュンヘンのUber/Autobrains、台湾のFoxconn、東南アジアのVinFast、サウジアラビアのHUMAINなどが含まれます。
  • NVIDIA Halos OSは、安全認証可能なOS、安全なインターフェース、検証可能なガードレール付きAI、大規模検証という4つの主要な安全課題に対処します。
サイト内本文

Amazon Bedrock AgentCoreを使用したAI搭載の機器修理アシスタントの構築

このチュートリアルでは、Amazon Bedrock AgentCoreを使用して、農家や現場技術者が自然言語で機器の問題を診断し、必要な部品を特定し、メーカー承認の修理手順にアクセスできるAI搭載の機器修理アシスタントを構築します。このソリューションは、AgentCore RuntimeとStrands Agents SDK、Amazon Nova 2 Liteを基盤モデル、Amazon Bedrock Knowledge BaseをRAG、AgentCore Memoryを会話の永続化に使用します。

  • 自然言語による診断と修理ガイダンスをサポートするAI修理アシスタントを構築
  • Amazon Bedrock AgentCore、Strands Agents SDK、Nova 2 Liteモデルを使用
サイト内本文

実際にプロダクションで機能するAI機能をリリースするためのPMプレイブック

デモからプロダクションへの移行における課題を解決するための実践的なガイド。レイテンシ予算、フォールバック設計、品質測定、A/Bテスト、モデルドリフト監視、評価フレームワーク、優雅な劣化、プロンプトエンジニアリングを網羅。

  • 同期、プログレッシブ、非同期のインタラクションタイプごとにレイテンシ予算を定義する。
  • 階層的なフォールバックを設計し、ユーザーが未処理のAI障害に遭遇しないようにする。
サイト内本文

2026年に誰もが使っているトップ10のAIエンジニアリングツール

AIツールは「お試し」から日常業務の一部へと変わりました。毎週新たなツールが登場する中、選択肢の多さが課題です。本記事では、AIネイティブIDE、オープンソース推論モデル、ターミナルベースのコーディングエージェント、エージェントワークフローフレームワークなど、開発効率を高めるトップ10のツールを厳選しました。

  • CursorはAIネイティブIDEとして、コード生成、リポジトリ全体の理解、インテリジェントデバッグを提供。
  • DeepSeekのオープンソース推論モデルがオープンAIシステムの普及を加速。
サイト内本文

Springは23歳。AIがセキュリティ危機を引き起こした

AIによりSpringフレームワークの脆弱性発見が劇的に増加し、月間セキュリティアドバイザリが1700%急増。BroadcomはSpring史上最大のセキュリティアップデートをオープンソース化し、エンタープライズ顧客にデイゼロパッチを提供するが、戦いは始まったばかりだ。

  • 2026年3月から4月にかけて、Springの月間セキュリティアドバイザリがAIによるコード分析により1700%以上急増。
  • BroadcomはSpringの23年の歴史で最大のセキュリティアップデートをオープンソース化し、エンタープライズTanzu Spring顧客にデイゼロCVEパッチを提供。
サイト内本文

ハンズフリーの初回損失通知:Strands AgentsとAmazon Bedrock AgentCore Browser Toolを使用したインテリジェントなクレーム受付

この投稿では、ドメイン推論のためのStrands Agents SDKで構築されたエージェントと、ライブポータルインタラクションのためのAmazon Bedrock AgentCore Browser Toolを組み合わせたハンズフリーFNOL受付システムを紹介します。このアプローチは、反復的な画面作業を排除しながら人間の専門知識を維持します。

  • Strands Agents SDKとAmazon Bedrock AgentCore Browser Toolを組み合わせたハンズフリーFNOL受付。
  • ドメイン推論エージェントがエビデンスの解釈、モーダル間の関連付け、クレーム複雑性評価を担当。
サイト内本文

Show HN:ペネトレーションテストと脆弱性研究のためのAIネイティブレッドチーム

Z3r0 は AI ネイティブのレッドチームフレームワークで、承認優先、ロールベースの実行、構造化された証拠記録を強調します。Docker サンドボックスによる制御された実行を提供し、再開可能な長期タスクをサポートします。アーキテクチャには、最高セキュリティ責任者、監査エンジニアなどの専門エージェントが含まれ、偵察、脆弱性検証、コード監査などを調整します。システム設計は、運用の境界と人間によるレビューのトレーサビリティに重点を置いています。

  • AI ネイティブのレッドチームフレームワーク、操作前の承認と明確なスコープを重視
  • セキュリティ責任者、監査、ペネトレーション、リバースエンジニアリングなどのロールを持つ専門エージェントチーム
サイト内本文

AppleがWWDC 2026でオンデバイスAIスタックを再構築

WWDC 2026では新たなシリコンは発表されず、代わりにAppleシリコン上でAIが動作する方法の構造的な再構築が行われました。新しい推論フレームワークCore AI、新しいモデル形式.aimodel、次世代オンデバイスモデルAFM 3、そしてクラウドに対する明確な姿勢の変化が示されました。最も驚くべき点は、AppleのフラッグシップクラウドモデルがGoogle Cloud上のNVIDIA GPUで動作することです。

  • Core AIがCore MLに代わりニューラルネットワーク推論を担当し、新しい.aimodelバンドル形式を導入。
  • M5およびA19 GPUは各シェーダーコアにニューラルアクセラレータを統合し、行列乗算を4~8倍高速化。
サイト内本文

OxyJen v0.5:AIワークフローのための決定論的グラフランタイム

OxyJenは、グラフ形式の実行、コンテキスト認識メモリ、決定論的リトライ/フォールバックを備えた、LLMワークロードをオーケストレーションするためのオープンソースJavaフレームワークです。Javaエンタープライズ環境向けに設計されており、信頼性の高い本番級AIパイプライン実行エンジンを提供することを目指しています。

  • OxyJenはJavaでAIアプリケーションを構築するためのグラフベースのオーケストレーションフレームワークで、マルチステップワークフローと型安全性をサポート
  • LangChain4jとは異なり、OxyJenはランタイムの信頼性と開発者体験に焦点を当てており、非同期、Project Loom、並行処理をサポート
サイト内本文

PRISM: ワールドモデルにおける事前誘導型想像サンプリング

PRISMは、軽量MLPを介してワールドモデルのエンコーダから状態条件付きガウス事前分布を抽出し、精度加重ガウス積更新を用いてプランナーのサンプリング分布に融合することで、連続制御タスクの成功率を大幅に向上させるタスク非依存フレームワークです。

  • PRISMは、凍結されたJEPAスタイルのワールドモデルエンコーダに軽量MLPを追加し、状態条件付きガウス事前分布を予測します。
  • パラメータフリーで閉形式の精度加重ガウス積更新を使用して、事前分布を計画に統合します。
サイト内本文

SPIN:テンソル化ポリシー協調による分散群制御

本論文は、群トポロジーを圧縮テンソルネットワークとしてモデル化することで、指数関数的な動作空間と通信オーバーヘッドを克服するSPINフレームワークを提案する。

  • 結合ポリシーテンソルを行列積状態鎖に分解し、計算複雑性を指数関数から線形に低減。
  • オフライン学習済みエンコーダとRadon-Nikodým微分によるゼロショット適応を組み合わせたハイブリッド神経記号制御パイプライン。
サイト内本文

PathoSage:経験認識型エージェントワークフローによる病理学におけるマルチソース証拠裁定に向けて

PathoSageは、病理学のパッチレベルマルチモーダル推論のための3段階フレームワークです。構造化証拠審議により異種証拠を独立に評価し、アンカリングバイアスを低減します。また、訓練不要のベータ-ベルヌーイ経験システムでツールの信頼性をモデル化します。実験では、VQA幻覚と分類器の不一致を効果的に軽減し、強力なベースラインを上回りました。

  • 知識検索、証拠収集、証拠裁定の3段階からなるPathoSageフレームワークを提案。
  • 構造化証拠審議が異種証拠を独立に評価し、新しいコンテキストで最終判断を生成することでアンカリングバイアスを低減。
サイト内本文

最新のGeminiモデルをApple開発者に提供

Apple開発者はFoundation Modelsフレームワークを使用してクラウドホスト型のGeminiモデルを安全に呼び出したり、XcodeでGeminiにアクセスしてマルチステップのコーディングタスクをウィンドウを切り替えずに実行できるようになりました。この統合はFirebase AI Logicに基づいており、明日からプレビューリリースとして利用可能です。

  • Apple開発者はFoundation Modelsフレームワークを介してGeminiモデルを直接呼び出せる
  • GeminiがXcodeに統合され、エージェンティックなワークフローを実現
サイト内本文

Apple Core AI フレームワーク

Core AI は、Apple が提供するデバイス上で動作する人工知能フレームワークで、開発者に効率的でプライバシーに配慮した機械学習ツールを提供します。

  • Core AI はデバイス上で機械学習モデルを実行し、ユーザーのプライバシーを保護します。
  • シンプルな API を提供し、開発者が AI 機能を簡単に統合できます。
サイト内本文

LangChainで緊急ヘルプラインの音声エージェントを構築する

LangChain、AssemblyAI、OpenAIを使ってリアルタイムのAI音声エージェントを構築する方法を学びます。このエージェントは発信者の苦痛を聞き、状況を評価し、緊急サービスを派遣し、発信者を落ち着かせます。タイピングやメニューは一切不要です。

  • AssemblyAIを使用してリアルタイム音声認識を実現。部分文字起こしと最終文字起こしをサポート。
  • エージェントARIAはLangChainとLangGraphで構築され、位置情報照会、緊急派遣、人間へのエスカレーション、落ち着かせるプロトコルなどのツールを持つ。
サイト内本文

ReARM:AIコーディングエージェントの統制デモ [ビデオ]

このビデオは、AIコーディングエージェントを統制するためのReARMフレームワークを紹介しています。

  • AIコーディングエージェントの統制のためのReARMフレームワークを紹介
  • 主要な機能とワークフローのデモンストレーション
サイト内本文

Amazon Nova Sonic音声エージェントを大規模に評価、マイク不要

本記事では、Nova Sonicテストハーネスを紹介します。これは、自動でマルチターン会話を実行し、音声エージェントの品質を評価し、オーディオ幻覚を検出するオープンソースフレームワークです。プロンプトとツール設定の迅速な反復と大規模な回帰テストを可能にします。

  • テストハーネスは、双方向ストリーミング、非決定論的応答、マルチターンコンテキスト、オーディオとテキストの乖離など、音声エージェントテストの独自の課題に対処します。
  • JSON設定でシナリオを定義し、会話を自動実行し、LLM裁判官による品質評価を行います。
サイト内本文

AIエージェントスタック(2026年版)

この記事はPaolo Perroneのブログからの転載で、2024年版のAIエージェントスタック図を更新し、2026年版の6つのレイヤー(モデルと推論、プロトコルとツール、メモリと知識、フレームワークとSDK、評価と可観測性など)を紹介。MCPの標準化、推論モデルの進化、メモリの第一級市民化などの変化を強調し、各レイヤーの評価アドバイスを提供。

  • AIエージェントスタックは2024年から2026年にかけて大きく変化し、MCPが標準プロトコルになり、推論モデルがエージェントの能力を変えた。
  • 6つのレイヤーは、モデルと推論、プロトコルとツール、メモリと知識、フレームワークとSDK、評価と可観測性など。
サイト内本文

Google Research、Gemini Enterprise Agent PlatformにエージェンティックRAGを追加~マルチホップクエリに対応するSufficient Context Agentを搭載

Google Researchチームは、Gemini Enterprise Agent Platformに新たなエージェンティックRAGフレームワークを導入した。このフレームワークは、Sufficient Context Agentがマルチホップ・マルチソースのクエリに対して十分な根拠が得られるまで反復的に検索を実行する。標準的なRAGと比較して、事実性の正確性が最大34%向上した。

  • GoogleがエージェンティックRAGを活用したCross-Corpus Retrievalを公開プレビューとして提供開始。
  • Sufficient Context Agentが応答生成前にコンテキストの完全性をチェックし、不足があれば再検索をトリガー。
サイト内本文

SCOUT:不確実性に基づく走行によるセマンティックシーンカバレッジ

SCOUTは、能動的な走行と確率的シーングラフ構築を組み合わせたオンライン意味的探索フレームワークであり、ロボットが環境を徐々に理解できるようにする。不確実性に導かれた走行プランナーを用いて、意味的確定性、幾何学的カバレッジ、移動コストのバランスを取る。

  • 能動的走行と確率的3Dシーングラフ構築を閉ループ化。
  • 不確実性に基づく視点選択により意味的・幾何学的・コスト目標をバランス。
サイト内本文

ツリー上での最適移動の困難性について

本論文は、ツリー上のマルチエージェント経路探索(MAPF)の複雑性を、距離、メイクスパン、フロータイムという標準的な目的関数と、ラベル付きおよび色付きのバリアントに対して解決するシンプルなフレームワークを提示する。ツリー上でのラベル付きおよび2色MAPFがすべての目的関数でNP困難であることを証明し、古典的なペブル移動問題を解決する。すべての結果は、スタック再配置問題のNP困難性を通じて確立される。

  • ツリー上のラベル付きおよび2色MAPFが距離、メイクスパン、フロータイムの全目的でNP困難であることを証明。
  • 数十年未解決だったツリー上のペブル移動問題の複雑性を解決。
サイト内本文

CAF-Gen:議論構造を強化するマルチエージェントシステム

自然テキストからの複雑な推論の形式化は、計算言語学における中心的な課題です。現在の議論マイニング技術は基本的な主張と前提を識別できますが、カーネアデス議論フレームワーク(CAF)のような高度なスキーマに必要な豊富な構造情報を捉えるのに苦労しています。CAF-Genは、反復的な作成者・レビューパイプラインを使用して浅い議論構造をCAF準拠のモデルに強化する自動化されたマルチエージェントフレームワークです。実験では、反復フィードバックループがデータ品質を向上させ、元のアノテーションと強い一致を示しました。

  • CAF-Genは、基本的な議論構造を高度なカーネアデス議論フレームワークに強化するマルチエージェントシステムです。
  • 反復的な作成者・レビューパイプラインを採用し、構造的整合性を確保します。
サイト内本文

MacArena:オンラインmacOS環境におけるコンピュータ使用エージェントのベンチマーク

MacArenaは、macOS上のコンピュータ使用エージェント(CUA)を評価するための、50アプリケーションにわたる421の手動検証済みタスクからなる新しいベンチマークです。OSWorldのタスク、macOSWorldのコンテンツ、および49の新しいmacOSネイティブタスクを組み合わせ、Apple Silicon上のAppleのネイティブVirtualizationフレームワークで動作します。評価の結果、macOSはLinuxベースのベンチマークでは捉えられない独自のGUI課題を提示し、移植タスクとmacOSネイティブタスクでモデルのランキングが逆転し、リーディングモデルがMacArenaサブセットで26%以上遅れをとることが明らかになりました。

  • MacArenaは、macOS専用に設計された、50アプリケーションにわたる421の手動検証済みタスクで構成されています。
  • OSWorld、macOSWorldのタスクと49の新しいmacOSネイティブタスクを組み合わせています。
サイト内本文

Elmes*:ロングテール教育シナリオにおける大規模言語モデルのための細粒度評価ルーブリックの自動構築

本論文では、教育シナリオにおけるLLM評価のための細粒度ルーブリックを自動構築・洗練・適用するエンドツーエンドフレームワークElmes*を提案する。宣言型マルチエージェントエンジンと自己進化モジュールSceneGenを組み合わせ、評価基準とテストデータを共最適化する。構築されたEdu-330ベンチマークは、11科目、3学年、10タスクタイプにわたる330シナリオをカバーし、1000以上の二次指標を含む。実験により、教育能力は多次元であり、トップLLMは主に創造性と価値観統合で異なり、知識重視モデルはソクラテス的足場かけに失敗する可能性があること、教育特化型InnoSparkが最高の人間評価スコアを達成したことが示された。LLM評価者は人間と同等のランキングを維持するが、自己選好などのバイアスを示す。本フレームワークは、教育学に基づいたLLM評価のためのスケーラブルな診断インフラを提供する。

  • Elmes*フレームワークは教育シナリオ向けの細粒度評価ルーブリックを自動生成し、ロングテールシナリオでの拡張性問題を解決する。
  • Edu-330ベンチマークは330シナリオ、1000以上の指標をカバーし、LLMの教育能力を包括的に評価する。
サイト内本文

Lean4Agent:エージェントワークフローと軌道のための形式モデリングと検証

本論文は、依存型形式言語Lean4を使用してLLMエージェントの動作をモデル化し検証する初めてのフレームワークLean4Agentを提案する。FormalAgentLibライブラリとLeanEvolve最適化ツールを含み、実験では検証に合格したワークフローは不合格よりも平均11.94%優れており、LeanEvolveによってソフトウェアエンジニアリング性能がさらに7.47%向上した。

  • Lean4AgentはLean4形式言語を用いてLLMエージェントワークフローを形式モデリング・検証する初のフレームワーク
  • FormalAgentLibは明示的な仮定の下でワークフローの意味的一貫性を検証し、実行時障害を特定可能
サイト内本文

オープンソースコミュニティがOpenEnvをエージェントRLで支援

OpenEnvは、ターミナル、ブラウザ、またはエージェントが操作できる環境を作成するためのツールです。本日、OpenEnvがさらにオープンになり、エージェントのトレーニングの未来をオープンソースにすることを発表します。本日より、OpenEnvはMeta-PyTorch、Reflection、Unsloth、Modal、Prime Intellect、Nvidia、Mercor、Fleet AI、Hugging Faceを含む委員会によって調整されます。このプロジェクトは、報酬フレームワークやトレーナーではなく、RL環境のための相互運用性レイヤーに焦点を当てています。

  • OpenEnvはエージェント実行環境を作成するためのオープンソースツール
  • 現在はMeta-PyTorch、Reflection、Unslothなどの主要AI組織からなる委員会が運営
サイト内本文

GEPAを用いたリフレクティブプロンプト最適化:マルチコンポーネントプロンプト、構造化フィードバック、ホールドアウト検証

本チュートリアルでは、GEPAをリフレクティブプロンプト進化フレームワークとして使用し、小規模言語モデルが多段階算数文章題を解く能力を向上させる方法を示します。弱いシードプロンプトから始め、決定論的ベンチマークを構築し、保持された検証セットでベースラインと最適化プロンプトを比較します。

  • GEPAフレームワークによるリフレクティブプロンプト進化と構造化評価フィードバック
  • 指示フィールドと出力形式ルールを同時に進化させるマルチコンポーネントプロンプト
サイト内本文

NVIDIA garakチュートリアル:カスタムプローブと検出器を用いた完全な防御的LLMレッドチーミングワークフローの構築

このチュートリアルでは、防御的LLMレッドチーミングのためのエンドツーエンドフレームワークであるNVIDIA garakを詳しく解説します。セットアップ、プラグインの発見、ドライラン、実モデルスキャン、マルチプローブ評価、レポート分析、カスタムプローブと検出器の作成、AVIDエクスポートまでをカバーします。

  • NVIDIA garakは防御的LLMレッドチーミングのためのオープンソースフレームワークです。
  • チュートリアルはセットアップからカスタム拡張までの完全なワークフローを示します。
サイト内本文

SentinelBench:長期監視エージェントのためのベンチマーク

AIエージェントは通常、連続的なアクションを行いますが、長時間かかるタスクには持続的注意の戦略が適しています。SentinelBenchは、10の合成Web環境における100のタスクで構成されるオープンソースベンチマークで、タスク完了、反応時間、リソース使用量を測定し、応答性とコストのトレードオフを明らかにします。3つのモデルと2つのブラウザエージェントフレームワークで実験を行い、ベースラインを確立しました。

  • AIエージェントのデフォルトは連続アクションだが、長期監視タスクには非効率。
  • SentinelBenchはメール、カレンダー、金融など10の合成環境で100タスクを提供。
サイト内本文

循環型工場のための不確実性を考慮した機能挙動予測と材料疲労評価

本論文は、循環型工場で回収された製品の再利用判断を支援するため、不確実性を考慮した機能予測と部品レベルの疲労評価を組み合わせたフレームワークを提案する。アングルグラインダーを例に、畳み込みエンコーダで荷重パターンを抽出、LSTMで9つの機能変数を予測、並行して有限要素法に基づく疲労解析で出力シャフトの損傷を評価。テストでは平均精度0.9652、熱変数は完全予測、モーター電流と負荷速度が最も困難な出力であった。

  • 循環型工場の回収製品は不均一な劣化状態を持ち、既存手法は機能と疲労の統合的評価が不十分。
  • 提案フレームワークは現在のツール状態とトルク窓を使用:LSTMが不確実性を伴う機能変数を予測し、疲労は応力再構築と損傷モデルで評価。
サイト内本文

彼らはどこまでやったのか?中止されたフィールド実験における秘密のLLMエージェントの説得戦術

Redditのr/ChangeMyViewで行われた中止されたフィールド実験の分析により、未公開のAI生成アカウント(大規模言語モデルベース)がユーザーとの討論において、アイデンティティ・ターゲティング、権威シグナル、アライメント戦略、認知バイアスを多用して説得力を高めていたことが明らかになった。この研究は、AIシステムがどのように信頼性を構築するかを評価する監査フレームワークの必要性を強調している。

  • 倫理的反発により中止されたReddit実験のデータセットを分析。LLMエージェントが身分を隠して議論に参加していた。
  • AIコメントの3分の2以上でアイデンティティ・ターゲティングが確認され、ほぼすべてに権威主張とアライメント戦略が含まれていた。
サイト内本文

AIエージェントに専用のコンピュータを

AIエージェントがコードを実行するには安全な隔離環境が必要です。LangSmith Sandboxesはハードウェア仮想化されたマイクロVMを提供し、高速起動と永続状態を兼ね備え、コード生成、データ分析、CIエージェントなどのシナリオに最適です。

  • AIエージェントには実際のコンピュータ環境(ファイルシステム、シェル、パッケージマネージャ)が必要だが、インフラへの直接アクセスは危険。
  • コンテナの分離ではカーネルレベルの脆弱性に対抗できず、ハードウェアレベルの分離が必須。
サイト内本文

Gemini Enterprise Agent PlatformのエージェンティックRAGで信頼性の高い応答を実現

Google ResearchとGoogle Cloudが共同で開発したエージェンティックRAGフレームワークは、複数のエージェントが協調して複雑な企業クエリを分解し、十分なコンテキストを反復検索してから信頼性の高い応答を生成します。標準RAGと比較して最大34%の精度向上を達成。

  • 計画、書き換え、ルーティングを行うマルチエージェントアーキテクチャ
  • Sufficient Context Agentがコンテキストが完全になるまで検索を継続
サイト内本文

再帰的自己改善(RSI)が心配?その答えはCDEかもしれません

CDE(組合せ的指向進化)と呼ばれるAI安全フレームワークは、モデルを固定し、審査済みツールを組み合わせることで、RSI(再帰的自己改善)による制御不能なリスクを回避します。静的解析を使用して安全性を確保し、防御を対戦型ランタイムから強化可能なコンポーネントに移しつつ、能力の成長を可能にします。

  • RSIは自身のルールを書き換えるため防御不可能であり、CDEはモデルを固定し審査済みツールの組み合わせで安全性を確保する。
  • CDEはワークフローを宣言型言語に変換し、静的解析により実行前に安全性を検証する。
サイト内本文

その他の成長タグ

Agent フレームワーク AI News | AI News Hub