Agent フレームワーク AI News

Agent フレームワークの最新ニュース

業界リーダーが集結、AIの安全性とセキュリティのためのオープンセキュアAIアライアンスを発足

2026-07-27 18:00 UTC+9

オープンセキュアAIアライアンスは、Linux FoundationのAkritesとOpenSSFを基盤に、主要テクノロジー企業が集まり、AIサイバーセキュリティのためのオープンツールを開発します。アライアンスは、防御者がAIを検査、適応、展開するためにオープンモデルが不可欠であると主張し、Hugging FaceのインシデントでオープンウェイトのGLM 5.2が防御に使用された事例を挙げています。主な貢献として、NVIDIAのNOOAフレームワーク、HPEのゼロトラストID、Hugging FaceのSafetensors、IBM/Red HatのLightwell、MicrosoftのMDASH、SpaceXAIのGrok Buildなどがあります。

オープンセキュアAIアライアンスは、NVIDIA、Microsoft、IBMなどの主要企業が参加し、AIセキュリティのためのオープンツールを提供することを目的としています。
アライアンスは、防御者が透明でカスタマイズ可能なサイバーセキュリティ能力を持つために、オープンAIモデルが重要であると強調しています。

深層強化学習による動的粘性環境での蛇型ロボットの適応的波状移動

2026-07-27 13:00 UTC+9

本研究では、深層強化学習（DRL）により蛇型ロボットが動的に変化する粘性環境で適応的な移動を実現し、従来の事前定義された制御手法の性能限界を克服することを示しています。部分観測マルコフ決定過程として定式化し、非対称アクター・クリティックフレームワークを用いて、物理シミュレータ内の特権情報で訓練した教師方策を、固有感覚センサ情報のみに依存する学生方策に蒸留します。広範囲の動的粘性変化（10^{-7}～10^{-2} m^2/s）にわたるシミュレーション結果は、DRLエージェントが非正弦波の適応的歩容を自律的に獲得し、推進速度と輸送効率を向上させ、従来の正弦波および運動学的制御の限界を打破することを示しています。

深層強化学習により蛇型ロボットが動的粘性環境に適応、直接的な流体センシング不要。
非対称アクター・クリティックと知識蒸留で特権情報を固有感覚に転移。

SCALE：先進ノードにおけるローカルP&R DRV修正のための自己教師あり制約認識レイアウト生成

2026-07-27 13:00 UTC+9

SCALEは、違反を誘発するレイアウトバリアントを生成してDRC-VLMを訓練する自己教師ありフレームワークであり、サブ2nmノードでのDRV修正率を12～25%向上させる。

違反ラベル不要で自己教師ありレイアウト生成、BEOLコンテキストからポリゴンを再構築
自然言語制約と高温サンプリングで多様で違反しやすいバリアントを生成

非定常強化学習における安全制約としての適応速度

2026-07-27 13:00 UTC+9

本論文は、非定常強化学習における安全制約として適応速度を提案する。中心的な考え方は、適応実現可能性に基づいて安全性を定義することである：将来の環境変化に必要な適応能力がシステムの校正された回復能力を超える場合、フレームワークは積極的に行動集合を制限し、アクションレベルのシールドを起動して不安全行動を低減する。実験では、非定常運転環境において、コンテキスト変化に合わせた短期ウィンドウ内の安全違反が主に減少した。

既存の安全RL手法は定常性を仮定し、適応速度を考慮しない。
適応需要と回復能力の比較による調整速度制約を提案。

DROS-VEP – AIエージェント向けの1μs未満のC-ABIバイナリサーキットブレーカー

2026-07-27 00:46 UTC+9

DROS-VEPは、AIエージェントのツール呼び出し認可と特権実行制御を提供するオープンソースのランタイムガバナンスフレームワークです。PDP/PEPを介してゼロトラスト実行境界を実装し、間接的プロンプトインジェクションなどの脅威を防御します。ベンチマーク（中央値26.1μs）、40,000ドルのレッドチームチャレンジ、複数層のライセンスを含みます。

DROS-VEPは、AIエージェントにサブマイクロ秒（中央値26.1μs）のランタイム認可とガバナンスを提供します。
MITRE ATLASにマッピングされた2026年の実世界のAIインシデントに対応し、さまざまな脅威シナリオをサポートします。

FAIRChem v2 UMA：分子、触媒、材料、振動、分子動力学にわたるマルチドメイン原子シミュレーションのための統一フレームワーク

2026-07-26 17:38 UTC+9

このチュートリアルでは、FAIRChem v2とUMA（ユニバーサル機械学習原子間ポテンシャル）を、分子化学、触媒、無機材料にわたる原子シミュレーションのための統一フレームワークとして探求します。環境設定、Hugging Face認証、タスク固有の計算機の初期化、および単一点エネルギーと力の予測、分子幾何学最適化、スピン状態比較、反応エネルギー推定、振動解析、表面吸着、結晶緩和、状態方程式フィッティング、分子動力学、ポテンシャルエネルギー表面スキャンなどの幅広い計算化学ワークフローをカバーしています。

FAIRChem v2 UMAはマルチドメイン原子シミュレーションのための統一フレームワークです。
分子、触媒、材料にわたる計算化学ワークフローをサポートします。

データサイエンスケーススタディ面接を攻略する

2026-07-26 16:28 UTC+9

データサイエンスのケーススタディ面接は、コードを書くだけではありません。問題をどう考え、データを分析し、決定を下し、実際のビジネス課題を解決する方法を説明する力が試されます。このガイドでは、SCOPEと呼ばれるシンプルなフレームワークを紹介し、5つの完全な例を通してその適用方法を解説します。

SCOPEフレームワークは、Situation、Clarify data、Outline approach、Prototype、Explainの5つのステップからなる。
面接官は、問題構造化、技術的深さ、コミュニケーションの明確さ、ビジネス判断の4つの次元を評価する。

AIエージェントフレームワークを破壊的／重大なアクションについてスキャンした結果、驚くべき発見があった

2026-07-26 09:58 UTC+9

25のAIエージェントフレームワーク（23,476ファイル）をスキャンしたところ、モデルが制御するパラメータが許可チェックなしに重大なアクションに到達する30の事例が見つかりました。データ損失、実行、エグレスに分類されます。

25のリポジトリで30の未許可の重大アクションを発見
最も多かったのはネットワークエグレス（15件）とファイル書き込み（7件）

インテリジェンスを自社のものにする：持続可能なAI優位性の鍵

2026-07-26 05:16 UTC+9

企業は、汎用AIを持続的なビジネス優位性に変えるために、エージェントシステム、ガバナンス、コンテキスト、フィードバックループを自社で所有する必要があります。本稿では、なぜ汎用AIだけでは差別化が不十分なのかを解説し、モデル、オーケストレーション、コンテキストの制御、コスト・品質・リスクの管理、継続的改善の学習ループ構築など、インテリジェンスを所有するための具体的な戦略を提供します。

汎用AIだけでは持続可能な競争優位は得られず、ビジネスに特化したインテリジェンスが必要。
インテリジェンスの所有とは、エージェントシステムの三層（モデル、オーケストレーション、コンテキスト）を制御すること。

OpenSpaceを使用した自己進化型AIエージェントの構築：スキル、MCP、系統、低コスト再利用

2026-07-25 16:54 UTC+9

このチュートリアルでは、OpenSpaceフレームワークを使用して自己進化型AIエージェントを作成する方法を詳しく説明します。環境設定、カスタムスキルの作成からMCP統合、SQLiteを使用したエージェント系統の管理まで、効率的で再利用可能なエージェントシステムを構築するための完全なワークフローを紹介します。

OpenSpaceはスキル進化と系統管理により、AIエージェントの自己改善と低コスト再利用を実現します。
チュートリアルでは、環境設定、カスタムSKILL.mdの作成、MCPサーバーの起動などの実践的な手順をカバーします。

Shackle：AIエージェントの実行前ALLOW/DENY/HITLゲート（オープンソース）

2026-07-25 03:53 UTC+9

SHACKLEは、すべてのエージェントツール呼び出しをリアルタイムで仲裁し、ALLOW/DENY/HITLの判定を下すオープンソースのランタイムガバナンスレイヤーです。SP/1.0適合基準と15のハッシュ検証可能なテストベクターを備え、認定レベルを提供します。LiteLLMやAutoGenと統合し、暴走ループや予算超過を防ぎます。

SHACKLEはAIエージェントのツール呼び出しにサーキットブレーカーを提供し、3つの判定（許可、拒否、人間介入）を行います。
SP/1.0適合基準を実装し、検証可能なフィクスチャを備えています。

GraphEvalによる言語モデルの幻覚評価

2026-07-24 22:02 UTC+9

GraphEvalは、ナレッジグラフと自然言語推論（NLI）を活用して大規模言語モデル（LLM）の出力における幻覚（Hallucination）を検出・特定する評価フレームワークです。本記事では、軽量なシミュレーションコード例を用いて、LLM応答からナレッジグラフを構築し、各トリプルを実データコンテキストと比較する2段階プロセスを解説します。

GraphEvalはLLM出力を（主体、関係、客体）のトリプルで構成されるナレッジグラフとして表現し、NLIモデルで各トリプルを評価します。
シミュレーション例では、「高価なエンタープライズサーバーファームが必要」という幻覚トリプルが正しく検出されました。

AI生成のプルリクエストは複数のPRにわたって悪意を隠せる

2026-07-24 20:10 UTC+9

従来のコードレビューは一度に一つのプルリクエスト（PR）を評価するが、AI支援開発は新たなガバナンスの課題をもたらす：悪意ある意図が、個別には許容可能な多数のPRに分散され得る。本記事は、クロスPRの意図、帰属、長期的コンテキストに焦点を当てたガバナンスフレームワークを提案し、AI生成コードに潜むセキュリティリスクを検出・防止する。

AI生成コードは、個々には無害に見える複数のPRに悪意を分散させることができる。
従来の静的解析や人間によるレビューでは、時間をかけたクロスPRの悪意パターンを検出できない。

CBFベース強化学習による安全でスケーラブルなマルチドローン搬送：ゼロショットSim-to-Real転送

2026-07-24 13:00 UTC+9

本研究は、安全でスケーラブルなマルチドローンの協調搬送のための学習ベースのフレームワークを提案する。タスク関連の結合を保持する最小限の2次元抽象化を導入し、ドメインランダム化とDiscrete Graph Control Barrier Function Proximal Policy Optimization (DGPPO) を用いて分散ポリシーを訓練し、ゼロショットのSim-to-Real転送を実現。実世界実験では、チームサイズや動的環境への汎化が示された。

最小限の2次元抽象化により、ドローン-ペイロード結合を保持しつつ計算負荷を低減。
ドメインランダム化とDGPPOにより、微調整不要のゼロショットSim-to-Real転送を実現。

証拠を考慮した材料文献分析のためのスキル契約エージェント

2026-07-24 13:00 UTC+9

AlphaAgentは、明示的なスキル契約により検索ベースのQAと論文レベルのレポート生成を分離するスキル駆動型エージェントフレームワークです。40の材料科学問題に対するブラインド評価で、ベースラインを大幅に上回り、特にメカニズム説明と信頼性境界認識で顕著な改善を示しました。

AlphaAgentはスキル契約を用いて検索とレポート生成タスクを分離
検索スキルはクエリを書き換え、30万件以上の論文インデックスを検索

皮膚免疫関連有害事象の同定のためのヒューマン・イン・ザ・ループ大規模言語モデルフレームワーク

2026-07-24 13:00 UTC+9

本研究では、検索拡張型マルチエージェント大規模言語モデル（LLM）駆動のヒューマン・イン・ザ・ループフレームワークを用いて、診療記録から皮膚免疫関連有害事象（cirAEs）を検出する手法を評価しました。人手によるレビューと比較して、LLM支援ワークフローは精度（F1 = 0.88 vs 0.77）、Cohen's kappa係数（kappa = 0.82 vs 0.50）を向上させ、平均レビュー時間を約半分に短縮しました。このフレームワークは、LLMが臓器横断的に免疫関連毒性を同定し、より広範に正確でスケーラブルかつ透明性のある有害事象データ抽出を可能にする方法を示しています。

検索拡張、マルチエージェントLLM、ヒューマン・イン・ザ・ループを組み合わせたcirAE検出の新規フレームワーク。
人手レビューと比較してF1スコアが0.77から0.88、Cohen's kappaが0.50から0.82に向上。

大規模言語モデルのパーソナライゼーション能力のベンチマーキング

2026-07-24 13:00 UTC+9

本論文は、ベイズ説得フレームワークを応用したLLMのパーソナライゼーション能力評価手法を提案し、SDR-Benchデータセットを公開。最先端のLLMにおいて一貫したパフォーマンスの頭打ちを観測し、営業現場での実証実験によりフレームワークの有効性を確認した。

既存のLLMパーソナライゼーションベンチマークは送信者側の適応のみ測定
ベイズ説得理論を生成エージェントに応用した評価フレームワークを提案

InferenceBench：AIエージェントによるオープンエンドなLLM推論最適化のためのベンチマーク

2026-07-24 13:00 UTC+9

InferenceBenchは、AIエージェントがオープンエンドなLLM推論最適化を行う能力を評価する新しいベンチマークです。エージェントは2時間以内にターゲットLLMの推論速度を最適化する必要があり、プリフィルレイテンシ、デコードレイテンシ、同時リクエストスループットの3つのボトルネックを個別に、また全てを同時に最適化する4つのシナリオが用意されています。実験の結果、エージェントはベースラインを最大8.08倍改善するものの、単純なハイパーパラメータ探索（11.53倍）には及ばず、また単一の推論フレームワークに収束する傾向が見られました。

InferenceBenchは、実サーバ環境でLLM推論速度を最適化する4つのシナリオをエージェントに課す。
最先端エージェントはベースライン比最大8.08倍の高速化を達成するが、単純なハイパーパラメータ探索（11.53倍）には劣る。

Kalytera – AIエージェントの失敗理由を伝える、単なる失敗通知ではない

2026-07-24 06:37 UTC+9

Kalyteraは、AIエージェントの本番環境向け評価ツールで、各ステップの失敗を自動的に捕捉し、平易な英語で根本原因を説明し、繰り返し発生する損失パターンを検出します。ワンラインのコードで統合でき、LangChain、CrewAIなどのフレームワークに対応。月間10,000セッションまで無料で利用できます。

正確性、目標整合性、判断品質、完全性の4次元で各ステップを評価
すべての失敗に対して平易な英語で根本原因を特定

2026年7月：LangChain ニュースレター — NemoClaw ブループリント、OpenWiki Brains など

2026-07-24 03:39 UTC+9

Jensen Huang と Harrison がオープンエージェントシステムについて議論し、NVIDIA NemoClaw for LangChain Deep Agents ブループリントを発表。LangSmith Sandboxes の無料トライアル、Slack 統合、音声トレーシング。オープンソースの OpenWiki Brains、統合評価スタック、Deep Agents 内の RLM。新コース「Deep Agents 入門」や各種イベントも。

Jensen Huang と Harrison がオープンエージェントシステムの重要性を強調し、NemoClaw ブループリントを公開。
LangSmith に Sandboxes 無料トライアル、Slack 統合、音声エージェントトレーシングが追加。

ディープエージェントのベンチマーク方法

2026-07-24 02:55 UTC+9

ディープエージェントの評価は困難です。Harborを使用したエンドツーエンド評価を再構築し、コーディング、会話、検索の3つのベンチマークを導入した方法を共有します。

Harborを使ったエンドツーエンド評価：環境、指示、評価スクリプト。
3つのベンチマーク：Harbor-Index（自律作業）、τ³-bench（会話）、ContextBench（検索）。

AIエージェントの評価：StrandsとAgentCoreを用いたプロダクションブループリント

2026-07-24 02:00 UTC+9

MotorwayとAWSは、エンドツーエンドの評価パイプラインを構築し、誤った結果をクエリ8回に1回から50回に1回に削減し、問題検出時間を数時間から数分に短縮しました。このパイプラインは、Strands Agents SDKとAmazon Bedrock AgentCore（AIエージェントを大規模に展開・運用するためのフルマネージドサービス）を組み合わせています。この記事では、独自のエージェント向けにこのパイプラインを構築する方法を学びます。

MotorwayとAWSは、自然言語クエリで手動フィルタリングを置き換えるAI駆動のディーラー在庫検索エージェントを構築。
2フェーズの評価戦略：ビルド時テスト（strands-agents-evals）と本番監視（Amazon Bedrock AgentCore Evaluations）。

Nvidia、物理AIで医療ロボットのデータ問題解決に挑む

2026-07-23 20:38 UTC+9

Nvidiaは新しいオープンソースの医療物理シミュレーションフレームワークを発表。医療ロボットを物理AIシステムとして捉え、シミュレーションで訓練データを生成し、手術用ロボットの開発を加速する。

Nvidiaが医療ロボット向け物理AI訓練のためのMedical Physics Simulationフレームワークを公開。
古典物理シミュレーションと生成AIを組み合わせ、数千の並列訓練環境を実行し、訓練時間を大幅に短縮。

Show HN: Ego lite – 人間とAIエージェントが並行して作業できるChromiumブラウザ

2026-07-23 16:33 UTC+9

ego (lite) は、人間とAIエージェントが並行して作業できるように設計された無料のChromiumブラウザです。エージェントは単一のJavaScriptパスで複数のアクションを実行することで、ブラウザタスクを最大3.45倍高速化できます。Chromeのログインセッション、Cookie、拡張機能を継承し、エージェント用の隔離されたワークスペース（Space）を提供します。他の自動化フレームワークとは異なり、ego (lite) は組み込みのエージェント接続機能を備えたスタンドアロンブラウザとして動作します。

ego (lite) はエージェントネイティブなChromiumブラウザで、Chromeデータをインポートし、AIエージェントがユーザーと同時に操作できます。
エージェントは並列JavaScriptアクションにより、より少ないトークンで複雑なブラウザタスクを最大3.45倍高速化できます。

小型無人航空機システム向けリモートIDスプーフィング対応軌道計画

2026-07-23 13:00 UTC+9

本論文は、リモート識別（RID）の位置スプーフィング攻撃下で動作する小型無人航空機システム向けの分散型でスプーフィング対応の軌道計画フレームワークを提案する。従来の計画手法がRIDブロードキャストを信頼するのに対し、提案手法はRID情報を未検証として扱い、物理層観測（受信信号強度）を用いてスプーフィングを検出し確率的に攻撃元を特定する。不確実性は確率制約を用いてリスク境界付きの危険領域に変換され、エージェントごとのマルコフ決定過程プランナーに統合される。複数機による荷物配送シナリオのシミュレーションでは、RIDデータを信頼するプランナーと比較してニアミス衝突事象が減少し、リアルタイム実行に適した計算効率が示された。

RIDスプーフィングを明示的に考慮する分散型フレームワーク
RSS測定値を用いてスプーフィングを検出・位置特定

Crowd4D：シーン認識型単眼4D群衆再構築

2026-07-23 13:00 UTC+9

Crowd4Dは、単眼RGBビデオから群衆とシーンを共同最適化する初のシーン認識型4D群衆再構築フレームワークである。人-シーン相互作用プロキシ（HSIP）を導入してスケールと位置の整合を解決し、群衆構造コヒーレンス正則化（CSCR）により遮蔽下での時間的安定性を向上させ、複雑な大規模シーンで既存手法を凌駕する。

単眼4D再構築で群衆とシーンを共同最適化する初のフレームワーク。
人-シーン相互作用プロキシ（HSIP）を中間表現として導入。

OpenEvoShield：オープンワールドのマルチエージェントシステム攻撃に対する二重非定常継続的防御

2026-07-23 13:00 UTC+9

OpenEvoShieldは、LLMベースのマルチエージェントシステムにおける攻撃戦略の適応と正常行動のドリフトという二重の動的変化に対処する継続的防御フレームワークであり、非対称レートコントローラ、動的境界更新、EWC正則化ポリシーアンサンブル、エネルギー検出器を用いて、100ラウンドの展開において未知の攻撃を低い誤検出率で検出する。

LLMマルチエージェントシステムは、攻撃者の動的適応と正常行動のドリフトという二重の課題に直面し、既存の防御は閉じた世界を前提として急速に性能が低下する。
OpenEvoShieldは3つのモジュールで構成：非対称レートコントローラが高速・低速学習率を分離、正常境界更新器が動的境界を維持、EWC正則化ポリシーアンサンブルが破滅的忘却なしに高速適応。

AIは本当にデータパイプラインを構築できるのか？Apache SeaTunnel AI CLIを用いた7つの主要LLMの100タスクベンチマーク

2026-07-23 12:57 UTC+9

本稿では、Apache SeaTunnel AI CLIを用いて、7つの主要な大規模言語モデルを100のETLタスクで評価した階層型ベンチマークを紹介する。静的構成検証（L1）、CLIおよびルールベース検証（L2）、Docker化環境でのランタイム検証（L3）の3層検証フレームワークを採用。結果、静的検証の高パフォーマンスがランタイム成功率に直結しないことが示され、AI支援ETLの実用的評価の重要性を強調している。

ベンチマークは100のETLタスク（バッチ処理、CDC、複雑DAG等）を対象とし、静的検証、CLI検証、ランタイム検証の3層で実施。
静的検証の高スコアはランタイム成功を保証せず、AI生成構成の評価には実環境での実行検証が不可欠。

DamNesia – 16次元状態空間AIキャラクターフレームワーク（.NET 10、0-GC）

2026-07-23 12:52 UTC+9

DamNesiaは、16次元状態空間に基づくAIキャラクターフレームワークで、PESランタイムを介して決定論的な人格動態を提供し、長期インタラクションにおけるLLMの人格ドリフト問題を解決します。コミュニティ版（オープンソース）、ランタイム版（商用）、エンタープライズ版（ゼロGC、百万エージェント同時実行）の3層構造を備えています。

DamNesiaは16次元状態空間で人格をモデル化し、従来のプロンプトエンジニアリングを置き換えます。
フレームワークは3層構造：コミュニティ版（OSS）、ランタイム版（商用）、エンタープライズ版（超高性能）。

Show HN: AgentNest — AIエージェントのためのセルフホステッドサンドボックス

2026-07-23 10:54 UTC+9

AgentNestは、AIエージェントコードを安全で使い捨て可能なサンドボックス内で実行するためのオープンソースランタイムです。Python、シェルコマンド、ファイル、パッケージ、ブラウザ、GPU、Gitをサポートし、細かいネットワークポリシー、ステートフルセッション、フォーク可能な状態を提供します。セルフホステッドで拡張可能、LangChainやMCPとも統合できます。

セキュアなデフォルトとエグレス許可リストを備えたセルフホステッドサンドボックス
エージェントワークフローのためのステートフルPythonセッションとフォーク可能なサンドボックス

Plow Macアプリ：MacでGPT-5.6エージェントを安全に実行

2026-07-23 10:35 UTC+9

Plow は Mac アプリで、OpenClaw および Hermes フレームワーク上で GPT-5.6 エージェントを安全に実行できるようにし、ローカルでプライバシーを重視した AI 実行環境を提供します。

Plow は GPT-5.6 エージェントを安全に実行するための Mac 専用アプリです。
OpenClaw と Hermes の両方のフレームワークをサポートしています。

評価エンジニアリングスキル：リポジトリコンテキストとトレースから評価を構築する

2026-07-23 01:57 UTC+9

LangChain は評価エンジニアリングスキルを発表しました。このスキルはエージェントのリポジトリとトレースを検査し、ユーザーインタビューを通じて評価を提案し、実行可能な Harbor 形式の評価タスクを出力します。

新しいスキルはエージェントのリポジトリとトレースを自動分析し、テストすべき能力を提案。
ユーザーインタビューによる反復的改善で、一度きりの生成よりも高い評価受容率を実現。

NVIDIA、GPUアクセラレーション対応の医用物理シミュレーションフレームワークを初めてオープンソース化

2026-07-22 22:00 UTC+9

NVIDIAは、医療用ロボット向けのGPUアクセラレーション対応医用物理シミュレーションフレームワークをオープンソース化しました。このフレームワークは、解剖学的構造とデバイスの相互作用をシミュレートし、エッジケースのシナリオを生成し、仮想環境でロボットをトレーニングすることを可能にします。Isaac for Healthcareの一部として、CUDAと生成AIを活用し、数千の並列シミュレーションを実行してトレーニング時間を数時間から2分未満に短縮します。初期導入企業には、CMR Surgical、Johnson & Johnson MedTech、Medtronicなどが含まれます。

NVIDIAが医療用ロボット向けGPUアクセラレーション医用物理シミュレーションフレームワークをオープンソース化。
血管解剖学、カテーテルなどの柔軟な器具、X線イメージングをシミュレート。

LangGraphを使ったグラフエンジニアリング：3年間の経験

2026-07-22 21:37 UTC+9

この記事は、LangChainチームがLangGraphを使ってエージェントシステムを構築してきた3年間の経験をまとめたものです。グラフエンジニアリングは新しい概念ではなく、信頼性の高いエージェントを構築するための確立されたアプローチです。いつグラフを使うべきか、避けるべきか、そして「エージェントグラフは通常DAGではない」、「ループは単純なグラフである」、「動的遷移が重要である」という重要な教訓について説明しています。

グラフエンジニアリングは、エージェントのワークフローをグラフで表現し、決定論と自律性のバランスを取る手法です。
LangGraphは3年前にリリースされ、現在月間6500万回以上ダウンロードされ、スタートアップや大企業に採用されています。

人間中心の変革とイノベーション：メカニスティック解釈可能性がAI信頼の基盤に

2026-07-22 14:16 UTC+9

組織がコパイロットAIから自律型エージェンティックAIへ移行する中、信頼が重要な障壁となっています。メカニスティック解釈可能性（ニューラルネットワークをリバースエンジニアリングして内部決定経路を理解する手法）は、人間中心のソリューションを提供します。AIを透明化することで、変革リーダーは心理的安全性を促進し、倫理的整合性を確保し、イノベーションを加速できます。本記事では、信頼と協働に基づくハイブリッド労働力を構築するための解釈可能なAI実装フレームワークを提示します。

メカニスティック解釈可能性は、従来の説明可能性を超え、内部神経回路をマッピングしてAIの意思決定プロセスを明らかにする。
透明なAIは、人間と機械の混成チームにおける心理的安全性と信頼に不可欠である。

ITNTNにおけるマルチUAV知的航法：階層的LLMアプローチ

2026-07-22 13:00 UTC+9

クラウドベースLLMとエッジLLMをDRLと組み合わせた階層的LLMフレームワークを提案。ITNTNにおけるUAV航法の衝突率低減とスループット向上を実現。

HAPS上のクラウドLLMがグローバル負荷分散を担当
UAV上のエッジLLMが局所観測を戦術サブゴールに変換

四足歩行ロコモーションのためのトルク駆動強化学習

2026-07-22 13:00 UTC+9

本論文は、重い高トルク四足ロボット向けのトルク駆動強化学習フレームワークを提案する。速度推定なしで不整地を走破し、目標速度を追跡可能。Unitree B1でのシミュレーションでは、線速度3.5 m/s、角速度1.5 rad/sを達成し、外部センサなしで階段昇降を実現。2026年IEEE/SICE SIIに採録。

従来の位置ベース強化学習フレームワークは速度推定が必要で地形適応性が低いが、トルク制御はよりロバスト。
新しいフレームワークは重量級四足ロボット(Unitree B1)で検証され、現在速度を知らずに目標速度を追跡できる。

プロシージャル合成データによるトマト表現型解析のためのテキスト条件付きセグメンテーション

2026-07-22 13:00 UTC+9

本研究では、合成データ生成と基礎モデルのファインチューニングを組み合わせたトマト植物セグメンテーションのためのシミュレーションから実世界へのフレームワークを提案し、温室作物器官のセグメンテーション性能とモデル信頼性を大幅に向上させた。

プロシージャルモデリングを用いた大規模合成トマト温室データセットの生成
SAM 3を作物器官のテキスト条件付きセグメンテーションにファインチューニング

MILP-Evo：混合整数線形計画法ソルバーの閉ループ完全自動設計

2026-07-22 13:00 UTC+9

大規模言語モデル（LLM）による閉ループプログラム進化を用いて、MILPソルバーのコンポーネント（カット選択器と分岐ルール）を自動設計するMILP-Evoフレームワークを提案。複数のベンチマークで競争力のある性能を示す。

データ駆動型ポリシーは検査・適応・展開が困難だが、明示的ソルバーロジックは理解しやすいが手作業に依存。
MILP-EvoはLLM誘導の閉ループ探索により、候補プログラムを反復生成し、ソルバー挙動のフィードバックで最適化。

Phionyx: 構造化状態管理と事前応答ガバナンスを備えた決定論的AIランタイムアーキテクチャ

2026-07-22 13:00 UTC+9

Phionyxは、Echoism対話フレームワークに由来する決定論的AIランタイムアーキテクチャであり、LLMの出力をノイズのあるセンサー測定値として扱うガバナンス優先のアプローチを採用しています。構造化状態ベクトルを介して決定論的な状態進化を強制し、決定論的評価カーネル、統一安全レイヤー、セマンティック時間ベースのメモリシステムの3層を統合します。実験では、事後フィルタリングと比較して計算オーバーヘッドが約31%削減され、LRUと比較して高価値データ保持率が最大24%向上し、100回の実行で決定論的な動作が確認されました。

ガバナンス優先アプローチにより、LLM出力をノイズのあるセンサー測定値として扱い、監査可能性と再現性を確保。
3層アーキテクチャ：決定論的評価カーネル、統一安全レイヤー、セマンティック時間ベースメモリ。

SAAG：構造化エージェント評価とグラウンディング

2026-07-22 13:00 UTC+9

SAAGは、エージェント呼び出し評価を登録準拠、構造的完全性、引数グラウンディングの3つの解釈可能な段階に分解するカスケード診断フレームワークを提案し、段階固有の信号による反復的自己修復を可能にし、引数精度を向上させ幻覚を低減する。

SAAGはエージェント呼び出し評価を登録準拠、構造的完全性、引数グラウンディングの3つの解釈可能な段階に分解する。
各段階は特定の診断情報を提供し、真値を漏洩させずに反復的な自己修復を可能にする。

エージェントの障害経路から定量化された残留リスクへ：レジリエントなエージェンティックAIのための構成可能なフレームワーク

2026-07-22 13:00 UTC+9

既存のアプローチは、障害メカニズムを記述するが転移可能なリスク推定を提供しないか、障害経路をブラックボックスとして扱いながらリスク推定を生成する。本稿では、CPSAINT（7層の完全性分解）とFRIESA-K（各障害経路を定量化されたリスクインスタンスにマッピングする残留リスク関数）を組み合わせ、レジリエントなエージェンティックAIのためのメカニズムから規模へのパイプラインを提供する。

CPSAINTは、物理状態、センサー、データ、計算、アクチュエーター、環境、時間の7層でエージェントの完全性を分解する。
FRIESA-Kは、制御された吸収マルコフモデルを用いて抵抗力項Kを状態ダイナミクスから導出する。

証拠連鎖評価による校正された選択的事実確認

2026-07-22 13:00 UTC+9

大規模言語モデルは、証拠が弱い場合でも自信を持って誤った結論を出す可能性がある。証拠連鎖評価（ECE）フレームワークは、不確実な判定による棄権を可能にし、信頼性を向上させる。ECE-Benchでは、ECEは回答された主張に対して97.8%の選択的正確率を達成し、95例中6例のみを棄権し、そのほとんどが低信頼性の設定に集中している。

ECEは、証拠が不十分な場合に棄権を可能にする選択的事実確認フレームワークです。
ECE-Benchでは、回答された主張に対して97.8%の選択的正確率、93.7%のカバレッジを達成。

Apollo が Deep Agents と LangSmith を活用してGTM AIを構築する方法

2026-07-22 03:27 UTC+9

Apollo は Deep Agents と LangSmith を使用して、見込み客の発掘、エンリッチメント、アウトリーチ、分析、MCP統合を処理するAIアシスタントを強化しています。

Apollo はAIアシスタントをスーパーバイザー型アーキテクチャからDeep Agents ベースのスキルライブラリ型に再構築し、柔軟性と効率を向上させました。
新しいアーキテクチャにより開発サイクルが約80-85%短縮され、ユーザーへの確認プロンプトが大幅に減少しました。

NVIDIA srt-slurm、SLURMレシピ、パラメータスイープ、パレート分析を用いた分散LLMサービングベンチマークの検証

2026-07-22 01:29 UTC+9

このチュートリアルでは、NVIDIAのsrt-slurmフレームワークを探求し、srtctlを使って宣言型YAML設定を再現可能なSLURMベンチマークワークフローに変換する方法を学びます。Google Colabでプロジェクトをセットアップし、内部アーキテクチャを調べ、クラスタ設定を定義し、組み込みおよびカスタムレシピをドライラン実行し、DeepSeek-R1用の分離型プリフィル・デコードデプロイメントをモデル化します。また、パラメータスイープを生成し、型付きPython APIと対話し、拡張設定を検証し、スループット対レイテンシのパレートフロンティアを通じてシミュレートされたベンチマーク結果を分析します。

srtctlはYAML設定をSLURMベンチマークワークフローに変換
分離型プリフィル・デコードデプロイメントをサポート

LangSmithで音声エージェントをトレース

2026-07-22 01:00 UTC+9

LangSmithは、Pipecat、LiveKit、OpenAI Realtime、Gemini Liveで構築された音声エージェントのトレースをサポートします。音声、STTおよびTTSのレイテンシ、割り込み、ツール呼び出しなどを1つのトレースにキャプチャします。

LangSmithが4つの主要な音声エージェントフレームワークをトレースするPython統合を発表。
音声エージェントには、音声録音、レイテンシ分析、割り込み検出を含む可観測性が必要。

記憶からスキルへ：エビデンスに基づく長期LLMエージェントの共進化ガバナンス

2026-07-21 13:00 UTC+9

既存の長期LLMエージェントのメモリシステムは、過去のトレースを受動的なコンテキストとして取得するだけで、実行可能な能力に変換していません。本論文では、トレーニング不要のメモリ・スキル共進化フレームワークMSCEを提案し、エージェントの経験をグラウンディングされたステップトレース、再利用可能な手続きポリシー、宣言的環境認知に整理します。MSCEは証拠に基づくL2ポリシーを呼び出し可能なスキルに結晶化し、反射加重値バックフィリングを導入します。実験では、MSCEが最先端の手法を大幅に上回ります。

MSCEはエージェントの経験をステップトレース、手続きポリシー、宣言的認知に整理する。
反射加重値バックフィリングにより、疎な終端フィードバックを密な自己反射に伝播させる。

RouteCost：生産に着想を得たマルチステージフレームワークによるEコマースの注文前送料見積もり

2026-07-21 13:00 UTC+9

Eコマースにおける注文前の送料見積もりの正確さは、価格表示、マージン計画、コンバージョンに影響を与えるため重要です。RouteCostは、時間を考慮した需要予測、料金カードに基づくベースライン価格設定、残差補正、プロキシベースのボックス統合推論に問題を分解するマルチステージフレームワークを提案し、25万以上の注文、260の製品、18ヶ月のデータで予測品質とキャリブレーションを向上させつつ、ルートレベルの解釈可能性を維持します。

注文前の送料見積もりは距離、目的地の需要構成、請求重量、体積料金、追加料金トリガー、出荷統合などの影響を受ける
RouteCostは問題を4段階に分解：時間考慮型需要予測、料金カードベースライン価格設定、残差補正、プロキシベースのボックス統合推論

マスク拡散言語モデルは強力で制御可能なテキストベースの世界モデル：エージェント強化学習に向けて

2026-07-21 13:00 UTC+9

強化学習の発展に伴い、多様な訓練環境が必要とされている。世界モデルは環境をシミュレートできるが、自己回帰モデルには左から右へのバイアスがある。マスク拡散言語モデル（MDLM）は双方向のアンカー認識ノイズ除去によりこれを克服し、4倍のパラメータサイズのLLMよりも高いコヒーレンスと多様性を達成。GRPO訓練フレームワークを導入し、ゼロショット転移で最大47%の絶対的な性能向上を示した。研究はオープンソースとして公開されている。

MDLMはテキストベース世界モデルにおいて、自己回帰LLMよりもコヒーレンスと多様性で優れる。
双方向アンカー認識ノイズ除去により、グローバルな状態アンカーへの条件付けが可能。

AIエージェントシステムのための決定論的リプレイフレームワーク

2026-07-21 13:00 UTC+9

大規模言語モデルと外部ツールを組み合わせたAIエージェントシステムは本質的に非決定論的です。arXiv論文はagreplフレームワークを提案し、MITMプロキシで外部インタラクションを記録し、分離環境で再生することで、完全な再現忠実度（F=1.0）と98.3%のレイテンシ削減を実現します。

LLMサンプリング分散や外部API状態によりAIエージェント実行は非決定論的。
agreplはMITMプロキシで全外部通信を傍受し、構造化トレースとして保存・再生。

Agent フレームワーク

関連トピック

Agent フレームワークの最新ニュース

業界リーダーが集結、AIの安全性とセキュリティのためのオープンセキュアAIアライアンスを発足

深層強化学習による動的粘性環境での蛇型ロボットの適応的波状移動

SCALE：先進ノードにおけるローカルP&R DRV修正のための自己教師あり制約認識レイアウト生成

非定常強化学習における安全制約としての適応速度

DROS-VEP – AIエージェント向けの1μs未満のC-ABIバイナリサーキットブレーカー

FAIRChem v2 UMA：分子、触媒、材料、振動、分子動力学にわたるマルチドメイン原子シミュレーションのための統一フレームワーク

データサイエンスケーススタディ面接を攻略する

AIエージェントフレームワークを破壊的／重大なアクションについてスキャンした結果、驚くべき発見があった

インテリジェンスを自社のものにする：持続可能なAI優位性の鍵

OpenSpaceを使用した自己進化型AIエージェントの構築：スキル、MCP、系統、低コスト再利用

Shackle：AIエージェントの実行前ALLOW/DENY/HITLゲート（オープンソース）

GraphEvalによる言語モデルの幻覚評価

AI生成のプルリクエストは複数のPRにわたって悪意を隠せる

CBFベース強化学習による安全でスケーラブルなマルチドローン搬送：ゼロショットSim-to-Real転送

証拠を考慮した材料文献分析のためのスキル契約エージェント

皮膚免疫関連有害事象の同定のためのヒューマン・イン・ザ・ループ大規模言語モデルフレームワーク

大規模言語モデルのパーソナライゼーション能力のベンチマーキング

InferenceBench：AIエージェントによるオープンエンドなLLM推論最適化のためのベンチマーク

Kalytera – AIエージェントの失敗理由を伝える、単なる失敗通知ではない

2026年7月：LangChain ニュースレター — NemoClaw ブループリント、OpenWiki Brains など

ディープエージェントのベンチマーク方法

AIエージェントの評価：StrandsとAgentCoreを用いたプロダクションブループリント

Nvidia、物理AIで医療ロボットのデータ問題解決に挑む

Show HN: Ego lite – 人間とAIエージェントが並行して作業できるChromiumブラウザ

小型無人航空機システム向けリモートIDスプーフィング対応軌道計画

Crowd4D：シーン認識型単眼4D群衆再構築

OpenEvoShield：オープンワールドのマルチエージェントシステム攻撃に対する二重非定常継続的防御

AIは本当にデータパイプラインを構築できるのか？Apache SeaTunnel AI CLIを用いた7つの主要LLMの100タスクベンチマーク

DamNesia – 16次元状態空間AIキャラクターフレームワーク（.NET 10、0-GC）

Show HN: AgentNest — AIエージェントのためのセルフホステッドサンドボックス

Plow Macアプリ：MacでGPT-5.6エージェントを安全に実行

評価エンジニアリングスキル：リポジトリコンテキストとトレースから評価を構築する

NVIDIA、GPUアクセラレーション対応の医用物理シミュレーションフレームワークを初めてオープンソース化

LangGraphを使ったグラフエンジニアリング：3年間の経験

人間中心の変革とイノベーション：メカニスティック解釈可能性がAI信頼の基盤に

ITNTNにおけるマルチUAV知的航法：階層的LLMアプローチ

四足歩行ロコモーションのためのトルク駆動強化学習

プロシージャル合成データによるトマト表現型解析のためのテキスト条件付きセグメンテーション

MILP-Evo：混合整数線形計画法ソルバーの閉ループ完全自動設計

Phionyx: 構造化状態管理と事前応答ガバナンスを備えた決定論的AIランタイムアーキテクチャ

SAAG：構造化エージェント評価とグラウンディング

エージェントの障害経路から定量化された残留リスクへ：レジリエントなエージェンティックAIのための構成可能なフレームワーク

証拠連鎖評価による校正された選択的事実確認

Apollo が Deep Agents と LangSmith を活用してGTM AIを構築する方法

NVIDIA srt-slurm、SLURMレシピ、パラメータスイープ、パレート分析を用いた分散LLMサービングベンチマークの検証

LangSmithで音声エージェントをトレース

記憶からスキルへ：エビデンスに基づく長期LLMエージェントの共進化ガバナンス

RouteCost：生産に着想を得たマルチステージフレームワークによるEコマースの注文前送料見積もり

マスク拡散言語モデルは強力で制御可能なテキストベースの世界モデル：エージェント強化学習に向けて

AIエージェントシステムのための決定論的リプレイフレームワーク

その他の成長タグ

AI コーディング

MCP

オープンソースモデル

推論コスト

中国 AI

GPU インフラ

モデル価格

DeepSeek

Qwen