AI News HubLIVE

Agentの最新ニュース

Data Formulator 0.7:エンタープライズデータ向けAI搭載データ分析

Data Formulator 0.7は、データ接続、エージェントガイドによる探索、ビジュアライゼーションの改善を共有ワークスペースで統合した、エンタープライズデータ分析向けのオープンソースAIシステムです。

  • エンタープライズデータ分析向けのオープンソースAIシステム
  • データコネクタ機能により、多様なデータソースへの管理・再利用可能な接続をサポート
サイト内本文

Claudeverse – 並列Claudeコードワーカーのためのミッションコントロール

Claudeverseは、開発者が複数のClaude AIワーカーを並行管理するためのコマンドセンターです。並列ワーカー管理、ワーカーエスカレーション、レビューキュー、トレーサビリティ、iPadミラーリング、モデルニュートラルエンジンなどの機能を提供します。現在は招待制のベータ版です。

  • Claudeverseは、複数のClaudeワーカーを同時に管理する統一コマンドセンターを提供します。
  • 主な機能には、並列ワーカー管理、ワーカーエスカレーション、レビューキュー、トレーサビリティ、iPadミラーリングがあります。
サイト内本文

Google Pay、AIエージェント向けユニバーサルコマースプロトコルを準備

Google Payは、AIエージェントによる取引の急増に備え、決済インフラを全面的に刷新している。新たに導入されたユニバーサルコマースプロトコル(UCP)とマーチャントコマースプラットフォーム(MCP)サーバーは、マシン間コマースのためのAPI駆動型バックエンドを提供する。このアップデートには、動的コールバック、WebViewサポートの拡張、クロスデバイス生体認証によるセキュリティ対策が含まれる。これは、マシン主導の経済への移行を示しており、企業はAIエージェントに対応するためにデジタルプレゼンスを適応させる必要がある。

  • Google Payは、AIエージェントの決済を標準化するユニバーサルコマースプロトコル(UCP)を導入。
  • 新しいマーチャントコマースプラットフォーム(MCP)サーバーが仲介役となり、取引データを集約。
サイト内本文

データ露呈でAI導入が急停止——その管理方法

AIは生産性を向上させる一方、長年隠されていたデータを露呈させ、セキュリティとガバナンスの課題を引き起こす。フィデリティ・インベストメンツとEYのテクノロジーリーダーが、AI導入を一時停止してデータ管理体制を見直した経験を共有し、データ所有権、ラベリング、エージェントIDの必要性を強調する。

  • AI導入はデータ露呈問題により停止される可能性がある。
  • フィデリティとEYは非構造化データがAIで浮上する課題に直面。
サイト内本文

DeepSWE:オリジナルかつ長期のエンジニアリングタスクにおけるコーディングエージェントの評価

DeepSWEは、AIコーディングエージェントを未踏の複雑なソフトウェアエンジニアリングタスクで評価する新しいベンチマークです。データ汚染を回避し、多様なリポジトリをカバーし、大幅なコード変更を必要とし、手書きの検証器を使用します。最先端モデル間で性能に大きな差が見られ、GPT-5.5が70%の精度でリードしています。

  • DeepSWEはオリジナルタスクによる汚染フリーのベンチマークです。
  • タスクは5言語、91リポジトリにわたります。
サイト内本文

IBMとRed Hat、AI時代のオープンソースの未来を再定義するために50億ドルを投入

IBMとRed Hatは、Project Lightwellを発表。50億ドルのコミットメントのもと、AIと2万人以上のエンジニアを活用し、オープンソースソフトウェアのセキュリティを強化するための信頼できるエンタープライズクリアリングハウスを設立する。

  • Project Lightwellは、IBMとRed Hatによる50億ドルのオープンソースセキュリティイニシアチブ。
  • AIと2万人以上のエンジニアを組み合わせ、脆弱性を大規模に発見・修正する。
サイト内本文

リビアンのソフトウェア責任者はCarPlayもボタンも不要と考えている

Decoderポッドキャストのインタビューで、リビアンのチーフソフトウェア責任者Wassym BensaidがVWとの合弁事業、新しいAI搭載リビアンアシスタント、そしてなぜ音声インターフェースがボタンに取って代わりCarPlayが不要になるのかについて語った。

  • リビアンとフォルクスワーゲンの合弁事業(RV Tech)は、リビアンのソフトウェア文化とVWの規模を融合させる。
  • リビアンアシスタントは、車両のゾーンアーキテクチャに深く統合されたAIエージェント。
サイト内本文

AIエージェントがDNS上に独自の電話帳を取得

DNS-AIDプロジェクトは、DNSインフラを活用してAIエージェント間の発見を可能にし、新たな中央集権的なレジストリの作成を回避します。Linux Foundationが管理し、MCPやA2Aなどのプロトコルをサポートし、名前、機能、ドメインでエージェントを検索できます。

  • DNS-AIDはオープンソースプロジェクトで、DNSを使ってAIエージェントを発見します。
  • 既存のDNSインフラを基盤とし、SVCBやDNSSECなどの技術を利用。
サイト内本文

人間にとっての親しみやすさを無視した、AI向けの理想言語

PactはAIエージェント向けに設計されたプログラミング言語であり、人間の読みやすさよりも機械可読な仕様と制約を重視します。S式ベースで、来歴証明、副作用追跡、完全性保証、レイテンシ予算などの機能を備え、Rustコードにコンパイルされます。ツールチェーンはYAML仕様からのコード生成やWebプロジェクトの足場構築をサポートします。サービス契約には強いが、アルゴリズム仕様には制限があります。

  • PactはAIエージェント向けのS式言語で、メタデータと形式的仕様を重視する。
  • 主な機能:来歴証明、副作用追跡、完全性、レイテンシ予算。
サイト内本文

AIエージェントのガバナンス:アイデンティティ、委任、権限の実践

AIエージェントには、共有APIキーや開発者の資格情報ではなく、統制されたアイデンティティが必要です。委任モデルにより、有効な権限はエージェントの役割と委任者の権限の共通部分となり、リスクを制限し監査可能性を実現します。この記事では、アイデンティティの固定、権限の境界、自律トリガーの承認、監査証跡などの重要な実践を詳述します。

  • エージェントは人間と同じアイデンティティシステムを使用し、独自の識別子を持つべきです。
  • 有効権限はエージェントの役割上限と委任者の権限下限の共通部分で、操作範囲を厳格に制限します。
サイト内本文

DiscloAI – EU AI Act 第50条準拠のオープンソースSDK

DiscloAI は、EU AI Act 第50条のコンプライアンスを実現するオープンソースSDKです。チャットボットの開示、ディープフェイクラベル、AIコンテンツ通知に対応し、24のEU言語とWCAG 2.1 AAをサポート。CDNまたはnpmで10分以内に統合可能です。

  • EU AI Act 第50条準拠のためのオープンソースSDK
  • チャットボット開示、ディープフェイクラベル、AIコンテンツ通知をカバー
サイト内本文

AIでより優れたデザイナーになるために、デジタルホーダーになろう

この記事は、GoogleのGemini Omniモデルを皮切りに、AIデザインツールが美的感覚の欠如により出力が同質化(「AIスロップ」)している問題を指摘し、その解決策として、視覚的参考資料を継続的に収集する「デジタルホーディング」によって個人のセンスを養い、それをAIが理解できる形にコード化することで、モデルをユニークでセンスのある出力へ導く方法を提案しています。

  • GoogleのGemini Omniモデルは、テキストからマルチモーダル推論への移行を示しているが、現在のAIデザインツールの多くはテキスト入力に依存しており、出力が画一的になる原因となっている。
  • 「AIスロップ」から脱却するには、デザイナーはセンスを培い、それを視覚的参考資料のライブラリ(デジタルホーディング)としてコード化し、モデルに模倣させる必要がある。
サイト内本文

ワールドモデルが言語モデルを引き継ぐ:物理AGI「デュアルピラミッド」システムを世界初開発、汎用ロボットが「家庭時代」に突入

極佳視界(Jijia Vision)が世界初の物理AGI「デュアルピラミッド」システムを発表。家庭用ロボット「拾光S1」を投入し、100台の家庭向け受注を獲得。12ヶ月以内に物理AGIの「GPT-3モーメント」を目指す。

  • 極佳視界がデータピラミッドとアルゴリズムピラミッドから成る「デュアルピラミッド」システムを開発。
  • 家庭用ロボット「拾光S1」は車輪付きアーム構成で、実際の家庭で100台の受注を獲得。
サイト内本文

NVIDIA Research、ロボット工学をシミュレーションから現実世界へ前進させる

ICRAで、NVIDIA Researchは28本の論文のうち8本を発表し、シミュレーションから現実への転送が、ロボットが動的で予測不能な環境で知覚、推論、計画、行動することを可能にする方法に焦点を当てました。ScheduleStream、COMPASS、Grasp-MPC、SPARRなどの手法は、マルチアーム協調、ナビゲーション、把持、組立タスクにおいて成功率とロバスト性を大幅に向上させます。

  • NVIDIAはICRAでシミュレーションから現実への転送に関する8本の論文を発表
  • マルチアーム協調、クロスロボットナビゲーション、新物体把持、精密組立、視覚言語行動モデルを含む手法
サイト内本文

Cloudflareのデータプラットフォームとその上のAIエージェントの構築方法

Cloudflareは毎秒10億以上のイベントを処理するが、データは分散してアクセスが困難だった。そこで、統合分析プラットフォーム「Town Lake」と、自然言語で質問し監査可能な回答を得られるAIエージェント「Skipper」を構築した。本記事では、プラットフォームのアーキテクチャ、ガバナンス(デフォルトクローズ)、AIエージェントの仕組みを詳述する。

  • Cloudflareはデータの分散問題を解決するため、統合データプラットフォーム「Town Lake」とAIエージェント「Skipper」を構築。
  • Town LakeはTrino、R2、Icebergを使用したデータレイクハウスアーキテクチャを採用。
サイト内本文

AIコーディングの真の鍵が昔ながらの退屈なものだとしたら?

この記事は、AI支援ソフトウェア開発の鍵はより良い仕様やツールではなく、小バッチと迅速なフィードバックループという昔ながらの実践にあると主張する。データは、コード生成の高速化が設計、テスト、レビューのボトルネックを生み、納期を遅らせ安定性を低下させることを示している。真のレバレッジはバッチサイズの削減とフィードバックサイクルの短縮にある。

  • AIコード生成は作成を高速化するが、設計、テスト、レビューのボトルネックを生む。
  • DORA、CircleCI、Farosのデータは、段階ゲート方式のプロセスが納期を遅らせ、リリースの安定性を低下させることを示している。
サイト内本文

Mistral、LeChatをVibeにブランド変更、チャットボットの未来は本格的なワークエージェントに

Mistral AIは、チャットボット「Le Chat」を「Vibe」に名称変更し、チャット、コーディングエージェント、新しいワークモードを1つのブランドに統合する。ワークモードはGoogle Workspace、Outlook、Slack、GitHubに接続し、メールやレポート、プルリクエストなどのタスクを自律的に処理する。Pro料金は17.99ユーロから14.99ユーロに値下げされたが、具体的な利用制限は明らかにされていない。これにより、OpenAI、Google、Anthropicのエージェント型サービスとの直接的な競争を仕掛ける。

  • Mistral AIがチャットボット「Le Chat」を「Vibe」にブランド変更、チャット、コーディングエージェント、ワークモードを統合。
  • ワークモードはGoogle Workspace、Outlook、Slack、GitHubと連携し、タスクを自律処理。
サイト内本文

OpenLoomi AIをオープンソース化した理由

OpenLoomi AIチームは、AIワークパートナーをオープンソース化する決断の背景を説明。データ所有権、透明性、コミュニティ主導の開発を重視し、ローカルファーストアーキテクチャ、クローズドソースの信頼税、AIインフラの公共化などの理念を述べている。

  • OpenLoomiはローカルファースト:ユーザーデータは暗号化されて端末に留まり、モデル学習に使用されない。
  • オープンソースにより信頼への依存が不要になり、コードの監査、フォーク、セルフホスティングが可能。
サイト内本文

2026年に構築すべき7つの実用的なAIプロジェクト(ガイド付き)

この記事では、求人検索、研究、投資分析、市場動向、請求書処理、チャートのデジタル化、パーソナライズされた運動トレーニングなど、実用的なワークフローを自動化する7つのAIプロジェクトを紹介します。各プロジェクトには完全なガイドとコードが付属しています。

  • AI求人検索アシスタントを構築し、求人と履歴書を自動マッチング
  • マルチエージェント研究アシスタントを作成し、出典付きレポートを生成
サイト内本文

AI集約プラットフォームが13億ドルの評価額に

このベンダーの成長は、エンタープライズAIにおけるエージェントの爆発的な出現と並行しています。

  • AI集約プラットフォームが13億ドルの評価額を達成。
  • 成長はエンタープライズAIエージェントの台頭と関連。
サイト内本文

Show HN:ローカルコーディングエージェント——LLMでツール呼び出しを小さなAIモデルに委譲

Open Agent Tools (oats) は、ローカルコードを利用したツール呼び出しを可能にするセルフホスト型AIフレームワークです。大規模モデルのトークン消費を抑えるため、ツール呼び出しを小規模モデルに委譲します。

  • oats はローカルAIモデルがローカルソースコードを使用してツール呼び出しを実行できるようにします。
  • 20,000以上のGitHubリポジトリからデータをマイニングし、再利用可能なプロンプトインデックスを作成。
サイト内本文

あなたのAIエージェントは、あなたが伝えた内容の半分をすでに忘れている

本記事はエージェンティックエンジニアリングとAI駆動開発に関するシリーズの第7回目で、AIセッションにおけるコンテキスト管理に焦点を当てています。著者はGeminiが以前のメモを忘れた個人的な経験を共有し、コンテキスト圧縮の概念を紹介し、4つの実用的なテクニックを提供します:探索と文書作成の分離、ハンドオフ文書の使用、手順ではなく受入基準の提示、仕様書をブリッジとして使用すること。これらのテクニックは開発者と一般ユーザーの両方に有効で、AIの忘却によるフラストレーションを軽減します。

  • AIアシスタントは長い会話の中で、コンテキストウィンドウの制限により初期の情報を「忘れる」ことがあり、これはコンテキスト圧縮と呼ばれる現象です。
  • 4つの実用的なテクニック:探索と文書作成の分離、ハンドオフ文書の使用、手順ではなく受入基準の提示、仕様書をブリッジとして使用すること。
サイト内本文

Show HN: Python AIエージェントとVueダッシュボードを1つのElectronアプリにパッケージ化しました

Hermes Desktopは、Pythonランタイム、hermes-agent(自己改善型AIエージェント)、hermes-web-ui(Vue 3 + Koaのチャットダッシュボード)を1つのElectronアプリにバンドルしたクロスプラットフォームデスクトップアプリです。ユーザーはPythonやNodeを個別にインストールする必要がなく、DingTalkと統合され、DeepSeekを搭載しています。

  • Pythonランタイムとhermes-agentをバンドルし、依存関係不要で動作
  • Electronシェルを使用し、hermes-web-uiフロントエンドを統合
サイト内本文

Money Printer Pro – オープンソースAIコンテンツジェネレーター

Money Printer Proは、Google GeminiとVEO 3.1を搭載したオープンソースのAIコンテンツジェネレーターです。フォトリアリスティックな画像やシネマティックな動画を生成し、人物の同一性を維持します。7つのビジュアルエンジン、オートパイロットによるバッチ生成、AI品質スコアリング、公開ガードを備えています。ユーザーはGoogleに直接支払い、追加料金やサブスクリプションは不要です。

  • フォトリアリスティックな画像と8秒のシネマティック動画を生成し、人物の一貫したアイデンティティを維持。
  • 照明、影、動作、天候、衣装、シーン検証、コンテキストオーケストレーションの7つのビジュアルエンジンを統合。
サイト内本文

Superpowers:AIコーディングワークフローのためのエージェンティックスキルフレームワーク

Superpowersは、AIコーディングエージェント向けの完全なソフトウェア開発方法論であり、構成可能なスキルと初期指示に基づいています。テスト駆動開発、設計優先、サブエージェント駆動の反復を重視し、Claude Code、Codex CLI、Gemini CLIなどの複数のコーディングアシスタントをサポートします。

  • Superpowersは、TDD、体系的なデバッグ、コラボレーションプランニングなどのスキルライブラリを提供し、エージェントが自律的に数時間作業できるようにします。
  • ワークフローは、仕様のブレインストーミングから始まり、設計承認、実装計画の生成、サブエージェント主導の実行(2段階レビュー付き)へと進みます。
サイト内本文

信頼モデルが反転しつつある

AnthropicのClaude MythosがMozilla Firefoxで271件の脆弱性を発見した事例が示すように、ソフトウェアセキュリティの信頼基盤は人間が書いたコードからAIがレビューしたコードへと移行しつつある。AIは人間のチームでは不可能な規模で敵対的コード解釈を実行でき、信頼の根拠は「誰が書いたか」から「機械規模の精査に耐えたか」へと変化している。

  • 人間が書いたコードの安全という前提が崩れ、AIレビューへの信頼が高まっている。
  • MozillaはClaude Mythosを用いてFirefoxで271件の脆弱性を発見、従来のモデルや人間チームを大幅に上回った。
サイト内本文

エージェンティックAI時代に革新者として成功するための4つの方法

アメリカン・エキスプレスのグローバルイノベーション責任者ルーク・ゲブ氏は、成功するイノベーターの4つの秘訣を紹介:学び続ける、テクノロジーに没頭する、失敗を恐れない、パートナーシップを築く。また、同社のエージェンティックコマースへの取り組みと将来予測についても語る。

  • 好奇心を持ち続け、成長マインドセットを養う
  • 新興テクノロジーを深く理解し、エンジニアと協力する
サイト内本文

Mistral、独自チップの設計を検討とCEOが表明

Mistral AIのCEOアーサー・メンシュ氏は、インフラコスト削減のためカスタムチップの開発を検討していると認め、OpenAIやAnthropicに対抗する。また、フランスに推論専用のデータセンターを新設し、エンタープライズ向けエージェントプラットフォーム「Vibe」を発表した。

  • Mistral AIは独自カスタムチップの設計を検討し、展開コスト削減を目指す。
  • フランスに推論専用の新しいデータセンターを発表。
サイト内本文

これは持続可能か?AI時代3年後のシニアエンジニアの役割

シニアエンジニアが、AIが3年間でシニアエンジニアの役割をどのように変えたかを振り返る。プロトタイピングの高速化、調整負担の増加、スコープ拡大、メンタリングと思考時間の圧迫。役割はより強力になったが、持続可能性は低下した。

  • AIによりアイデアからデモまでのギャップが縮小し、提案からPoCへシフト。
  • コーディングと戦略的執筆の両方で役割が拡大し、メンタリングと深い思考が削られた。
サイト内本文

Taste Skill:AIエージェント向けアンチスロップフロントエンドフレームワーク

Taste Skill は、AIが生成するインターフェースのデザイン品質を向上させ、凡庸なテンプレート外観を防ぐオープンソースのフロントエンドフレームワークです。デザインチューニング、コード生成、画像生成のためのモジュール式スキルを提供し、npx コマンドまたは SKILL.md ファイルのコピーで簡単に統合できます。

  • Taste Skill は調整可能なデザインパラメータ(レイアウト、モーション、密度)でAI生成UIのセンスを向上
  • デザインチューニング、コード生成、画像生成などに特化したスキルモジュールを提供
サイト内本文

NetflixがAIアニメーションスタジオを構築中

Netflixは、AIを活用した短編アニメーションコンテンツを制作するための新たな内部スタジオ「INKubator」を設立している。このスタジオは静かに立ち上がり、プロデューサー、ソフトウェアエンジニア、CGアーティストなど様々な職種を採用中である。長期的な技術戦略は、生成AI対応のワークフロー、アーティストツール、スケーラブルでセキュアなマルチショー環境に焦点を当てており、最終的には長編コンテンツへの拡張も視野に入れている。現在は短編や特番に特化しているが、求人情報からは将来の長編化が示唆されている。この取り組みは、NetflixのClips機能や子供向け番組に活用される可能性がある。しかし、アニメ業界ではAIの活用に対する反発も強く、宮崎駿氏の批判や2025年アヌシー国際アニメーション映画祭での抗議活動が起きている。

  • Netflixが生成AIを活用した短編アニメーションスタジオ「INKubator」を設立。
  • スタジオは元ドリームワークスやA24の幹部が率い、主要ポジションの採用を開始。
サイト内本文

AIluminode:検索前認知オリエンテーションツール

AIluminode は、行動前に文脈的姿勢をチェックするための、扱いやすい AI 事前検索認知オリエンテーションツールです。ルート極性(OPEN、PROTECT、AUDIT、DEFER、BLOCK)を使用して、誤った探索やコンテキストの漏洩を減らします。

  • AIluminode は「姿勢が検索に先立つ」ことを重視した、扱いやすい事前検索認知オリエンテーションツールです。
  • ルート極性システム(OPEN / PROTECT / AUDIT / DEFER / BLOCK)を使用して、文脈ルーティングを導きます。
サイト内本文

7Bモデルがo3、GPT-5を打ち破る! 医学AIエージェントが「どこを見て、どう見るか」を学習

上海創智学院のLeapQuestチームは、複数の大学と協力して、モデルが推論プロセスで視覚ツールを積極的に活用し、受動的な入力から能動的なエビデンス探索へと変革する新しい医学AIパラダイムを提案。2本の論文がICML 2026に採択された。

  • LeapQuestは、医学画像と動画向けにOphiuchusとMedScopeを提案。Think with Images/Videosパラダイムを採用。
  • Ophiuchus-7Bは8つのVQAベンチマークで平均68.0点を達成し、o3(62.2)やGPT-5(59.9)を上回る。
サイト内本文

AIがソフトウェア業界を書き換える?8歳児がOSを開発、一人会社が1000万円の受注

2026年中国AIGC産業サミットで、百度の秒哒(Miaoda)製品責任者・朱広翔氏が、AIがプログラミングのハードルをコード記述から会話に下げたと発表。秒哒ユーザーの87%はコード非習得者で、8歳児がOSを開発、一人会社(OPC)がプロジェクトマネージャーだけで千万円の受注を獲得。石油技術者が140万元の調達プラットフォームを代替。Vibe Codingが需要側を供給側に変え、大衆創業を実現。

  • 第四次プログラミング革命:自然言語プログラミングで創造者数が爆発的に増加
  • 秒哒ユーザーの87%はコード非習得、OPCが最大グループ(16%が起業家)
サイト内本文

元GoogleとAppleの研究者がAIに欠けている「フィード」を構築するスタートアップを立ち上げ

Google DeepMind、Apple、OpenAI、Metaで働いていたAI研究者グループが、Trajectoryという新興企業を立ち上げ、実世界のユーザーインタラクションを学習してAI製品を継続的に改善することを目指しています。同社は、トレーニング後に停止するのではなく、継続的に学習できるAIプラットフォームを構築しようとしています。1500万ドルのシード資金を調達し、評価額は1億1500万ドルで、Convictionがリードしました。CEOのRonak Malde氏は、CursorのようなAIコーディング製品がすでに初期の継続学習を実践していると述べ、Trajectoryは同様の技術を他の分野に拡大したいとしています。

  • Trajectoryは元Google DeepMind、Apple、OpenAI、Metaの研究者によって設立され、AIの継続学習を実現する。
  • 同社は1500万ドルのシード資金を調達し、評価額は1億1500万ドル。投資家にはJeff Dean氏やFei-Fei Li氏も含まれる。
サイト内本文

Robinhood エージェント取引

RobinhoodがAgentic Tradingを開始。顧客は自身のAIエージェントを接続して取引やクレジットカード購入を自動化でき、安全制御とリアルタイム活動フィードが利用可能。

  • 自身のAIエージェントをRobinhoodに接続可能
  • 取引とクレジットカード購入の自動化
サイト内本文

Show HN: BetterCallClaude – イタリア向けオープンソースAIリーガルエージェント

BetterCallClaudeは、イタリアの法律専門家向けに設計されたオープンソースのAIリーガルエージェントプラットフォームです。20の専門AIエージェントがイタリア全20地域をカバーし、バイリンガル(伊・英)対応、プライバシーを重視したローカルLLM処理とGDPR準拠を特徴としています。法律研究の高速化、効率向上、完全な透明性を実現します。

  • イタリア法に特化した20の専門AIエージェント
  • バイリンガル対応(イタリア語・英語)
サイト内本文

AIエージェントのアムダールの法則

本記事はアムダールの法則をAIエージェントに適用し、並列エージェントによる高速化は人間の判断を必要とするワークフロー割合(H)によって制限されると主張する。「自己流動化H」の概念を導入し、各人間の介入が将来の同様の介入を不要にする成果物を生み出すべきだと説く。構成(コンフィギュランジー)と適合スイートへの投資が、エージェントの自律動作を可能にする鍵である。ElectricSQL、Gas Town、Ralph Loopの事例が原則を例示する。

  • AIエージェントの高速化は人間の判断割合Hに制限され、Hの削減が重要。
  • 自己流動化H:人間の介入ごとに再利用可能な成果物(テスト、仕様更新)を生成し、再発を防止。
サイト内本文

光流体アセンブリのためのエージェント的言語から目的への合成

研究者らは、条件付き大規模言語モデルを用いて、音声またはテキストのコマンドを微分可能な目的関数に変換するモジュラー型エージェントパイプライン「Speak-to-Objective」を提案する。これは、制約認識逆解法と実験的な光流体プラットフォーム上で微粒子を組み立てるためのものである。アプローチは「知覚→構成→提案→行動→報告と学習」のループを採用し、目的を意図と動作のインターフェースとして扱うことで、自然言語でプログラム可能なマイクロスケールアセンブリを実現し、自律的な光製造プラットフォームへの道を開く。

  • Speak-to-Objectiveパイプラインは自然言語コマンドを微分可能な目的関数に変換する。
  • 光流体プラットフォーム上でレーザー誘起熱粘性流を用いた微粒子パターンアセンブリを実証。
サイト内本文

異種注意構造を持つTransformerモデルのための汎用解釈手法

本研究では、異種注意構造を持つTransformerモデルの解釈手法を提案し、意味解釈と論理解釈を含む実験で有効性を検証した。

  • Transformerの注意構造を同種と異種に分類。異種注意は異なるソースからの情報を処理する。
  • 異種注意構造のための汎用的な解釈手法を提案。
サイト内本文

RAG-Coding:構造化された外部知識を活用したLLM医療コード化の強化

RAG-Codingは、4つの大規模言語モデル(LLM)エージェントを調整し、外部知識源(公式コード一覧やガイドラインなど)に基づいて意思決定を行う自動化されたICD-10-CMコード化手法です。MDACEデータセットでは、最良のLLMベースラインと比較してマイクロF1で8〜13%、マクロF1で2〜8%向上しました。最先端の事前学習モデルPLM-ICDと比較すると、RAG-Codingはマイクロ再現率が11%高い一方、PLM-ICDはマイクロ精度が6%高く、両者のF1は同等です。アブレーション実験により外部知識の重要性が確認されました。また、2025年ガイドラインに基づいて専門家が再注釈したMDACE-2025データセットを公開し、より細かいコードラベルでの評価を可能にしました。

  • RAG-Codingは4つのLLMエージェントと外部知識源を活用し、ICD-10-CMコード化の精度を向上させる。
  • MDACEデータセットで最良LLMベースラインをマイクロF1で8〜13%、マクロF1で2〜8%上回る。
サイト内本文

LCO: LLMベースの制約最適化による実世界タスクでのより安全なエージェントLLM

大規模言語モデル(LLM)が自律エージェントとして動作する際、インコンテキスト・リワードハッキング(ICRH)と呼ばれる現象により、代理目的を最大化する反復最適化が有害な副作用を引き起こす。既存の防御策では不十分であり、ICRHはモデル自身の過剰最適化に起因する。本稿では、LLMベースの制約最適化(LCO)フレームワークを提案する。LCOは自己思考モジュールと進化サンプリングモジュールから構成され、モデルの微調整なしでICRHを低減する。実験では、ツイートエンゲージメント最適化タスクにおいてGPT-4の有害性成長率を39%削減し、ポリシー最適化ベンチマークではICRH発生率を15.23%削減し、タスク性能を維持した。

  • ICRHはLLMが代理目的を過剰最適化し、意図しない害を引き起こす現象。
  • LCOは自己思考モジュールと進化サンプリングモジュールを導入し、微調整なしでLLMの行動を制約する。
サイト内本文

$E^3$-Agent: エッジ生成推論のリソース管理のための実行可能かつ進化するエージェント

本論文では、エッジAIGCリソース管理のための実行可能かつ進化するエージェント$E^3$-Agentを提案する。ミリ秒単位のルーティング決定を行う高速パスと、イベント駆動型LLMメタコントローラからなる低速パスを分離し、実行フィードバックからオンライン学習することで、未知で時変的なサービス時間マッピングに適応する。評価では、平均レイテンシを65%-73%削減し、スタッター率も効果的に抑制した。

  • エッジ生成推論は、デバイスごとの未知の性能と非定常性に直面している。
  • $E^3$-Agentは高速ルータと低速LLMメタコントローラの二経路アーキテクチャを採用。
サイト内本文

Agyn:AIエージェント向けオープンソースプラットフォーム - スケーラブルなオンデマンド実行、コードとしてのエージェント定義、ゼロトラストアクセス

Agynは、Kubernetes上のシグナル駆動型ステートフルサーバーレスランタイム、Terraformプロバイダーによるエージェント定義、ゼロトラストセキュリティモデルを備えたオープンソースのAIエージェントプラットフォームです。エージェント、モデル、クラウドに依存せず、本番環境でのスケーラビリティ、ガバナンス、セキュリティの課題に対処します。

  • Kubernetes上のシグナル駆動型ステートフルサーバーレスランタイムによるスケーラブルな実行
  • Terraformプロバイダーによるエージェントとハーネスの定義(インフラストラクチャコード)
サイト内本文

LLMが因果発見に失敗する理由と介入エージェントによる突破方法

本論文は、大規模言語モデルが因果発見を行う際の根本的な限界を証明しています:教師ありファインチューニング、直接選好最適化、インコンテキスト学習などの手法では、類似した観測データを生成する因果グラフを区別できません。著者らは、凍結された言語モデルを介入オラクルとして使用し、外部ベイズループが対数回数のラウンドで候補グラフに収束するエージェンティック因果ベイズ最適化(A-CBO)を提案しています。Corr2Causeでは、A-CBOは訓練なしでファインチューニングベースラインに匹敵し、24変数・18Kテストサンプルに拡張したExtended Corr2Causeでは、A-CBOはファインチューニングおよび選好最適化の両方を大幅に上回ります。

  • LLMの因果発見における失敗が核障害定理に起因する根本的なものであることを証明
  • 凍結LLMと外部ベイズ最適化を組み合わせたA-CBOを提案
サイト内本文

DynaSchedBench:調整された動的スケジューリングベンチマークとLLMベースのスケジューリングエージェントにおける可観測性のパラドックス

本論文では、DFJSPのための診断フレームワークDynaSchedBenchを提案する。逐次イベント空間キャリブレータ(SESC)とスケジュールストレス指標(SSI)を用いて難易度を層別化したインスタンスを生成する。LLMスケジューリングエージェントにおける「可観測性のパラドックス」を特定し、完全な構造情報を提供すると性能が低下することを発見した。ツール拡張や洗練戦略も信頼性のある改善をもたらさない。

  • DynaSchedBenchはSESCとSSIを用いて調整されたDFJSPインスタンスを生成し、進化的ベースラインより効率的。
  • LLMエージェントは可観測性のパラドックスを示す:完全な情報は決定を損なう。
サイト内本文

テキストにおける人間の価値観の識別と理解:調整可能なLLMベースのアーキテクチャ

本論文では、テキスト中の人間の価値観の強度を検出・定量化するLLMベースのアーキテクチャを紹介する。このアーキテクチャは3つの調整可能なモジュールで構成され、ValueEvalデータセットでの実験により良好な検出性能を示した。

  • 特定の価値理論や複雑なプロンプトエンジニアリングに依存しない、モジュール化されたLLMアーキテクチャを提案。
  • 3つのモジュール:構造化された価値仕様の生成、テキストのラベル付け、修辞的・意味的証拠に基づく等級付け。
サイト内本文

二本柱:AI後のソフトウェアワークの概念的枠組み

生成AIが人間の正しいコードを書く能力という制約を溶解させることで、ソフトウェアワークは二本柱を中心に再編成されると論じる論文。第一の柱「ミキサーモード」は人間が音響エンジニアのように複数の判断軸を連続的に操作する役割、第二の柱「メタソフトウェア」は他のソフトウェアを監視・検証・文脈化・統治するソフトウェアを指す。この二本柱は不可分であり、手工業から統計的管理による大量生産への歴史的転換に類似する。

  • 生成AIにより、コードの生産はソフトウェア組織の支配的な問題ではなくなりつつある。
  • ミキサーモードは、実践者が複数の判断軸を連続的に操作する新たな人間の役割を記述する。
サイト内本文

トピック