AI News HubLIVE

ソース分布

  • LangChain Blog15
  • Hacker News AI5
  • AWS Machine Learning Blog3
  • MarkTechPost2
  • Analytics Vidhya1
  • arXiv AI1
  • Hugging Face Blog1
  • Latent Space1

トピック分布

  • Agent28
  • モデル11
  • ツール10
  • 研究9
  • 政策8
  • チップ4
  • スタートアップ1

タイムライン

  • 2026-04-305
  • 2026-05-134
  • 2026-05-143
  • 2026-05-062
  • 2026-05-092
  • 2026-05-152
  • 2026-05-262
  • 2026-05-272

最新動向

Lyft が LangGraph と LangSmith でセルフサービスの AI エージェントプラットフォームを構築した方法

Lyft は LangGraph と LangSmith を活用して、カスタマーサポート向けのセルフサービス型 AI エージェントプラットフォームを構築し、エージェント開発期間を数ヶ月から数週間に短縮しました。ルーターベースのマルチエージェントアーキテクチャと LangSmith のトレーシング・監視ツールにより、非技術系ドメイン専門家が自律的に AI エージェントを開発・改善できるようになりました。

  • Lyft は運用チームやプロダクトマネージャーがプロンプトと設定を通じてエージェントを定義できるようにし、ML エンジニアの関与を減らしました。
  • ルーターベースのマルチエージェントアーキテクチャは LangGraph を使用して専門サブエージェントを調整し、安全チェックと状態管理を実現。
サイト内本文

AIエージェントハーネス:LLMをデジタルワーカーに変える接着剤

AIモデルの生の知能は頭打ちになっており、次の進歩はモデルの周りに構築するものからもたらされます。AIエージェントハーネスは、LLMにツール、メモリ、人間の介入を提供し、有用なデジタルアシスタントに変えます。Google、LangChain、OpenAI、Anthropicなどの企業がさまざまなソリューションを提供しています。

  • AIの知能向上が鈍化し、エージェントハーネスが注目される。
  • エージェントハーネスはLLMにツール、記憶、修正能力を追加する。
サイト内本文

Amazon Bedrock AgentCore を使用して AWS で高度にスケーラブルなサーバーレス LangGraph マルチエージェントシステムを構築する

この記事では、LangGraph エージェントをオーケストレーターとして使用し、Amazon Bedrock AgentCore Memory および Amazon Bedrock AgentCore Observability と統合して、AWS 上で高度にスケーラブルなサーバーレス マルチエージェント生成 AI システムを構築するソリューションを提供します。AWS Lambda や AWS Step Functions などのサーバーレステクノロジーを組み合わせて、自動スケーリング、リアルタイム応答、インフラストラクチャ管理不要の LangGraph エージェントを構築する方法を詳しく説明し、LangGraph のグラフベースの実行モデルがエージェント間の確定的な調整、並列処理、条件付きルーティングをどのように可能にするかについて説明します。さらに、このアーキテクチャに基づくキャンペーンレビューシステムの実装、前提条件、デプロイ手順、クリーンアップ手順についても説明します。

  • LangGraph、Amazon Bedrock AgentCore、サーバーレス AWS サービスを組み合わせて、プロダクション対応のスケーラブルなマルチエージェント AI システムを構築。
  • LangGraph の明示的なグラフベースの実行モデルにより、エージェント間の確定的な調整、並列処理、条件付きルーティングが可能。
サイト内本文

全自国産コアエージェント大規模モデルによる実用量子CIMの実現

本研究では、フェムト秒レーザー励起コヒーレントイジングマシン(CIM)とLLM駆動のエージェントシステムをLangGraphおよびLangChainフレームワークを用いて統合した。LLMはQUBO/Isingモデルのキャリブレーション、制約重みの反復、文献報告スキームの検証を効果的に実行できる。すべてのタスクは国産大規模モデルと国産CIMハードウェアに基づいて実装され、完全に国産のエージェント大規模モデルとハードウェアに依存した実用量子CIMの実現を達成した。さらに、エージェント支援量子計算の反復により蓄積された知識がエージェント自身の問題解決能力を相互に強化する新たなパラダイムが発見された。

  • フェムト秒レーザー励起CIMとLLM駆動エージェントシステムの統合
  • LLMによるQUBO/Isingキャリブレーション、制約反復、検証
サイト内本文

Javaで作られたシンプルなAIエージェント

LangChain4jを使用したJavaベースのAIエージェントで、Claude Codeと同様の動作をします。無料で使用でき、Mistralアカウントの登録が必要です。初回の試行で優れた電卓アプリを生成しました。

  • JavaとLangChain4jで構築されたAIエージェント
  • 無料で使用、Mistralアカウント登録が必要
サイト内本文

Amazon SageMaker AI エンドポイントの OpenAI 互換 API サポートを発表

Amazon SageMaker AI は、リアルタイム推論エンドポイント向けに OpenAI 互換の API サポートを開始しました。OpenAI SDK、LangChain、または Strands Agents を使用しているユーザーは、エンドポイント URL を変更するだけで SageMaker AI 上のモデルを呼び出せます。カスタムクライアント、SigV4 ラッパー、コードの書き換えは不要です。チャット補完リクエストとストリーミング応答をサポートし、ベアラートークン認証を使用します。

  • Amazon SageMaker AI エンドポイントが OpenAI 互換 API をサポートし、モデル呼び出しを簡素化。
  • 既存の OpenAI SDK やフレームワークを URL 変更のみで利用可能。
サイト内本文

2026年に向けたエンタープライズレベルのエージェンティックAIプラットフォームのベスト

2026年、エンタープライズエージェンティックAIはパイロットから本番へ移行しました。このガイドでは、Salesforce Agentforce、Microsoft Copilot Studio、ServiceNow、LangGraphなど、トップ10のプラットフォームを検証済みの価格、実際の導入データ、正直な制約とともにランク付けし、エンタープライズチームが適切なプラットフォームを選択できるようにします。

  • Salesforce AgentforceはCRMネイティブワークフローに最適、$800M ARR、29,000件の取引。ただしSalesforceエコシステム外では価値が低下。
  • Microsoft Copilot Studioは最も高い導入量:160,000組織、400,000以上のエージェント。Microsoft 365企業に最適。
サイト内本文

異なるモデルでうまく動作するようにDeep Agentsをチューニング

Deep Agentsはこれまで、モデルファミリー間でうまく機能するように汎用的に設計されていました。本日、プロンプト、ツール、ミドルウェアを調整するモデル固有のプロファイルを追加します。OpenAI、Anthropic、Googleモデル向けのプロファイルを標準搭載しており、デフォルトのハーネスと比較してtau2-benchのサブセットで10〜20ポイントの向上が見られます。

  • Deep Agentsはモデル固有のプロファイルを導入し、モデルごとにプロンプト、ツール、ミドルウェアを最適化します。
  • OpenAI、Anthropic、Googleモデル向けのカスタムプロファイルにより、tau2-benchで10〜20ポイントの向上。
サイト内本文

ランタイムに依存しないAIエージェントワークフロー仕様(LangGraph/Mastra)へのフィードバック

itsharnessは、AIエージェントワークフローの構築、実行、観察のための完全なツールセットです。ビジュアルキャンバスでフローを設計し、ランタイムに依存しない仕様をエクスポートし、さまざまなフレームワークにコンパイルして、実行、トレース、デバッグをサポートします。現在の仕様バージョンは0.2.0で、14のノードタイプと5つのサンプルフローが含まれています。

  • itsharnessは、AIエージェントワークフローを設計するためのビジュアルキャンバスを提供し、ランタイムに依存しないJSON仕様をエクスポートします。
  • アダプターにより、LangGraph、CrewAI、Mastra、Microsoft Agent Frameworkなどのフレームワークに仕様をコンパイルできます。
サイト内本文

【AINews】あらゆるものが指揮者

比較的静かなAIニュースの中で、コーディングエージェントの形態がConductorの先駆的アプローチに収束する小さなトレンドが浮き彫りになった。主なトピック:GitHubの新しいCopilot AppがConductorを模倣、OpenAIのCodexモバイル版、LangChainのエージェントインフラ更新(SmithDB、Engine、Labs)、AnthropicのClaude Code制限に対する反発、Figureの24時間自律仕分けライブ配信、拡散言語モデルや時系列予測、メカニスティック解釈可能性などの研究リリース。

  • GitHubはCopilot Appを発表、Conductorに似たエージェント優先UXを採用。YC CEO Garry TanがConductorを公然と支持。
  • OpenAIはCodexをChatGPTモバイルに統合、リモートでのタスク起動・レビュー・実行を可能に。
サイト内本文

LangChain Labs の発表

LangChain Labs は、エージェントの継続的学習に焦点を当てた新しい応用研究プロジェクトであり、パートナーとともに自己改善型AIシステムのオープン研究を推進します。

  • LangChain Labs は、エージェントが生成するデータを活用した継続的学習に取り組む。
  • Harvey、NVIDIA、Prime Intellect、Fireworks、Baseten と提携。
サイト内本文

Halgorithem:ツリー構造でAIの幻覚を検出、パイプラインにAI不要

Halgorithem はAI自体を使わずにAIの幻覚を検出するアルゴリズムで、入力をツリーにパースし、ファイルチャンクのツリーと比較して矛盾をフラグします。LangGraphやCrewAIなどのPython AIワークフローに容易に統合でき、ベンチマークで高い精度を示しています。

  • Halgorithem は独自のAIを使わず、ツリー構造比較でAIの幻覚を検出。
  • LangGraph、CrewAIなどの主要なPython AIパイプラインに統合可能。
サイト内本文

エージェントハーネスの解剖:モデルを自律的な作業エンジンに変える仕組み

エージェントハーネスがAIモデルを自律的な作業エンジンに変える仕組みを学びましょう。ファイルシステム、サンドボックス、メモリなどのコアコンポーネントを探求します。

  • 複雑な目標を分解:計画ツールによりエージェントはタスクを分解し、進捗を追跡し、学習に応じて適応できます。
  • 並行作業の委任:独立したサブタスクに対してサブエージェントを生成し、それぞれが隔離されたコンテキストを持ちます。
サイト内本文

LangSmith LLM Gateway:エージェントライフサイクルに組み込まれたランタイムガバナンス

LangSmithは、LLM Gatewayのプライベートベータ版を発表。これは、リクエストがモデルに到達する前にコスト制限と機密データ編集を強制し、ポリシーイベントをLangSmithワークスペースに直接統合するランタイムガバナンスレイヤーです。

  • LLM GatewayはエージェントとLLMプロバイダーの間に位置し、リクエストがモデルに到達する前に支出制限とPII編集を強制します。
  • ポリシー違反はLangSmith内でトレース可能なイベントとして表示され、ブロックされたリクエストからトリガートレース、修正までシームレスに調査できます。
サイト内本文

LangSmith Context Hub のご紹介

LangSmith は Context Hub を発表しました。これは、AGENTS.md、スキル、ポリシーなどの AI エージェントの動作ファイルを集中管理、バージョン管理、共同編集するためのプラットフォームです。コンテキストはエンジニア以外によって管理されることが多く、頻繁に更新されるため、専用の管理場所が必要です。バージョン管理、タグ、コメント機能を提供し、Deep Agents との統合により永続的なメモリを実現します。

  • Context Hub はエージェントのコンテキストファイル(AGENTS.md、スキル、ポリシーなど)を一元管理します。
  • コンテキストはエージェントの動作に大きな影響を与え、欠落や古いコンテキストが多くの障害の原因になります。
サイト内本文

LangSmith Sandboxが一般提供開始

LangSmith Sandboxが一般提供(GA)となりました。ハードウェア仮想化されたマイクロVMにより、カーネルレベルの分離を実現し、AIエージェントコードを安全に実行できます。新機能としてスナップショットとフォーク、サービスURL、CLI、認証プロキシ(カスタムコールバック対応)などを備え、コーディングエージェント、CIエージェント、データパイプライン向けに設計されています。

  • 各Sandboxはハードウェア仮想化されたマイクロVMで、ホストや他のSandboxから完全にカーネル分離されており、コンテナより安全。
  • GAではスナップショット(コピーオンライトフォーク)、サービスURL、Sandbox CLI、認証プロキシ(カスタムコールバック対応)、アイドル時の自動一時停止を追加。
サイト内本文

Show HN:Torrix —— セルフホスト型LLM可観測性ツール(Postgres、Redis不要)

Torrixはセルフホスト型のLLM可観測性ツールで、トークン数、コスト、レイテンシ、プロンプトトレース、推論トークンの取得、PIIマスキングを追跡します。OpenAI、Anthropic、Google Geminiなど多数のプロバイダをサポート。Dockerで簡単にデプロイでき、PostgresやRedisは不要。Python、Node.js、Go、C#、JavaのSDK、LangChainコールバック、HTTPプロキシを提供。

  • PostgresやRedis不要のセルフホスト型LLM可観測性。
  • トークン数、コスト、レイテンシ、プロンプトトレース、推論トークン、PIIマスキングを追跡。
サイト内本文

OncoAgent:プライバシー保護型腫瘍臨床意思決定支援のための二層マルチエージェントフレームワーク

OncoAgentは、オープンソースでプライバシー保護型の腫瘍学向け臨床意思決定支援システムです。二層LLMアーキテクチャ(9B高速モデルと27B深層推論モデル)、マルチエージェントLangGraphトポロジー、70以上のNCCNおよびESMOガイドラインをカバーする修正RAGパイプライン、そしてZero-PHIポリシーを備えた3層反射安全バリデーターを特徴とします。複雑性スコアリングによってクエリをルーティングし、AMD Instinct MI300X上でファインチューニングされ、56倍のスループット高速化を達成しました。データ主権を確保するため、オンプレミス展開をサポートします。

  • オープンソースでプライバシー保護型の腫瘍意思決定支援システム、オンプレミス展開可能。
  • 二層LLM:9B高速モデルと27B深層推論モデル、複雑性スコアによってルーティング。
サイト内本文

認知科学とAIシステムにおけるエージェントメモリパターン

記憶は人間の思考とAIエージェントの行動を形成します。本記事では、短期記憶、エピソード記憶、意味記憶、長期記憶といったAIエージェントの記憶タイプとその設計上のトレードオフを探ります。また、Google ColabでLangGraphを使用してエージェントメモリを構築する実践ガイドを提供します。

  • AIエージェントの記憶には短期、エピソード、意味、長期のタイプがあり、それぞれ保存、保持、検索に異なるトレードオフがある。
  • 階層的なメモリアーキテクチャにより、情報は短期ストレージから再利用可能な意味知識へと移行する。
サイト内本文

Deep Agents、LangSmith、Parallel を用いた企業デューデリジェンスエージェントの構築

本稿では、LangChain の Deep Agents によるオーケストレーションと Parallel の Task API による構造化ウェブリサーチを組み合わせ、自動化された企業デューデリジェンスエージェントを構築する方法を詳述します。5つのリサーチサブエージェントと LangSmith によるコンプライアンス監視機能を備えています。

  • Deep Agents が企業プロファイル、財務状況、訴訟・規制、ニュース、競合状況の5つのリサーチサブエージェントを調整します。
  • Parallel の Task API は、ソース引用と信頼度スコア(Basis)を含む構造化された調査結果を返し、検証可能なリサーチを実現します。
サイト内本文

Groqを活用したエージェンティック研究アシスタント:LangGraph、ツール呼び出し、サブエージェント、エージェンティックメモリによる構築

このチュートリアルでは、Groqの無料OpenAI互換推論エンドポイントを使用し、LangGraph、LangChain、およびカスタムツール(Web検索、ファイル操作、Python実行、スキル読み込み、サブエージェント委任、長期メモリ)を組み合わせて、多段階の研究エージェントを構築する方法を詳しく説明します。実際のタスク(小規模言語モデルのブリーフィング)を通じて、エージェントがスキルを発見し、サブ研究を委任し、構造化出力を生成し、メモリを保存する完全な流れを示します。

  • GroqのAPIをバックエンドとして使用し、LangChainのChatOpenAIインターフェースを介してllama-3.3-70b-versatileモデルを呼び出します。
  • Web検索、ファイル読み書き、コード実行、スキル管理、メモリ保存のためのツールセットを構築します。
サイト内本文

エージェントの可観測性は学習を促進するためにフィードバックを必要とする

LangChainのHarrison Chaseが、エージェントの可観測性はデバッグだけでなく学習ループを駆動するために重要だと論じます。トレースだけでは不十分で、ユーザーフィードバック、間接的なシグナル、LLM-as-judge、ルールなどのフィードバックを組み合わせることで初めて、モデル、ハーネス、コンテキストを体系的に改善できます。可観測性プラットフォームには、トレースの保存、フィードバックの保存、フィードバックの生成という3つの機能が必要です。

  • エージェントの可観測性の真の目的は、デバッグだけでなく学習を促進することにある。
  • フィードバック(ユーザー、間接的、LLM評価、ルール)がトレースを学習信号に変える。
サイト内本文

ハパックロイドがAmazon Bedrockを活用して顧客フィードバックを実用的なインサイトに変える方法

ハパックロイドのデジタルカスタマーエクスペリエンスチームは、Amazon Bedrock、Elasticsearch、LangChain/LangGraphを使用して生成AIを活用したフィードバック分析ソリューションを構築し、感情分類、傾向分析、レポート作成を自動化し、手作業を削減して迅速なデータ駆動型製品決定を可能にしました。

  • 生成AIを使用した顧客フィードバックの自動分析により、手作業が数時間から数秒に短縮。
  • ソリューションはAmazon Bedrockを使用して感情分類とコンテンツモデレーションを実施し、ガードレールを備える。
サイト内本文

オープンモデルが閾値を超えた

GLM-5やMiniMax M2.7のようなオープンウェイトモデルは、ファイル操作、ツール使用、指示追跡などのコアエージェントタスクにおいて、クローズドフロンティアモデルに匹敵する性能を、はるかに低いコストとレイテンシで達成しています。LangChainの評価では正解率がトップクローズドモデルに近く、オープンモデルが本番エージェントワークフローに実用的であることを示しています。本記事では、評価方法、結果、およびDeep Agents SDKでオープンモデルを使用する方法を詳しく説明します。

  • オープンモデルGLM-5とMiniMax M2.7がエージェントタスクでクローズドモデルに匹敵。
  • コストとレイテンシの利点:最大20倍安く、推論が高速。
サイト内本文

LangSmithによる回帰テスト

LangSmithの回帰テスト機能は、AIエンジニアが実験を比較し、パフォーマンスを追跡し、実行間の変更を詳細に分析することで、LLMアプリケーションを自信を持って評価・反復することを可能にします。従来のソフトウェアテストとは異なり、AIテストは完璧なスコアを達成できない場合があるため、時間の経過に伴う結果の追跡と個々のデータポイントの比較が不可欠です。LangSmithは、比較ビュー、表示オプション、ベースラインに対する変更の自動ハイライト、フィルタリング、および詳細な検査のための展開可能な行を提供します。

  • LangSmithはLLMアプリケーションの回帰テストを改善します。従来のテストとは異なり、AIテストは完全に合格しない可能性があるため、時間の経過に伴うパフォーマンス追跡が必要です。
  • 比較ビューでは、複数の実験を同時に選択でき、柔軟な表示オプションが利用可能です。
サイト内本文

LangSmith が Azure Marketplace でトランザクション可能なオファリングとして提供開始

LLM アプリケーション向けの統合 DevOps プラットフォームである LangSmith が、Azure Marketplace で Azure Kubernetes アプリケーションとしてトランザクション可能になりました。Azure VPC 内でのデプロイ、完全なデータ制御、MACC クレジットのサポートを提供します。

  • LangSmith が Azure Marketplace で Azure Kubernetes アプリケーションとして購入可能に。
  • データは顧客の Azure VPC 内に完全に保持され、第三者と共有されることはありません。
サイト内本文

評価駆動開発によるLLM信頼性への反復的アプローチ

Dosuは評価駆動開発(EDD)とLangSmithを活用し、大規模なLLM製品の信頼性を構築し、本番パフォーマンスを監視し、自信を持って反復改善を行っています。

  • Dosuは評価駆動開発(EDD)を採用し、テスト駆動開発のようにLLMの信頼性を確保しています。
  • LangSmithのSDKは簡単に統合でき、細かい制御とカスタマイズ性を提供します。
サイト内本文

エージェンティックエンジニアリング:AIエージェントの群れがソフトウェア工学を再定義する

実際のエンジニアリングチームを模倣するマルチエージェントシステムは、コードを高速化するだけでなく、デバッグ時間を93%削減し、部門横断的な納期を短縮します。本記事ではLangGraph上に構築されたアーキテクチャを紹介します。

  • エージェンティックエンジニアリングは、AIエージェントが明確な役割、共有メモリ、共通の可観測性を持つデジタルチームメンバーとして機能するマルチエージェント調整モデルです。
  • 20以上のデバッグワークフローのパイロットでは、調整されたエージェント実行により根本原因特定までの時間が93%短縮され、1か月で200時間以上のエンジニアリング時間を節約しました。
サイト内本文

エージェントオブザーバビリティ:LLMエージェントを本番環境で監視・評価する方法

LLMエージェントの本番環境での監視には、新しいオブザーバビリティツールが必要です。この記事では、エージェントのトレース、評価、改善を大規模に行う方法を解説します。

  • エージェントは無限の入力空間と非決定的な振る舞いを持ち、会話自体の監視が必要。
  • アノテーションキューとLLM-as-judgeによる評価のスケーリング。
サイト内本文

ローカル小型言語モデルでAIエージェントを構築する

この記事では、インターネット接続やAPI費用を必要とせず、自分のマシン上で完全にローカルに動作するAIエージェントを小型言語モデル(SLM)を使って構築する方法を解説します。AIエージェントとSLMの概念、ローカル実行の利点、OllamaとLangChainのセットアップ、エージェントの段階的構築、メモリとツールの追加、そしてSLMの限界について説明します。

  • AIエージェントは、言語モデルを使用して推論し行動するプログラムで、単なるチャットボットよりも強力です。
  • Phi-3やMistral 7Bのような小型言語モデルは標準的なハードウェアで動作し、プライバシーとゼロコストを提供します。
サイト内本文

企業ナビゲーション