AI News HubLIVE
公開記事 79収集記事 85信頼度 84更新頻度 30 分
稼働状態 正常ソース種別 研究全文利用権限 全文利用可最終取り込み 2026-06-26ID langchain-blog状態 有効

Technical tool blog; verify individual post terms before full body display.

最新公開記事

ディープエージェントのプロンプトキャッシング

Deep Agentsがプロンプトキャッシングを活用し、追加設定不要で主要モデルプロバイダーのLLMトークンコストを最大80%削減する方法をご紹介します。

  • プロンプトキャッシングは、プロンプト処理後のモデル状態を保存することで、推論トークンコストを41〜80%削減します。
  • プロバイダーごとにキャッシュ制御のサポートが異なり、プロバイダーに依存しない最適化は困難です。
サイト内本文

2026年6月:LangChainニュースレター — Fleetオンコールコパイロット、Deep Agentsルーブリックなど

LangSmithの新機能:アラートトリアージ用のFleetオンコールコパイロット、エージェントのコンピュータ使用、音声トレースデバッグ、実験ステータストラッキング。さらにDeep Agentsルーブリック、プログラムによるサブエージェント、新しいLangSmithデプロイメントコース、そしてシカゴ、ベルリン、ワシントンDC、ラスベガスでのイベント。

  • Fleet On-Call Copilot:コード、トレース、ランブックを活用してアラートをトリアージし、更新ドラフトを作成するプリビルドエージェントテンプレート。
  • コンピュータ使用:エージェントが隔離された仮想コンピュータを使用してコード、ファイル、認証API呼び出しを実行可能に。
サイト内本文

最高のAIエージェントがシンプルである理由:SierraのZack Reneau-WedeenがMax Agencyポッドキャストで語る

Max Agencyポッドキャストで、Zack Reneau-WedeenはAIエージェントの未来について語り、シンプルなアーキテクチャ、成果ベースの価格設定、組織図の押し付けを避けることを提唱。Sierraでの顧客向けエージェント構築の経験から得た洞察を共有。

  • シンプルなエージェントアーキテクチャが複雑なマルチエージェントシステムより優れている
  • 成果ベースの価格設定が高価値タスクのインセンティブを調整
サイト内本文

KlarnaのAIアシスタントが8500万のアクティブユーザー向けにカスタマーサポートを大規模に再定義した方法

KlarnaはLangGraphとLangSmithを活用したAIアシスタントにより、700人のフルタイムスタッフ相当の業務を処理し、顧客問い合わせ解決時間を80%短縮、反復的なサポートタスクの約70%を自動化しました。

  • KlarnaのAIアシスタントはLangGraphとLangSmithで構築され、250万以上の会話を処理し、700人のフルタイムスタッフに相当する作業を実行。
  • 平均顧客問い合わせ解決時間を80%削減し、反復的なサポートタスクの約70%を自動化。
サイト内本文

LangSmithとLangChain OSSがEU AI Actの要件を満たす方法

EU AI Actの遵守期限は2026年8月2日です。本記事では、EU AI ActがハイリスクAIシステムに求める要件と、LangSmithおよびLangChain OSSが各要件をどのように満たすかを説明します。

  • EU AI ActはハイリスクAIシステムにリスク管理、自動ログ記録、透明性、人間による監視、市販後監視を要求します。
  • LangSmithはエンドツーエンドのトレーシングでエージェントの入力、推論、ツール呼び出し、出力をすべてキャプチャします。
サイト内本文

AIエージェントにメモリを組み込む方法

AIエージェントにメモリを追加する実践的なガイド。短期・長期記憶の概念、トレース分析、LangSmithツールを使ったメモリループの実装により、エージェントが実行間で学習し改善する方法を解説します。

  • メモリによりエージェントはユーザーの好みや修正を記憶し、繰り返しの指示を減らせる。
  • 短期記憶は現在のタスク、長期記憶は事実やスキルを保持する。
サイト内本文

LangSmith、コード不要のエージェントビルダーを発表

LangSmith は、メモリ、ガイド付きプロンプト、MCP ツールを備えた AI エージェントをコード不要で作成できるエージェントビルダーをリリース。会話形式のガイダンス、組み込みメモリ、サブエージェントにより、エージェント開発のハードルを下げ、内部生産性向上のユースケースに適しています。

  • LangSmith Agent Builder はコード不要で、メモリとガイド付きプロンプト作成を提供。
  • エージェントはプロンプト、ツール、トリガー、サブエージェントの4つのコアコンポーネントで構成。
サイト内本文

Factory社がLangSmithを活用してフィードバックループを自動化し、反復速度を2倍に向上

Factory AIはLangSmithの可観測性とフィードバックAPIを活用して製品フィードバックループを最適化し、反復速度を2倍に向上させ、開発サイクルの大幅な短縮を実現しました。

  • FactoryはLangSmithをAWS CloudWatchと統合し、可観測性とデバッグを強化。
  • LangSmithのFeedback APIにより、プロンプト最適化を自動化し、手作業を削減。
サイト内本文

Open SWEの紹介:オープンソースの非同期コーディングエージェント

Open SWEは、オープンソースでクラウドホスト型のコーディングエージェントであり、GitHubのタスク(計画、コーディング、テスト、PR作成)を自律的に処理します。マルチエージェントアーキテクチャ、ヒューマンインザループ制御、非同期実行を特徴としています。

  • Open SWEは、GitHubと直接統合するオープンソースの非同期クラウドコーディングエージェントです。
  • マルチエージェントアーキテクチャ(プランナー、プログラマー、レビューア)を使用してコード品質を確保します。
サイト内本文

Monte Carlo:LangGraph と LangSmith でデータ+AI 可観測性エージェントを構築

Monte Carlo は LangGraph を基盤に AI トラブルシューティングエージェントを構築し、LangSmith でデバッグすることで、データチームが問題をより迅速に解決できるようにしました。このエージェントは複数の調査経路を並列に探索し、根本原因分析を加速します。

  • Monte Carlo は LangGraph を使用して動的グラフを作成し、トラブルシューティングを自動化・並列化。
  • LangSmith は開発初期からプロンプトの可視化と迅速な反復を可能にした。
サイト内本文

LangSmith ベンチマークの共有

LangSmithは、公開ベンチマークと評価データセットの共有機能を開始し、開発者が異なるLLMアーキテクチャのパフォーマンスを同じタスクで比較できるようにしました。最初のベンチマークはLangChainドキュメントのQ&Aデータセットで、langchain-benchmarksパッケージもリリースされました。記事では、さまざまなモデルとアーキテクチャのパフォーマンスを分析し、デバッグ方法を提供しています。

  • LangSmithは評価データセットと結果の共有をサポートし、コミュニティ駆動のベンチマークを容易にします。
  • 最初のベンチマークはLangChainドキュメントのQ&Aデータセットで、RAGシステムの総合的な回答能力をテストします。
サイト内本文

LangSmith: 製品ホームページの刷新とリソースタグによる整理の改善

LangSmith のホームページは、可観測性、評価、プロンプトエンジニアリングの3つのセクションに再編成されました。また、リソースタグが改善され、アプリケーションやカスタムタグで柔軟にリソースをグループ化できます。オンボーディングガイドと今後のABACにより、ユーザビリティが向上します。

  • ホームページは可観測性、評価、プロンプトエンジニアリングの3セクションに分割。
  • リソースタグは「アプリケーション」またはカスタムタグで柔軟なグループ化が可能。
サイト内本文

エージェントエンジニアリング:新たな分野

エージェントエンジニアリングは、プロダクト思考、エンジニアリング、データサイエンスを統合し、反復的な構築、テスト、出荷、観察、改善のサイクルを通じて非決定論的なLLMシステムを信頼性の高い本番体験に変える新しい分野です。Clay、Vanta、LinkedIn、Cloudflareなどの企業が実践しています。

  • エージェントエンジニアリングは反復プロセス:構築、テスト、出荷、観察、改善、繰り返し。
  • プロダクト思考(スコープと動作の定義)、エンジニアリング(インフラ構築)、データサイエンス(測定と改善)を組み合わせる。
サイト内本文

LangSmithでファインチューニングされたオープンソースモデルをテストする

LangSmithを使用してファインチューニングされたオープンソースLLMを評価・比較する方法を紹介。複数のモデルをテストし、評価を自動化して最適なAIを選択します。

  • LangSmithはUIとAPIを提供し、評価データセットの作成が容易。
  • Llama2-7b(78k行)とLlama2-13b(10k行)をSQL生成用にファインチューニング。
サイト内本文

エージェント改善ループにおける人間の判断

AIエージェントは、チームが長年培ってきた知識と判断を反映するときに最も効果的に機能します。この記事では、トレーダー向けコパイロットの例を用いて、ワークフロー設計、ツール設計、コンテキストエンジニアリングに人間の判断を組み込む方法を解説し、自動評価とモニタリングによる改善ループを紹介します。

  • エージェントには専門家の暗黙知が必要
  • ワークフロー、ツール、コンテキストの設計に人間の判断を組み込む
サイト内本文

Deep Agentsのコンテキスト管理

Deep Agents SDKは、オフロード、要約、ファイルシステム抽象化を通じて、長時間実行されるAIタスクのコンテキストを管理し、コンテキスト腐敗を防ぎます。本記事では、3つの圧縮技術(大規模ツール結果のオフロード、大規模ツール入力のオフロード、要約)の仕組みと実践ガイドを紹介します。

  • Deep Agents SDKは、LLMのメモリ制限に対処するため、コンテキスト圧縮技術(オフロードと要約)を採用。
  • 3つの圧縮技術は異なる閾値でトリガー:大規模結果のオフロード(20Kトークン超)、大規模入力のオフロード(85%超)、要約(85%超でオフロード不可)。
サイト内本文

ループ工学の芸術

信頼性の高いAIエージェントを構築するには、単に優れたモデルを使うだけでなく、ループを慎重に設計することが重要です。この記事では、エージェントループ、検証ループ、イベント駆動ループ、山登りループという4つのネストされたループを紹介し、LangChainプリミティブを使って各レベルを実装する方法を示します。エージェントをエコシステムに組み込み、継続的に改善することで、模倣困難な競争優位を構築できます。

  • エージェントループ:モデルがツールを繰り返し呼び出してタスクを完了する基本ループ。
  • 検証ループ:出力を評価しフィードバックすることで品質を保証する。
サイト内本文

Fleetが汎用チャットと専門エージェントの両方を提供する理由

Fleetは、アドホックなタスクと繰り返し発生する責任の両方をサポートします。汎用チャットと専門エージェントがどのようにチームの作業委任を支援するかをご覧ください。

  • 一時的なタスクには汎用チャット、繰り返しのタスクには専門エージェントを使用。
  • 専門エージェントは、指示、ツール、モデル、サブエージェント、スキル、トリガー、永続的なメモリを設定可能。
サイト内本文

Fireworksでコスト100分の1のトレースジャッジを構築

LangChainとFireworksはオープンモデルをファインチューニングし、プロダクショントレースから知覚エラーシグナルを抽出。フロンティアモデル並みの性能をわずかなコストで実現。

  • LangSmithは毎日数十億のトークンのトレースデータを処理。
  • Qwenモデルをファインチューニングして「知覚エラー」を検出、性能は最先端と同等以上でコストは100分の1。
サイト内本文

AIエージェントとは何か?

この記事では、AIエージェントの定義を探求し、エージェントはLLMを使用してアプリケーションの制御フローを決定するシステムであると提案しています。著者はAndrew Ngの見解に同意し、エージェントの能力はスペクトルであるとし、「エージェンティック」な行動の概念を紹介し、開発、運用、評価、監視への影響について議論しています。

  • AIエージェントは、LLMを使用してアプリケーションの制御フローを決定するシステムです。
  • エージェントの能力はスペクトル上に存在し、単純なルーティングから高度に自律的なエージェントまであります。
サイト内本文

LangChainのGTMエージェントの構築方法

LangChainはDeep Agentsを使用したGTMエージェントを構築し、リードの調査、ドラフト作成、アカウントインテリジェンスを自動化。リード転換率が250%向上し、セールス担当者1人あたり月40時間を節約しました。

  • エージェントはアウトバウンドとインバウンドのリード処理を自動化し、Slackでの人間による承認を経て実行。
  • Deep AgentsによるマルチステップオーケストレーションとLangSmithによる評価・フィードバックを活用。
サイト内本文

Align Evals の紹介:LLMアプリケーション評価の効率化

LangSmith の新機能 Align Evals は、評価者を人間の好みに合わせて調整し、評価スコアと人間の判断の不一致を減らします。

  • Align Evals は人間とAIのスコア比較を通じて評価プロンプトを反復的に改善します。
  • Playground のようなインターフェースとベースラインアライメントスコアを提供し、進捗を追跡できます。
サイト内本文

マルチエージェントシステムの構築方法とタイミング

本記事は、一見相反する2つのブログ記事(Cognitionチームの「マルチエージェントを構築するな」とAnthropicチームの「マルチエージェント研究システムの構築方法」)を分析し、それらが多くの共通点を持ち、マルチエージェントシステムをいつ、どのように構築するかについての洞察を提供することを示します。重要なポイントは、コンテキストエンジニアリングの重要性、「読む」主体のシステムが「書く」主体のものより容易であること、そして本番環境での信頼性とエンジニアリングの課題です。また、LangGraphやLangSmithなどのツールがこれらの課題にどう対処するかについても触れています。

  • コンテキストエンジニアリングはマルチエージェントシステム構築の最重要要素であり、モデルにタスクの文脈を動的に伝える必要がある。
  • 「読む」主体のマルチエージェントシステム(例:研究)は「書く」主体のもの(例:コーディング)よりも容易であり、書く操作はより複雑な調整と統合を要する。
サイト内本文

Replit Agentの複雑なワークフローでLangSmithの限界を押し広げる

ReplitがLangSmithの可観測性機能を活用して複雑なエージェントワークフローをデバッグし、トレースパフォーマンスの改善、検索機能、ヒューマンインザループスレッドを実現した方法をご紹介します。

  • Replit AgentはLangGraphとLangSmithを使用して監視とデバッグを行います。
  • LangSmithは数百のステップを含む大規模なトレースを処理できるように強化されました。
サイト内本文

Interrupt 2025 レポート:LangChainによるAIエージェントカンファレンス

Interrupt 2025は、LangChainが初めて開催した業界カンファレンスで、世界中から800名がサンフランシスコに集まりました。基調講演では、エージェントエンジニアリングの新たな学問としての位置づけ、マルチモデルLLMアプリケーション、信頼性の高いエージェントを構築するためのLangGraph、AI可観測性などがテーマとなりました。製品発表では、LangGraph Platform GA、Open Agent Platform、LangGraph Studio v2、LangGraph Pre-Builts、LangSmithの可観測性アップデート、Open Evals、LLM-as-Judgeのプライベートプレビューなどが行われました。

  • LangChainが初のInterruptカンファレンスを開催、AIエージェントに焦点を当てました。
  • LangGraph Platform GAやOpen Agent Platformなど、複数の新製品が発表されました。
サイト内本文

LangSmithによるペアワイズ評価

ペアワイズ評価とは何か、LLMアプリ開発に必要な理由、およびLangChainのLangSmithでの使用例を学びます。

  • ペアワイズ評価は2つのLLM出力を直接比較し、人間の好みをよりよく捉えます。
  • LangSmithはカスタムペアワイズ評価器を導入し、任意の基準に基づく柔軟な比較を可能にします。
サイト内本文

Pinecone ServerlessでRAGアプリを構築・デプロイする

Pinecone Serverless、LangChain、LangServeを使用して、プロダクション対応のRAGアプリを構築するチュートリアル。ベクトルストア管理、迅速なデプロイ、可観測性といった課題に対処します。

  • Pinecone Serverlessは従量課金制と無制限のスケーラビリティを提供し、ホスト型ベクトルストアの課題を解決。
  • LangServeにより、LangChainチェーンを迅速にプロダクション向けWebサービスとしてデプロイ可能。
サイト内本文

OpenEvalsでLLM評価をすぐに始める

OpenEvalsとAgentEvalsは、LLM-as-judge、構造化データ、エージェント軌跡評価のためのビルド済み評価器を提供します。これらのオープンソースパッケージにより、開発者は評価ワークフローを迅速に構築し、LLMアプリケーションの信頼性を確保できます。

  • OpenEvalsとAgentEvalsは、LLM-as-judge、構造化データ、エージェント軌跡評価をカバーするすぐに使える評価器を提供します。
  • LLM-as-judge評価器はカスタマイズ可能で、少数例やスコアリングスキーマに対応し、会話品質や幻覚検出などに適しています。
サイト内本文

エージェントフレームワークの考え方

本記事では、信頼性の高いエージェントシステムを構築する上での核心的な課題、すなわち各ステップでLLMに適切なコンテキストを提供することについて深く考察しています。著者はワークフローとエージェント、宣言的アプローチと命令的アプローチを比較し、LangGraphフレームワークの設計思想を紹介しています。また、OpenAIのエージェントガイドを批判し、Anthropicの定義を称賛し、フレームワークの「フロア」と「シーリング」の概念について議論しています。

  • 信頼性の高いエージェント構築の難しい点は、各ステップでLLMに渡すコンテキストを制御することです。
  • エージェントシステムにはワークフローとエージェントの両方が含まれ、ほとんどの本番システムはそれらの組み合わせです。
サイト内本文

LLM-as-a-Judgeを人間の嗜好に合わせる

LangSmithは、人間による修正を数ショット例として保存し、プロンプトエンジニアリングなしで評価を人間の嗜好に合わせる自己改善型LLM評価器を導入。

  • LLM-as-a-Judge評価器は自然言語出力の評価に広く使われるが、プロンプトエンジニアリングが必要。
  • LangSmithの新機能は、人間の修正を数ショット例として保存し、時間とともに評価を改善。
サイト内本文

全ソース