AI News HubLIVE

今日の必読ニュース

Agent

AIエージェントが自身のメモリを通じて武器化されるのを防ぐ(OWASP)

OWASPは、AIエージェントのメモリポイズニングを防ぐオープンソースのランタイム防御層「Agent Memory Guard」をリリースしました。これはエージェントとメモリストアの間に位置し、検出器とYAMLポリシーを通じて読み取りと書き込みを監視します。ベンチマークでは、再現率92.5%、精度100%、偽陽性率0%、中央値レイテンシ59μsを達成しました。

  • Agent Memory Guardは、OWASPがエージェント型アプリケーション向けに策定したメモリポイズニング(ASI06)のリファレンス実装です。
  • SHA-256整合性、プロンプトインジェクション、機密データ漏洩、保護キー改ざん、サイズ異常の5つの検出カテゴリを備えています。
サイト内本文

スクラッチから基本的なAIエージェントを構築する:ツール

この記事では、基本的なAIエージェントにツールを追加してコンピュータ環境と対話できるようにする方法を説明します。ツールの定義、エージェントの使用方法、およびbashコマンド実行、ファイル読み取り、ファイル検索、grep、ファイル書き込み、ファイル編集、ウェブフェッチの7つの必須ツールのPython実装を網羅しています。

  • ツールとは、LLMに公開する関数であり、エージェントが自律的にアクションを実行できるようにする。
  • 最新のLLMはネイティブのツール呼び出しをサポートし、JSON構造化されたツールリクエストを生成する。
サイト内本文

チューリング賞受賞者リチャード・サットン氏、純粋な生成AIは本当の科学ができないと主張

チューリング賞受賞者のリチャード・サットン氏は、一般的な生成AIは自身の出力を評価できないため、真の科学的発見には不十分だと指摘。AlphaGoのように評価ループを持つシステムのみが真の創造性を発揮できるとし、継続的に学習し評価するAIの必要性を訴える。

  • 生成AIは模倣やランダム生成はできるが、新規性の価値を評価できない。
  • 科学的発見には変異、評価、選択的保持の3段階が必要。
サイト内本文

Memory OS の紹介:Hermes Agent 上に構築された6層のオープンソースメモリスタック

Memory OS は、ベクトルデータベース、構造化された事実、自動キュレーションされたWikiを含む6つのメモリ層をHermes Agentに追加する新しいMITライセンスのライブラリです。Docker、Qdrant、Redisを使用して完全にローカルで動作し、トークン効率に重点を置いています。

  • Memory OS は、Hermes Agent の組み込みメモリの上に6つの層(ワークスペース、セッション、構造化事実、Fabric、ベクトルDB、LLM Wiki)を追加します。
  • 検索はゲート付きで重複排除された4つのソースからのリコールを使用し、キャプチャはコール後に自動的に行われます。
サイト内本文

スタンフォード大学CS336のAIエージェントガイドライン

本記事は、スタンフォード大学CS336コースで使用されるAIコーディングアシスタント(ChatGPT、Claude Codeなど)のためのガイドラインを提供します。AIエージェントは、解答を生成するのではなく、説明、指導、フィードバックを通じて学生を支援する教育アシスタントとして機能する必要があります。エージェントが行うべきこと、行ってはいけないこと、教育アプローチ、およびインタラクションの例が詳述されています。

  • AIエージェントは教育アシスタントとして機能し、解答生成器になってはいけません。
  • コードを書いたり、課題の問題を直接解決してはいけません。
サイト内本文
ツール

アマゾン、社内AI利用ランキングを廃止、従業員が不正行為

アマゾンは、従業員のAIツール利用頻度をランク付けする社内リーダーボードを閉鎖した。公式には目標達成と発表されたが、従業員は不正行為やリソースの無駄遣いが原因と推測している。一部の従業員は意図的にスコアを水増ししたことを認めており、管理者からAIの利用が不十分だと指摘された後に不正を行ったケースもある。

  • アマゾンが社内AI利用ランキングを廃止、公式は目標達成とするが従業員は不正と浪費を疑う
  • 業績評価でAI利用不足を指摘された従業員がスコアを水増し
サイト内本文
政策

ハッカーがMeta AIにInstagramアカウントへのアクセスを依頼、それが機能した

ハッカーはMetaのAIサポートチャットボットに高名なInstagramアカウントのメールアドレス変更を依頼するだけで乗っ取りに成功した。被害にはオバマ大統領のホワイトハウスアカウント、宇宙軍曹長、セフォラなどが含まれる。この脆弱性はAIにサポートを委託する極度のリスクを浮き彫りにした。Metaは最近24時間以内に修正したが、コメントは行っていない。

  • ハッカーはMetaのAIチャットボットにメールアドレスの変更を依頼してInstagramアカウントを乗っ取った。
  • 標的にはオバマホワイトハウス、宇宙軍曹長、セフォラのアカウントが含まれる。
サイト内本文
スタートアップ

Claude開発元Anthropic、SECにIPOを申請

Anthropicは米国証券取引委員会(SEC)にIPO登録の草案を秘密裏に提出した。Claudeチャットボットを開発する同社は、最新の資金調達ラウンド後、評価額が約1兆ドルに達している。競合のOpenAIもIPOを準備しており、AIセクターでの投資家獲得競争が激化している。

  • AnthropicがS-1登録を秘密裏に提出し、IPOプロセスを開始
  • 最新の650億ドル資金調達後、評価額は約1兆ドル
サイト内本文

Anthropicが正式にIPO申請を提出

Anthropicは月曜日にSECに対して秘密のIPO登録を提出し、評価額9650億ドルで競合のOpenAIを上回った。IPOはSpaceXの6月12日予定のIPOに続く。

  • AnthropicはSECに秘密裡にIPOドラフト登録を提出し、ポストマネー評価額9650億ドルで世界で最も価値のあるスタートアップに。
  • この評価額は最大の競合であるOpenAIの8520億ドルを上回る。
サイト内本文
ロボット
その他の更新(12件)
スタートアップ

Anthropic、米国株式市場へのIPOを極秘申請

AI企業Anthropicは月曜日、米国株式市場への新規株式公開(IPO)を極秘に申請したと発表した。同社はソフトウェアエンジニアやビジネスクライアントに人気のチャットボットClaudeを開発し、今年急速に成長している。IPOの評価額や条件は非公開。先週木曜日には650億ドルの資金調達を発表し、評価額は9650億ドル(ポストマネー)に達した。2月時点の評価額は3800億ドルだった。

  • Anthropicが米国IPOを極秘申請
  • 評価額や条件は未公開
サイト内本文
ツール

DuckDuckGo、トラフィック急増を受け「AIなし」検索エンジンを簡単に利用可能に

トラフィックが増加し続ける中、代替検索エンジンDuckDuckGoは、反AI感情に乗じて、AIフリーの検索体験をデフォルトに設定できる新しいブラウザ拡張機能をリリースしました。ChromeとFirefox向けの拡張機能では、noai.duckduckgo.comに誘導され、AIによる回答やチャットプロンプト、AI画像が結果に表示されません。DuckDuckGoブラウザユーザーは、履歴を消去してもAI設定が保持されます。

  • DuckDuckGoがnoai.duckduckgo.comをデフォルト検索に設定するブラウザ拡張機能を公開。
  • 拡張機能はAIによる回答やチャットプロンプト、AI画像を排除。
サイト内本文
Agent

AIエージェントに目を与えたが、まったく使わなかった

AIエージェントに視覚機能を与えても、実際には使わない可能性があることが実験で示された。Claude Haiku 4.5とGooseフレームワークを用いたテストでは、エージェントは視覚ではなくレイアウトを保持するテキストツールを使って複雑な表抽出タスクを成功させた。オープン標準AVPによる記録が、高価なモデルよりも粘り強さと適切なツールの重要性を明らかにした。

  • 視覚機能を持つAIエージェントがそれを利用せず、レイアウト認識テキストツールで成功。
  • 安価なモデル(Claude Haiku 4.5)が適切なハーネスとツールで高難度のPDF抽出タスクを達成。
サイト内本文

AgentOps:Amazon Bedrock AgentCore を使用した大規模なエージェンティック AI の運用

エージェンティック AI ソリューションを構築する際、エージェントの予測不可能な意思決定、コストの予期せぬ上昇、非決定論的な障害のデバッグといった独自の運用上の課題に直面します。AgentOps は、本番環境で AI エージェントをデプロイ、管理、継続的に改善するための運用規律です。この記事では、Amazon Bedrock AgentCore を使用して AgentOps を実装する方法を紹介し、ガバナンスとセキュリティ、構築と運用、評価、可観測性の 4 つの柱について説明し、リファレンスアーキテクチャと実践ガイドを提供します。

  • AgentOps は AI エージェント専用の運用規律であり、自律的な意思決定による課題に対応します。
  • 4 つの柱には、ガバナンスとセキュリティ、構築と運用、評価、可観測性が含まれます。
サイト内本文

AI主権と参加のアーキテクチャ

本記事は、各国が技術的主権を追求する傾向を、ブラジルの医療主権を例に挙げ、AI分野に類推して考察する。ディカップリングという言葉は狭すぎるとし、実際には各国は接続を維持しつつ自らの能力を構築することを望んでおり、分離ではなく連邦制に近いと論じる。オープンソースのAIモデルやプロトコルは主権実現の鍵であるが、インフラ(データセンター、チップ、電力網)が複製困難な重要な層である。連邦化されたAIの未来と、AI時代に向けたインフラ再構築の必要性を描く。

  • ブラジルの医療主権への取り組みは、技術的自立への幅広い欲求を反映している。
  • 主権的AIの追求も同様で、各国は少数の米国や中国企業に依存せずに基盤技術を制御したいと考えている。
サイト内本文

Rippling、Deep AgentsとLangSmithで6ヶ月で全プロダクトにAIを導入

RipplingはLangChainのDeep AgentsとLangSmithを活用し、HR、IT、財務、給与、グローバルオペレーションにわたるクロスドメインAIを6ヶ月で本番運用。マルチエージェントアーキテクチャとコンテキストエンジニアリングで大規模オントロジー推論の課題を解決。

  • Rippling AIはスーパーバイザーエージェントが5〜7の専門サブエージェント(読み取り、RAG、アクション)を調整するマルチエージェントシステム。
  • コンテキストエンジニアリングには動的スキル注入、コード実行、変数ピン留め(REPL)を使用し、コンテキストサイズを100〜500倍削減。
サイト内本文

Amazon Quick と時系列データベースの統合による市場インテリジェンス(MCP 活用)

本稿では、KDB-X MCP サーバーと Amazon Quick の統合を通じて、トレーダーやアナリストが自然言語で質問し、データセットから実用的な洞察を得る方法を解説します。この統合パターンは、金融市場分析、IoT センサーモニタリング、DevOps パフォーマンスダッシュボードなど、さまざまな領域に適用可能です。

  • Amazon Quick が MCP を統合し、時系列データへの複雑なデータベースクエリを不要にします。
  • KDB-X MCP サーバーを EC2 にデプロイし、Amazon Bedrock AgentCore Gateway で安全に接続します。
サイト内本文

Geminiを使ってGoogle I/O 2026を構築した方法

Google社員がAIを駆使してGoogle I/O 2026をどのように制作したかを紹介。クラゲのプレショーから「TPUトレーニングデイ」フィルムまで、Geminiが今年のI/O実現にどう貢献したかをご覧ください。

  • Google I/O 2026の制作では、Gemini、Nano Banana、LyriaなどのAIツールが広く活用されました。
  • 人間の芸術性とAIを融合させ、短編映画、ビジュアルアイデンティティ、没入型体験を創出しました。
サイト内本文

このコーディングエージェントはフィードバックを求めない——反復なしで出荷する

SkipLabsは、クローズドループのAIコーディングエージェント「Skipper」を発表した。自然言語の説明やOpenAPI仕様から、完全なバックエンドサービスを直接生成し、開発者の反復作業を不要にする。Skip言語由来のリアクティブランタイムで状態管理と並行処理を自動化し、AIコードが最も失敗しやすい領域に対処する。SkipperはAIモデルをコモディティとして扱い、デフォルトでClaude Opusを使用するが複数のモデルに対応する。今後の計画には、インクリメンタルTypeScript実装とインクリメンタル更新モードが含まれる。

  • Skipperはクローズドループエージェントであり、説明から実行可能なバックエンドサービスを開発者の反復なしに生成する。
  • リアクティブランタイムを使用して状態管理、キャッシュ無効化、並行処理を自動化し、AIコードの一般的な失敗を回避する。
サイト内本文

Anthropic、SECにS-1草案を機密提出

Anthropicは米国証券取引委員会にS-1登録声明の草案を機密提出し、新規株式公開の可能性に備えました。市場状況やSEC審査に依存します。株式数や価格は未定です。

  • Anthropicは2026年6月1日にSECへS-1草案を機密提出。
  • IPOは任意であり、SEC審査と市場状況次第。
サイト内本文

エージェント実行税:ブラウザ自動化における真のボトルネック

720回のブラウザエージェントタスクのベンチマークで、構造化出力の信頼性がエージェントAIのボトルネックであることが判明。Gemini 2.5 Flashは22.9%の実行税(無駄な推論呼び出しの割合)が発生したのに対し、Kimi K2.5はゼロ。この税はレイテンシ、コスト、失敗率を増幅させる。本レポートは信頼性調整済み精度とタスクあたりのコスト指標を導入する。

  • エージェント実行税は構造化出力の失敗による無駄な推論を測定し、最悪モデルで22.9%、最良で0%。
  • Gemini 2.5 Flashはタスクの86.7%で少なくとも1回のパース再試行が発生、Kimi K2.5は0%。
サイト内本文
モデル

Amazon FSx for Lustre 上の GPUDirect と TurboQuant で LLM モデル読み込みを高速化し、コンテキストウィンドウを拡大

本記事では、Amazon FSx for Lustre、NVIDIA GPUDirect Storage (GDS)、およびシャーディング並列読み込みを組み合わせることで、大規模言語モデルのコールドスタート時の最初のトークン生成時間を数分から数秒に短縮する方法と、TurboQuant KV キャッシュがコンテキストウィンドウサイズを大幅に拡大する効果について解説します。

  • CPU 経由のモデル読み込みはコールドスタートのボトルネックであり、405B パラメータモデルで 10~20 分かかる。
  • FSx for Lustre + GPUDirect Storage は EFA を介して GPU HBM に直接データを転送し、CPU をバイパスする。