AI News HubLIVE

今日の必読ニュース

Agent

AIデータプラットフォームを動かすエージェントを構築しました

Encordは、MCPを介してClaudeやCodexなどのプラットフォームに統合されるエージェンティックインテリジェンス層「Merlin」を発表。会話を通じてデータライフサイクル全体(構築、監視、最適化)を管理できる。

  • MerlinはEncordのエージェンティックインテリジェンス層であり、会話によるAIデータ管理を実現。
  • MCPプロトコルを介してClaude、Codexなどのエージェンティックコーディングプラットフォームに統合され、今後Slackなども対応予定。
サイト内本文

AIの静かな飛躍:コードから認知へ

AIを日常的に使うことで、著者は真のボトルネックがコーディングそのものではなく、コンテキストスイッチによる精神的な消耗であることを発見した。AIは思考の持続を可能にし、エネルギーを構文やデバッグからアーキテクチャやシステム思考へとシフトさせるが、判断力とセンスを維持することが依然として重要である。

  • AIはコンテキストスイッチによる精神的疲労を軽減し、開発者がより長く集中できるようにする。
  • AIは外部化されたワーキングメモリとして機能し、異なる問題レイヤーを並行して処理できる。
サイト内本文

Show HN:Ctx——関連ツールのみを読み込んでトークンを節約

Ctx は Claude Code およびカスタム LLM 向けのコンテキスト管理ツールで、102,928 ノードのグラフを解析し、現在のタスクに最適なスキル、エージェント、MCP サーバーの小規模バンドルを推奨することで、トークンを節約し品質を向上させます。

  • Ctx はユーザーの作業を監視し、大規模グラフから関連ツールを推奨してコンテキストの無駄を防ぎます。
  • Claude Code およびカスタムのローカル/API モデルをサポートし、個別のセットアップフローを提供。
サイト内本文

Factory社がLangSmithを活用してフィードバックループを自動化し、反復速度を2倍に向上

Factory AIはLangSmithの可観測性とフィードバックAPIを活用して製品フィードバックループを最適化し、反復速度を2倍に向上させ、開発サイクルの大幅な短縮を実現しました。

  • FactoryはLangSmithをAWS CloudWatchと統合し、可観測性とデバッグを強化。
  • LangSmithのFeedback APIにより、プロンプト最適化を自動化し、手作業を削減。
サイト内本文

Open SWEの紹介:オープンソースの非同期コーディングエージェント

Open SWEは、オープンソースでクラウドホスト型のコーディングエージェントであり、GitHubのタスク(計画、コーディング、テスト、PR作成)を自律的に処理します。マルチエージェントアーキテクチャ、ヒューマンインザループ制御、非同期実行を特徴としています。

  • Open SWEは、GitHubと直接統合するオープンソースの非同期クラウドコーディングエージェントです。
  • マルチエージェントアーキテクチャ(プランナー、プログラマー、レビューア)を使用してコード品質を確保します。
サイト内本文

Monte Carlo:LangGraph と LangSmith でデータ+AI 可観測性エージェントを構築

Monte Carlo は LangGraph を基盤に AI トラブルシューティングエージェントを構築し、LangSmith でデバッグすることで、データチームが問題をより迅速に解決できるようにしました。このエージェントは複数の調査経路を並列に探索し、根本原因分析を加速します。

  • Monte Carlo は LangGraph を使用して動的グラフを作成し、トラブルシューティングを自動化・並列化。
  • LangSmith は開発初期からプロンプトの可視化と迅速な反復を可能にした。
サイト内本文
ツール

AI意識:妄想家と哲学者のベンチ

本記事では、AI意識をめぐる議論を探り、「妄想家」と「哲学者」という二つの立場を区別する。

  • 「妄想家」は、科学的根拠が不十分ながらAIの意識を主張する。
  • 哲学者は、厳密な定義と証拠の必要性を強調する。
サイト内本文
研究

ヘッドフォン愛好家が即アップグレードすべき、Prime Dayのヘッドフォンおすすめ8選

今年のAmazon Prime Dayは6月23日から26日までと例年より早く開催され、2025年発売のフラッグシップヘッドフォンが割引対象に。本リストの全製品は実際にテスト済みで、それぞれ異なる理由でおすすめします。

  • Prime Dayは6月23日~26日、例年より1ヶ月早い。
  • Bowers & Wilkins Px7 S3やソニーWH-1000XM6などの2025年新モデルが初値引き。
サイト内本文
政策
その他の更新(24件)
モデル

LangSmith ベンチマークの共有

LangSmithは、公開ベンチマークと評価データセットの共有機能を開始し、開発者が異なるLLMアーキテクチャのパフォーマンスを同じタスクで比較できるようにしました。最初のベンチマークはLangChainドキュメントのQ&Aデータセットで、langchain-benchmarksパッケージもリリースされました。記事では、さまざまなモデルとアーキテクチャのパフォーマンスを分析し、デバッグ方法を提供しています。

  • LangSmithは評価データセットと結果の共有をサポートし、コミュニティ駆動のベンチマークを容易にします。
  • 最初のベンチマークはLangChainドキュメントのQ&Aデータセットで、RAGシステムの総合的な回答能力をテストします。
サイト内本文

エージェントエンジニアリング:新たな分野

エージェントエンジニアリングは、プロダクト思考、エンジニアリング、データサイエンスを統合し、反復的な構築、テスト、出荷、観察、改善のサイクルを通じて非決定論的なLLMシステムを信頼性の高い本番体験に変える新しい分野です。Clay、Vanta、LinkedIn、Cloudflareなどの企業が実践しています。

  • エージェントエンジニアリングは反復プロセス:構築、テスト、出荷、観察、改善、繰り返し。
  • プロダクト思考(スコープと動作の定義)、エンジニアリング(インフラ構築)、データサイエンス(測定と改善)を組み合わせる。
サイト内本文

LangSmithでファインチューニングされたオープンソースモデルをテストする

LangSmithを使用してファインチューニングされたオープンソースLLMを評価・比較する方法を紹介。複数のモデルをテストし、評価を自動化して最適なAIを選択します。

  • LangSmithはUIとAPIを提供し、評価データセットの作成が容易。
  • Llama2-7b(78k行)とLlama2-13b(10k行)をSQL生成用にファインチューニング。
サイト内本文

フランス、PalantirのAIデータツールを国内プロバイダーに切り替え

フランスの首相セバスティアン・ルコルニュは、国内情報機関が米国のテクノロジー大手PalantirのAIデータツールを廃止し、国内プロバイダーに切り替えると発表した。これは「戦略的依存」を避けるためである。

  • フランス国内情報機関がPalantirのAIツールをChapsVisionに置き換える。
  • ルコルニュ首相は外国勢力への戦略的依存を避けることを強調。
サイト内本文

Qwen-RobotSuiteのご紹介:VLA操作、ビデオワールドモデリング、ナビゲーションのための3つの具現化AIモデル

Qwenチームは、操作、ワールドモデリング、ナビゲーションを対象とした3つの具現化AIモデルからなるQwen-RobotSuiteをリリースしました。RobotManipはQwen3.5-4BをベースにしたVision-Language-Actionモデルで、統一アライメントフレームワークにより操作データを拡張します。RobotWorldは60層のMMDiTを備えた言語条件付きビデオワールドモデルで、将来のビデオフレームを予測します。RobotNavはQwen3-VLをベースにしたナビゲーションモデルで、複数のタスクモードに対応するパラメータ化されたインターフェースを備えています。このスイートは、いくつかのベンチマークで最先端の結果を達成しています。

  • Qwen-RobotSuiteは、RobotManip、RobotWorld、RobotNavの3つの独立したモデルで構成されています。
  • RobotManipは、統一アライメントフレームワークによって異種操作データを扱い、LIBERO-PlusやRoboTwin-C2R HardなどのOODベンチマークでSOTAを達成しました。
サイト内本文
Agent

LangSmith: 製品ホームページの刷新とリソースタグによる整理の改善

LangSmith のホームページは、可観測性、評価、プロンプトエンジニアリングの3つのセクションに再編成されました。また、リソースタグが改善され、アプリケーションやカスタムタグで柔軟にリソースをグループ化できます。オンボーディングガイドと今後のABACにより、ユーザビリティが向上します。

  • ホームページは可観測性、評価、プロンプトエンジニアリングの3セクションに分割。
  • リソースタグは「アプリケーション」またはカスタムタグで柔軟なグループ化が可能。
サイト内本文

エージェント改善ループにおける人間の判断

AIエージェントは、チームが長年培ってきた知識と判断を反映するときに最も効果的に機能します。この記事では、トレーダー向けコパイロットの例を用いて、ワークフロー設計、ツール設計、コンテキストエンジニアリングに人間の判断を組み込む方法を解説し、自動評価とモニタリングによる改善ループを紹介します。

  • エージェントには専門家の暗黙知が必要
  • ワークフロー、ツール、コンテキストの設計に人間の判断を組み込む
サイト内本文

Deep Agentsのコンテキスト管理

Deep Agents SDKは、オフロード、要約、ファイルシステム抽象化を通じて、長時間実行されるAIタスクのコンテキストを管理し、コンテキスト腐敗を防ぎます。本記事では、3つの圧縮技術(大規模ツール結果のオフロード、大規模ツール入力のオフロード、要約)の仕組みと実践ガイドを紹介します。

  • Deep Agents SDKは、LLMのメモリ制限に対処するため、コンテキスト圧縮技術(オフロードと要約)を採用。
  • 3つの圧縮技術は異なる閾値でトリガー:大規模結果のオフロード(20Kトークン超)、大規模入力のオフロード(85%超)、要約(85%超でオフロード不可)。
サイト内本文

Databricks 上でエンタープライズアプリのためのガバンド・バイブ・コーディングを実現

Databricks は Data + AI Summit 2026 で、App Spaces、Genie App Builder、Serverless Micro Apps の3つの新機能を発表しました。これらは、ガバナンスを維持しつつ、迅速でアクセスしやすいバイブ・コーディングをエンタープライズに導入することを目的としています。

  • App Spaces はアプリグループのガバナンス境界を提供し、セキュリティポリシーを自動継承します。
  • Genie App Builder は Databricks のデータコンテキストと Unity Catalog のセマンティクスを活用し、自然言語やスクリーンショットからアプリを構築します。
サイト内本文

Show HN:Ito – コードレビューを自動実行するQAツール

Itoは、プルリクエストごとにコードを実際に実行し、動作回帰を検出する自動QAプラットフォームです。スクリプト不要で、GitHubと連携し、あらゆるスタックに対応。PR内に動画やスクリーンショットを含む詳細なQAレポートを提供します。

  • Itoはスクリプト不要で、実行ベースのQAにより動作回帰をキャッチ。
  • 5分でセットアップでき、React、Vue、Railsなど様々なフレームワークに対応。
サイト内本文

OpenSharingのご紹介:エージェント時代に向けたDelta Sharingの次なる進化

Databricksは、Delta Sharingの次なる進化であり、エージェント時代に向けた業界初のオープンプロトコルであるOpenSharingを発表しました。データ共有をAIスタック全体(モデル、エージェント)に拡張し、Linux Foundationのもとで独立したオープンソースプロジェクトとして提供されます。OpenSharingは、あらゆるクラウド、ベンダー、フォーマット間での共有を可能にし、組織を超えたデータコラボレーションの課題を解決します。主な機能として、ガバナンスされたAIエクスペリエンスを共有するGenie Agent Sharing、クロスクラウドネットワークを簡素化するSecureConnect、自動レプリケーションでエグレスコストを削減するGlobal Distribution、オンプレミスストレージをサポートするStorage Ecosystemなどがあります。また、Apache Iceberg REST Catalog APIとの互換性を追加し、相互運用性を高めています。

  • OpenSharingはDelta Sharingの進化版であり、共有範囲をAIスタック全体(モデル、エージェント)に拡大します。
  • Linux Foundationのもとで独立したオープンソースプロジェクトとなり、Delta Lake、Apache Iceberg、Parquetなどのフォーマットをサポートします。
サイト内本文

コード開発におけるAIエージェントの系統と状態を追跡する論理的な方法

本記事では、エージェンティックソフトウェア開発において、AIエージェントの決定履歴、構成、生成コードの系統を体系的に追跡する方法を探ります。著者は、可観測性とスケーラビリティのために「エージェントウェアハウス」を構築することを提案し、エージェントデータの保存におけるGitの限界について議論します。

  • エージェント開発では、コミットSHA、エージェントバージョン、セッションログなどのメタデータを追跡する必要がある。
  • コードからデプロイメントまでの系統追跡により、エージェントの動作が最終システムに与える影響を理解できる。
サイト内本文

Databricks Marketplace でのアプリ提供開始

Databricks は Databricks Marketplace でのアプリのパブリックプレビューを発表しました。これにより、お客様はサードパーティのデータおよび AI アプリケーションを、セキュアな Databricks ワークスペース内でネイティブに検出、インストール、実行でき、データを移動する必要はありません。

  • Databricks Marketplace のアプリにより、お客様は Databricks ワークスペース内で直接サードパーティのデータおよび AI アプリケーションを検出、インストール、実行できます。
  • アプリは Unity Catalog 内のセキュアな分離されたサンドボックスで実行され、既存のガバナンス制御を継承します。
サイト内本文

2026年にNvidia eGPUをMacで使用してローカルAIを実行する方法

AppleはTiny CorpのTinyGPUドライバを承認し、Apple Silicon MacでNvidiaおよびAMDのeGPUを計算ワークロードに使用できるようになりました。このガイドでは、CUDAベースのローカルAIを実行するためのハードウェア推奨、セットアップ手順、パフォーマンスベンチマークを紹介します。

  • AppleがTinyGPUドライバを署名・公証し、MacでのNvidia/AMD eGPUサポートを実現。
  • おすすめeGPUはRTX 4090(大多数のユーザー向け)、70Bモデル用にRTX 5090。
サイト内本文

OpenSharing SecureConnect のご紹介

OpenSharing SecureConnect は、Databricks 管理のプロキシを使用して、組織間のデータ共有におけるネットワーク設定を簡素化します。プロバイダーは一度設定するだけで、受信者ごとのネットワーク構成が不要になります。オプションで NCC によるプライベートリンク接続も可能で、データはプロバイダーのストレージに残ります。現在パブリックプレビュー中です。

  • SecureConnect は、受信者に代わってストレージアクセスをルーティングする Databricks 管理のプロキシです。
  • プロバイダーは一度設定すれば、受信者ごとのファイアウォール変更は不要です。
サイト内本文

ループ工学の芸術

信頼性の高いAIエージェントを構築するには、単に優れたモデルを使うだけでなく、ループを慎重に設計することが重要です。この記事では、エージェントループ、検証ループ、イベント駆動ループ、山登りループという4つのネストされたループを紹介し、LangChainプリミティブを使って各レベルを実装する方法を示します。エージェントをエコシステムに組み込み、継続的に改善することで、模倣困難な競争優位を構築できます。

  • エージェントループ:モデルがツールを繰り返し呼び出してタスクを完了する基本ループ。
  • 検証ループ:出力を評価しフィードバックすることで品質を保証する。
サイト内本文

20年の企業向けAI営業経験をClaudeスキルとしてパッケージ化

Forward Deployed Selling(FDS)は、AI時代の企業向け営業手法をオープンソースのClaudeスキルとして提供するものです。20年にわたる営業経験から洗練されたプレイブックで、3~10倍のサイクル短縮を目指します。

  • FDSは、AWSなどでの20年の企業営業経験に基づくAI時代の営業手法です。
  • Claudeスキルとして60秒でインストール可能で、AI支援営業のための完全なプレイブックが含まれます。
サイト内本文

ポケモンカードゲーム AIバトルチャレンジ

ポケモンカードゲームAIバトルチャレンジは、AIがポケモンカードの複雑な戦略に挑む大会です。シミュレーション部門とストラテジー部門があり、上位チームは2026年末の決勝戦に進出します。賞金総額は優勝5万ドルなど。

  • シミュレーション部門ではKaggle上でAIエージェントが自動対戦し、リアルタイムで順位が決定。提出期間は2026年6月16日~8月17日。
  • ストラテジー部門ではAIの戦略レポートを提出。安定性、デッキコンセプト、シミュレーション部門の成績で評価。締切は2026年9月14日。
サイト内本文

HPE AI Factory with NVIDIA、エージェントの時代に向けて拡大

企業はエージェンティックAIを概念実証から本番へと移行しており、次世代のAIファクトリーはエージェントの時代に向けて構築されています。HPE Discover Las Vegasで、NVIDIAとHPEはHPE AI Factory with NVIDIAを拡大し、NVIDIA Vera CPUやNVIDIA Agent Toolkit for HPE Private Cloud AIを発表しました。Vera CPUはエージェント向けに設計され、決定論的な低レイテンシ性能を提供します。NVIDIA機密コンピューティングはHPE AI Factory全体に拡張され、フルスタックのNVIDIA統合がポートフォリオ全体で利用可能になりました。

  • NVIDIA Vera CPUは2027年にHPE Private Cloud AIで提供予定で、エージェントワークロード向けに最適化。
  • NVIDIA Agent ToolkitがHPE Private Cloud AIで利用可能に、エージェンティックAIオペレーティングシステムを提供。
サイト内本文
チップ

Amazon SageMaker AI で P-EAGLE を使用した投機的復号の並列化

この記事では、Amazon SageMaker AI 内で P-EAGLE を直接使用する方法を説明します。SageMaker JumpStart カタログから互換性のあるモデルを選択し、並列ドラフト仕様を構成し、高度に最適化されたリアルタイム SageMaker AI エンドポイントをデプロイして生成 AI アプリケーションを高速化する方法を示します。

  • P-EAGLE は、すべてのドラフトトークンを単一のフォワードパスで並列に予測し、逐次的なドラフトフェーズを排除します。
  • EAGLE-3 と比較して最大 1.69 倍のスループット向上。
サイト内本文

Appleの2027年噂:AI用カメラ搭載AirPodsと第2弾折りたたみiPhone

ブルームバーグのマーク・ガーマン記者が、AI視覚コンテキストのためのカメラ付きAirPods、第2世代折りたたみiPhone、およびエッジツーエッジ曲面ディスプレイを備えた20周年記念iPhoneなど、2027年後半に発売が予想される新ハードウェアの詳細を報じた。

  • カメラ搭載AirPodsは2027年後半に発売予定で、iOS 28でテスト中。
  • ステムにカメラとインジケーターライトを搭載し、Siriに視覚的コンテキストを提供。
サイト内本文

クアルコムの最新チップが示す、より強力なスマートグラスの登場

クアルコムは、次世代XRデバイス向けのSnapdragon Reality Eliteチップを発表。GPUが60%、CPUが30%、NPUが最大160%向上し、冷却性能とバッテリー持続時間も改善。このチップは既にAuraグラスに搭載されており、より高性能で軽量なAIスマートグラスの実現を示唆している。

  • クアルコムがXR向けSnapdragon Reality Eliteチップを発表、全体的に性能向上。
  • GPU60%、CPU30%、NPU最大160%の性能向上。
サイト内本文

サプライチェーン資本主義、プラットフォーム重商主義、AIクーデター:依存の政治経済学

本稿は、資本主義における異なる搾取戦略がいかにして権力の集中をもたらし、民主主義を脅かしているかを分析する。サプライチェーン資本主義、プラットフォーム重商主義、AIクーデターの3つの事例を通じて、依存の政治経済学を提唱する。

  • サプライチェーン資本主義(1980年代以降)は、生産を海外に委託し、グローバルなネットワークを形成した。
  • プラットフォーム重商主義(2010年代)は、デジタルプラットフォームがデータを収奪し、巨大な影響力を持つ。