Agent AI ニュース

Agentの最新ニュース

ArgoCD AIアシスタント

2026-07-13 08:00 UTC+9

Argo CD UI拡張機能で、リソースビューにAIアシスタントタブを追加します。ユーザーは自然言語でKubernetesリソースをクエリでき、マニフェスト、イベント、オプションのログを含むコンテキストが付加されます。OpenAI互換のバックエンドと連携可能で、Argo CD v2.13+が必要です。

Argo CD UI拡張として、Kubernetesリソースの自然言語クエリを提供。
ライブリソースマニフェスト、イベント、オプションのコンテナログでクエリを強化。

Grok 4.6とGPT5.6、PRのセキュリティ脆弱性発見でAnthropicを凌駕

2026-07-13 07:57 UTC+9

最新のベンチマーク結果によると、GPT-5.6 SolがPRセキュリティレビューで最高パフォーマンスを示し、100%の再現率と0.91のF1スコアを達成、1PRあたりのコストはわずか0.70ドル。Anthropicのモデル（Fable 5など）はフロンティアに到達できず、コストも高い。Grok 4.5とGemini 3.1 Flash Liteはコスト効率の良い選択肢を提供する。テストではデータ汚染を防ぐため非公開の合成リポジトリを使用。

GPT-5.6 SolがF1 0.91、再現率100%を達成し、コストは1PRあたり0.70ドル。
Anthropicモデルはフロンティアに達せず、Fable 5は性能が低くコストは約3.61ドル/PR。

Show HN：エージェントとチームのための協調的コンテキスト共有メモリプラットフォーム

2026-07-13 07:28 UTC+9

xysq.aiは、AIネイティブチームと企業向けの協調メモリプラットフォームです。さまざまなAIツールやアプリを接続し、チームのワークフローからコンテキストをキャプチャして動的な知識グラフを構築し、エージェントが必要なときに適切なコンテキストを提供します。チームの隔離されたボールト、ロールベースのアクセス、ドキュメント整理、ユーザーデータをトレーニングに使用しないプライバシーポリシーを特徴としています。

xysq.aiは、Slack、Gmail、GitHubなどのツールと統合し、AIエージェントとチームの共有メモリ層を提供。
エピソード記憶、手続き記憶、意味記憶の3種類をチームの相互作用からキャプチャ。

Adaptive Recall：MCPを介したAIアシスタントのための永続メモリ

2026-07-13 06:08 UTC+9

Adaptive Recallは、認知科学と機械学習を活用し、複数の検索戦略、認知スコアリング、知識グラフ、自己改善メカニズムによって、インタラクションから学習するAIアシスタント向けのメモリシステムです。

4つの並列検索戦略：ベクトル類似性、時間的近接性、全文キーワード、知識グラフ探索
ACT-R認知スコアリング：アクセス頻度、接続、信頼度に基づくインテリジェントなランク付け

人間心理に基づいてペニー株を空売りするAI

2026-07-13 06:03 UTC+9

Fade Engineは完全自律型のAIで、過度に上昇した小型株を空売りし、1万ドルの模擬口座でリアルタイムに取引し、すべての取引を公開します。市場時間中は5分ごとにスキャンし、18のパターンを識別し、終了時間までに全ポジションをクローズします。

Fade Engineは18の定義済みパターンを使用して小型株の急騰を空売りする自律型AI
リアルタイムの模擬1万ドル口座で取引し、すべての取引を公開

AI支援研究のためのSETIホーム

2026-07-13 05:45 UTC+9

この記事は、ユーザーの未使用AI推論トークンを科学研究にクラウドソーシングするアイデアを探求し、SETI@homeプロジェクトと類似点を挙げる。また、小規模チームによる数学問題の解決成功例や、設計上の課題について論じる。

SETI@homeは家庭用PCの遊休計算能力を地球外信号解析に活用した。
現在、AIユーザーは未使用のトークン枠を共同研究に寄付できる。

ループエンジニアリングガイド：「自動研究」と「二段階自動研究」がAIエージェントを自律型機械学習研究ループに変える方法

2026-07-13 05:07 UTC+9

本記事では、AIエージェントが検証器、状態、停止条件を用いて目標に向かって自律的に反復するループエンジニアリングを解説します。アンドレイ・カーパシーの自動研究ループと二段階自動研究を詳述し、具体的な成果を示します：自動研究は700回の実験から20の改善を見つけ、GPT-2学習時間を11%短縮。二段階自動研究は外側のメタループを追加し、val_bpbで5倍の改善を達成。さらに、再利用可能な構成要素と実践的なテンプレートも提供します。

ループエンジニアリングは手動プロンプトを自律ループに置き換え、検証器、状態、停止条件を含む。
カーパシーの自動研究は一晩で700回の実験を実行し、20の改善とGPT-2学習の11%高速化を達成。

AIの記憶。あなたのマシン上で、あなたのコントロールのもとに。

2026-07-13 04:44 UTC+9

exxperts はローカルファーストのエージェントランタイムで、管理・承認ゲート付きの永続的なAIルームを提供します。すべてがローカルで実行され、データはディスク上のファイルとして保存され、プライバシーと制御を確保します。WebアプリとCLI/TUIの両方を提供します。

exxperts は承認ゲート付きの永続的なAIルームを提供し、ユーザーがAIの記憶を完全に制御できます。
すべてのデータはローカルに保存され、~/.exxperts ディレクトリにプレーンファイルとして格納されます。

Kote：AIチャットとGitからエンジニアリングコンテキストをキャプチャして再利用するオープンソースツール

2026-07-13 03:56 UTC+9

Koteは、開発者のAIアシスタントとの会話、Gitコミット、開発コンテキストを自動的にキャプチャし、検索可能なナレッジベースを構築するオープンソースツールです。過去の技術的な決定や解決策を素早く思い出すのに役立ちます。VS Code拡張、GitHub統合、CLI、ブラウザ拡張、WhatsApp/Telegramメッセージ統合に対応し、セルフホストも可能です。

KoteはAIセッションやGitアクティビティなどのコンテキストを受動的にキャプチャし、知識ベースに整理します。
VS CodeのCodeLensでファイル関連のノートを表示し、AIによる要約とタイムラインを提供。

ワンステップの罠（AI研究における）

2026-07-13 03:41 UTC+9

AI研究におけるワンステップの罠とは、学習した予測のほとんどまたはすべてを1ステップ予測とし、長期予測はそれを反復することで生成できると誤って考える一般的な誤りです。この考え方は魅力的ですが、誤差の蓄積と計算の複雑さの問題により、実際には効果が乏しいことが多いです。本稿ではこの罠とその危険性を分析し、オプションやGVFを用いた時間的抽象化モデルによる解決策を提案しています。

1ステップ予測の誤差が反復によって蓄積し、長期予測が大きく歪む。
確率的環境では、長期予測の計算量が予測長に対して指数関数的に増大し、非現実的となる。

有用性への反対

2026-07-13 02:47 UTC+9

本稿は、「無用な」研究が将来のイノベーションに不可欠であることを論じる。Folk Computerシステムを例に、Xerox PARCからDynamiclandに至る系譜を辿り、まだ有用性が明確でない段階でのパラダイム研究への資金提供を呼びかけている。

Folk Computerは、部屋全体をコンピュータにするオープンソースの物理コンピューティングシステム。
システムの系譜はAlan Kay、Bret Victor、CDG、Dynamiclandに遡る。

GPT-5.6、Fable 5、Grok 4.5が同一仕様からBasecampを再構築

2026-07-13 02:02 UTC+9

著者はBasecamp Benchベンチマークを用いて、GPT-5.6 Sol、Fable 5、Grok 4.5などのAIモデルがフロントエンドとバックエンドを構築する能力を評価しました。Fable 5が両トラックで勝利し、Grok 4.5は速度とコストのバランスに優れていました。結果は、特に最後の10%の仕上げにおいて、モデル間で完成度に大きな差があることを示しています。

Fable 5はフロントエンドとバックエンドの両方で最高スコアを獲得し、実際のBasecamp実装に近い。
Grok 4.5は37分、9.30ドルで構築を完了し、速度とコストのトレードオフが最良。

OpenAIのAIがAtCoderで全人類に勝利

2026-07-13 01:54 UTC+9

OpenAIのAIシステムがAtCoder World Tour Finals 2026のアルゴリズム部門で全5問を解き、8300点を獲得。人間の最高点は4300点で、C問題とE問題を解けた者はいなかった。ヒューリスティック部門ではAIのスコアが人間最高の7倍以上に達した。60万円の「人間優勝賞」は誰も獲得できず。このシステムはGPT-5.6に匹敵するとされる。

OpenAIのAIが全5問を解き8300点、人間最高は4300点
C問題とE問題は人間には解けず

AIフォトエディター：テキストプロンプトでプロ級の画像編集

2026-07-13 00:56 UTC+9

AI Photo Editorは、Nano BananaとGPT Image 2モデルを搭載した無料オンラインツールで、簡単なテキストプロンプトでプロ級の画像編集を実現します。95%の初回成功率、1秒未満の生成速度、顔再構築技術、キャラクターの一貫性などの特徴があります。基本からプロまで様々なサブスクリプションプランを提供し、商用ライセンスとエンタープライズ級セキュリティ（SOC 2、GDPR、ISO 27001）を備えています。クレジットカード不要で開始できます。

自然言語プロンプトで画像編集、95%の初回成功率。
1秒未満で画像生成、従来のAIモデルより10倍高速。

Itara: 分散システムトポロジを明示的で実行可能なレイヤーとして

2026-07-12 23:58 UTC+9

Itaraは、分散システムのトポロジ（コンポーネント、接続、トランスポート、障害処理）をコードから分離し、独立した明示的で検証可能かつ実行可能なレイヤーとして扱うオープンソースプロジェクトです。起動時に読み込まれる設定ファイルと言語固有のワイヤリングエージェントにより、コード変更なしで設定ファイルの変更だけでコンポーネント間の通信方法を変更できます。JavaとRustのリファレンス実装を提供し、さらなる言語を計画中。ツールエコシステムは検証や可視化を提供します。

Itaraはトポロジを明示化し、単一の設定ファイルでコンポーネント、接続、トランスポートを宣言します。
ワイヤリングエージェントが起動時に設定を解析して接続を確立し、アプリケーションはオーバーヘッドなしで実行されます。

Linux of AI：AIベンダーロックインを低減するオープンソースツール

2026-07-12 23:52 UTC+9

Linux of AIは、ポータブルなオントロジー、ポリシーコード、モデル交換ベンチマーク、監査ログ、コスト測定などにより、AIベンダーロックインを低減するための7つのプロジェクトからなるオープンソースエコシステムです。AIインフラを検査可能、管理可能、測定可能、交換可能にすることを目指しています。すべてのコアソフトウェアはMITライセンスの下で無料のオープンソースです。

AIベンダーロックインを低減する7つのプロジェクトからなるオープンソースエコシステム。
ポータブルなオントロジー、ガバナンスポリシー、モデル交換、監査ログ、コスト測定を提供。

完璧に間違ったターゲットを撃つ：AIコードレビューベンチマークの物語

2026-07-12 23:40 UTC+9

本記事はAIコードレビューベンチマークの限界を深く分析し、問題を第一原理から定義できず、AIコードレビューが人間の理解と機械の検証という二つの異なる問題に分化していることを見落としていると指摘する。著者のShrijith Venkatramanaは、ベンチマークがソフトウェアの実際の成果ではなく代理指標を測定しており、生産成果と重大性の重要性を強調する。

AIコードレビューベンチマークは客観的に見えるが、問題の本質的な定義が欠けている。
AIコードレビューには実際には二つの異なる問題がある：人間の理解（優先順位付け）と機械の検証（自動修復）。

Show HN: エージェント可読性分析ツール - AIショッピングエージェントがストアを読み取れるか確認

2026-07-12 23:30 UTC+9

AgentMint.netは、AIショッピングエージェントがどのように商品を選択するかを理解し最適化するための研究出版物です。すべての事実主張には証拠の出典がラベル付けされており、'エージェントショッピング対応チェック'や'エージェント選択シグナルデータベース'などのツールを提供しています。

AgentMint.netはAIショッピングエージェントが特定のストアや商品を選ぶ理由を分析します。
すべての事実主張は証拠の出典とともに表示されます。

印象的なAIデモは終わった：実際に本番に達するもの

2026-07-12 21:19 UTC+9

AIプロジェクトはデモ段階後によく停滞する。Confluentの2026年データストリーミングレポートによると、エージェンティックAIを本番稼働している組織はわずか32%で、データインフラとスキル不足が主な障壁となっている。リアルタイムデータパイプラインとガバナンスが本番AIには不可欠。

エージェンティックAIを本番稼働している組織はわずか32%。
データインフラと品質がAI成功の主な障壁。

メモリーメーカーは好況と不況のジェットコースターの奴隷

2026-07-12 20:09 UTC+9

AIデータセンター需要でメモリーメーカーの収益は急増したが、新工場の建設が遅れており、少なくとも2028年まで高価格が続く見込み。AI需要が鈍化すれば深刻な不況リスクがある。

SKハイニックスとマイクロンの収益が3倍、サムスンは約2倍に
HBMやDDR5の不足が電子機器全体の価格を押し上げ

The Sequence Radar #893：先週のAI：GPT-5.6、Grok 4.5、Muse Spark 1.1、そしてポストチャットボットスタック

2026-07-12 20:02 UTC+9

最先端のAIラボはチャットボットから統合システムへと移行しており、モデルがランタイムとして機能し、ほぼ毎月のように強力なモデルとエージェントがリリースされています。今週のハイライトは、OpenAIのGPT-5.6（プログラムによるツール呼び出し）、GPT-Live（全二重音声）、ChatGPT Work（成果物作成）、MetaのMuse Spark 1.1（アクティブコンテキスト管理）、Grok 4.5（コーディングと知識作業）です。研究アップデートでは、コーディングベンチマークの問題、選択的アンラーニング、エージェント自己進化、投機的デコード、交通ルーティングが取り上げられています。業界ニュースでは、Lovable、Prime Intellect、SambaNova、Norm Ai、Ollamaの大型資金調達が注目されます。

OpenAIがGPT-5.6（Sol、Terra、Luna）をリリース。プログラムによるツール呼び出しと並列サブエージェントを搭載。
GPT-Liveは全二重音声対話を実現し、ターン制から連続的な対話へと移行。

科学者の副業？AIと量子コンピューティングで新規ペプチドを生成

2026-07-12 20:00 UTC+9

デンマーク工科大学の研究チームは、生成AIモデルと量子コンピュータを組み合わせて、特定のタンパク質に結合する新規ペプチドを設計し、ワクチン開発や個別化免疫療法の加速に貢献する可能性を示した。

DTUチームはAIと量子のハイブリッドシステムで新規ペプチドを生成。
量子統合により、特にデータが少ない場合にペプチド生成が改善。

AIエージェントが決済オペレーションを変えようとしている

2026-07-12 19:59 UTC+9

本記事では、AIエージェントがタスクの自動化、効率向上、エラー削減によって決済オペレーションを変革する方法について議論し、関連するSpotifyのポッドキャストエピソードを紹介します。

AIエージェントが決済オペレーション分野に参入
自動化により効率と精度が向上

Show HN: Runeward — ポリシーゲートでAIエージェントをサンドボックス化

2026-07-12 18:35 UTC+9

Runewardは、宣言的なプロファイルを用いてAIエージェントに管理された実行セル（DockerまたはKubernetes上）を提供するオープンソースツールです。デフォルト拒否のエグレス、改ざん防止監査台帳、人間参加型ポリシーゲート、コスト/ループガードレールを備え、REST、MCP、CLI、Webダッシュボードから操作可能です。通常のサンドボックスに加え、ポリシー適用、監査証跡、コスト制御などのガバナンス層を追加します。

RunewardはAIエージェント用の隔離サンドボックスを提供し、デフォルトでネットワーク出力を拒否して潜在的な損害を制限します。
ガバナンス層には、改ざん防止のハッシュチェーン署名監査台帳と人間承認ゲートが含まれます。

Attestor：AIエージェントのためのゼロトラスト実行境界

2026-07-12 16:54 UTC+9

Attestorは、AIエージェントの操作に対するゼロトラスト実行境界を提供するオープンソースプロジェクトです。エージェントの実行前にポリシーチェック、承認検証、証拠レビューを実施し、許可、制限、レビュー、またはブロックの決定を行い、顧客所有のゲートウェイを通じて強制します。支払い、データアクセス、インフラ変更などのシナリオに適しています。

AIエージェント実行前にポリシー、承認、証拠をチェックし、構造化された決定を返します。
シャドウパイロットモードで実際の実行なしにリスクを観察可能。

Agent サービス – プロンプト可能なAIエージェント、ガードレールとダウンロード可能なパッケージ

2026-07-12 16:17 UTC+9

プロンプト可能なAIエージェントサービスで、安全ガードレールとダウンロード可能なパッケージを提供します。

プロンプト可能なAIエージェント
ガードレール搭載

AIは独自の研究世界モデルを構築すべき

2026-07-12 16:11 UTC+9

本記事は、未知のARC-AGIパズル環境に置かれたAIエージェントが、命名、抽象化、数学的推論を通じて明示的な世界モデルを構築し、問題解決効率を劇的に向上させる実験について述べています。

AIは未知環境で自律的に物体を命名しルールを記録し、明示的な世界モデルを構築。
操作PとQを発見・抽象化し、数学的表記を用いてオフライン推論を実行。

MSK – CTOのように考えるAIエージェント

2026-07-12 15:27 UTC+9

MSKはiPhone向けのAI CTOエージェントアプリで、アーキテクチャレビュー、スケーリングアドバイス、スタートアップ戦略をチャットまたは音声で提供します。15年以上の経験、300以上のプロジェクト、50以上のスタートアップを支援したMoeid Saleem Khanの経験に基づいており、的確で意見のある回答を提供します。無料で始められ、アカウントは不要。プレミアムサブスクリプションも用意されています。

オンデマンドで技術的・戦略的アドバイスを提供するAI CTOエージェント。
実際のCTO経験をシミュレートし、チャットと音声に対応。

AIメモツールは簡単な会議まとめを約束するが、その利用には疑問も

2026-07-12 10:41 UTC+9

AIメモツールは会議の要点を素早くまとめるが、プライバシーとセキュリティのリスクが懸念される。ボイスプリント、データ保存、弁護士-クライアント秘匿特権の問題が浮き彫りになり、専門家は注意とデータ取り扱いの理解を勧めている。

AIメモツールは会議の発言をデータ化し、機密情報漏洩のリスクがある。
ボイスプリントは本人確認や詐欺に悪用される可能性がある。

Dismissive DanによるOverplane AIコード生成ハーネスのレビュー

2026-07-12 10:02 UTC+9

Overplaneは、Markdown仕様をAIエージェントとSMT検証を使用してコードに変換するオープンソースツールです。レビュアーのDismissive Danは、多くの開発者が既に同様のセットアップを持っているとして、その必要性に疑問を呈しつつも、パッケージングと分離設計を認めています。

OverplaneはMarkdown仕様をコードに変換し、Z3ソルバーで一貫性をチェックする。
レビューは建設的だが懐疑的で、多くの開発者が既に同様のワークフローを持っている。

NVIDIAのタイルベースGPUプログラミングコーディングガイド：cuTileおよびTritonカーネルからFlash Attentionまで

2026-07-12 09:01 UTC+9

このチュートリアルでは、TileGymを使用してNVIDIAのタイルベースGPUプログラミングを探求し、異なるハードウェアで動作するColabワークフローを構築します。CUDA環境を調査し、実際のcuTileバックエンドを試し、標準のColab GPUにcuTileスタックがない場合はTritonにフォールバックします。コアとなるタイルの考え方を学びます：単一スレッドではなくデータタイル全体を操作し、ロード、計算、ストアを行います。ベクトル加算、融合GELU、行方向ソフトマックス、タイル化行列乗算、フラッシュアテンションを実装し、それぞれをPyTorchと比較します。

NVIDIAのタイルプログラミングモデルを紹介し、個々のスレッドではなくデータブロックを操作します。
cuTileとTritonの両方のバックエンドで動作する実行可能なColabスクリプトを提供します。

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

2026-07-12 07:54 UTC+9

Mac Studio上でQwen3.5-122Bを実行する際、3つのバグが原因でキャッシュが無効になり、長文コンテキストでの応答が数分待たされる問題が発生していた。これらのバグを修正した結果、プリフィル時間が88秒から0.64秒に短縮され、会話の流れを妨げなくなった。

Qwen3.5-122BモデルはMac Studioでハイブリッドアテンションによりプレフィックスキャッシュが頻繁にミスしていた。
3つのバグ：システムプロンプトのタイムスタンプ、中断時の応答未保存、チェックポイントストアのゴミ書き込み。

Show HN: AgentTransfer – AIエージェント向けのオープンソースファイル転送（Goバイナリ1つ）

2026-07-12 07:52 UTC+9

AgentTransferは、AIエージェント向けのオープンソースファイル転送ツールで、最大5GBのファイル転送、ピアの発見、空間での調整を可能にします。メールを制御プレーン、HTTPSをデータプレーンとして使用し、エージェントのオンボーディングに人間は不要です。単一のGoバイナリで、セルフホストまたはホストされたインスタンスで使用できます。

AgentTransferは、名前とAPIキーのみでAIエージェントが最大5GBのファイルを転送できるようにします。
機能には、自己オンボーディング、コンテンツアドレスストレージ、ハッシュ検証、署名付きレシートが含まれます。

Mesh LLM: iroh上での分散AIコンピューティング

2026-07-12 07:38 UTC+9

Mesh LLMは、irohネットワークを介して複数のマシンのGPUとメモリをプールし、OpenAI互換のAPIを提供する新しい分散型AIコンピューティングシステムです。ローカルまたはピアノード上でモデルを実行したり、大規模モデルを複数のマシンに分割して実行できます。AIコンピューティングのコスト高と制御不足の問題を解決し、中央サーバーに依存せずにプライベートデプロイや公開グリッドをサポートします。

Mesh LLMは複数のマシンのGPUリソースをプールし、統一されたOpenAI互換APIを提供
ローカル実行、ピアへのルーティング、または複数マシンへのモデル分割をサポート

AIと求人情報：破壊から創造へ？

2026-07-12 07:37 UTC+9

2025年2月末のClaude Code公開以来、米国のソフトウェア開発の求人は約15%増加し、全求人は7%減少した。AIに大きくさらされる職業は2022年から2026年にかけて最大の減少を見せたが、過去1年で最も大きく回復した。回復はシニア職とAI関連職に集中している。

Claude Code公開以来、ソフトウェア開発求人は15%増加、全体は7%減少。
AI暴露度の高い職業は長期的に減少した後、過去1年で最大の回復。

Token Time：AIエージェントのトークン使用量を監視する「スクリーンタイム」風ツール

2026-07-12 07:13 UTC+9

Token Time は macOS のメニューバーで AI エージェントのトークン消費とコストをリアルタイム表示し、設定した閾値に達すると全画面通知で休憩を促すアプリです。ローカルで動作し、プライバシーに配慮されています。

メニューバーにトークン数と今日の支出を表示
100万トークンごとに全画面リマインダー

Anthropic、Claude Codeから秘密のステガノグラフィコードを削除—中国の競合他社を監視

2026-07-12 06:27 UTC+9

Anthropicは、Claude Codeに数ヶ月にわたり隠されていたステガノグラフィコードを削除すると発表した。このコードは、中国のAIラボや不正な再販業者を検出し、モデル蒸留を防ぐための実験だった。同社は現在、より強力な対策を導入しており、7月1日にコードを削除すると述べている。しかし、透明性の欠如が批判を招いている。

AnthropicはClaude Codeにステガノグラフィを埋め込み、中国のAIラボや再販業者を秘密裏に識別していた。
この実験は3月から7月1日まで実施され、コードは削除された。

Show HN: BoundFlow – AIエージェント向けオープンソースコントロールプレーン

2026-07-12 06:07 UTC+9

BoundFlow は、無人実行の LLM エージェントとワークフローを管理するためのオープンソースコントロールプレーンです。コスト上限、承認ゲート、自動モデル切り替え、リトライ、ロールバックなどを提供し、エージェントの安全で信頼性の高い動作を保証します。

推論やプロンプトフレームワークではなく、エージェントの運用層に特化したオープンソース。
コスト上限、人間による承認、自動モデルダウングレード、ワークフローの自己修復をサポート。

TradingSpyを構築：ローカル、プライバシー重視のAIトレーディングアシスタント（初のオープンソース）

2026-07-12 05:45 UTC+9

TradingSpy は、オープンソースのローカルAIトレーディング研究ワークステーションで、マーケットヒートマップ、ニュースカタリスト、戦略生成、Backtraderバックテスト、透明なエージェント実行を1つのDockerアプリに統合しています。ローカルファーストアーキテクチャにより、すべてのデータはローカルに保存され、プライバシー問題がなく、複数のLLMプロバイダーと幅広い金融データソースをサポートしています。トレーダーや開発者が戦略研究、バックテスト、シグナル分析に使用できます。

ローカルファーストアーキテクチャで、データはすべてローカルに保存され、プライバシーの懸念ゼロ。
AI戦略生成、自動バックテスト、ベンチマーク比較、ループエンジニアリングによる自動反復。

AIエージェントの出力を評価する無料ツールを構築しました（人間のラベルとLLM審査員）

2026-07-12 04:55 UTC+9

Verdictは、AIエージェントの出力を評価するためのオープンソースのブラウザベースツールです。人間によるラベリング、グラウンデッド・セオリーによるエラー分析、LLM審査員の人間ラベルに対する検証を、データを外部に送信することなくローカルで実行できます。

Verdictはブラウザ上で完全に動作し、バックエンドやアカウントは不要。
複数のトレース形式をサポートし、クリーンなチャットタイムラインを提供。

Sovereign AgentOps – MCPエージェントのためのセルフホスト型憲法AIガバナンス

2026-07-12 04:52 UTC+9

Sovereign AgentOps Community Editionは、AIエージェント用のセルフホスト型MCPガバナンスサーバーであり、Ed25519署名付き監査証跡、ポリシー施行、オフライン展開を提供します。7つのデモツールを備え、EU AI Actに準拠しており、商用エンタープライズ版は91ツールと高度なコンプライアンス機能を備えています。

Sovereign AgentOpsは、暗号化監査証跡を備えたAIエージェント用のセルフホスト型MCPガバナンスサーバーです。
Community Editionはポリシー施行、レシート署名、ワークスペース隔離のための7つのツールを提供し、オフライン展開が可能です。

Show HN: Wizard – 自己拡張型のRustターミナルAIエージェント（ワンラインインストール）

2026-07-12 04:34 UTC+9

WizardはRustで構築された自己拡張型のターミナルAIエージェントで、1行のコマンドでインストールできます。ターミナル内でタスクをインテリジェントに実行し、開発者の生産性を向上させます。

Rustで構築された自己拡張型ターミナルAIエージェント
ワンラインインストール

Show HN：MCPサーバーの信頼指数

2026-07-12 03:57 UTC+9

MCPサーバーのセキュリティスコアリングシステムで、ツールポイズニング、プロンプトインジェクション、サプライチェーン、認証情報リスクを継続的にスキャンし、バージョンごとに1つのスコアを提供します。現在12,629台のサーバーがスコアリングされ、45%がA評価、リスクの高いD/Fは10%です。

12,600台以上のサーバーがスコアリングされ、45%がA評価
最高スコアのサーバーはmockservercom（100点）とmcp-file-tools（99点）

AI小説は「愚かで質が低い」ため検出が容易、研究で判明

2026-07-12 03:53 UTC+9

メリーランド大学とGoogle DeepMindの研究により、AIが生成した小説はテーマの過剰説明、サブプロットの欠如、不器用な道徳化などの物語上の欠陥により容易に検出できることが明らかになった。研究チームはStoryScope検出器を開発し、物語の特徴を分析して人間の作品と区別する。さまざまなAIモデルに固有の癖があることも判明した。使用されたBooks3データセットは著作権問題で物議を醸している。

AI小説はテーマを過剰に説明する傾向があり、77%のAIストーリーが教訓を明示するのに対し、人間は52%。
AIモデルごとに特徴的な欠陥：GPTは夢のシーンを多用、Geminiは外見描写に偏る、Claudeは平坦な展開。

物理AIスケールアップ化学スタートアップが大手製薬企業で注目を集める

2026-07-12 03:53 UTC+9

Telescope Innovationsは、自律運転ラボ（SDL）プラットフォームを通じて物理AIを活用し、製薬・化学業界の実験ボトルネックを解決。ファイザー、韓国製薬協会、欧州大手製薬企業との契約を獲得し、電池材料リサイクル分野にも展開。

SDLプラットフォームは24時間365日自律的に化学実験を実行し、効率を大幅に向上。
ファイザーからのリピート受注、KPBMAとのインフラ契約、欧州結晶化契約を2026年に獲得。

RAG評価フレームワーク比較：RAGAS vs TruLens vs DeepEval

2026-07-12 03:16 UTC+9

本記事では、RAGAS、TruLens、DeepEvalの3つの主要なRAG評価フレームワークを深く比較します。RAGに特化した評価が必要な理由、評価の3層（検索品質、生成品質、エンドツーエンド品質）、および主要な検索指標（Precision@K、Recall@K、MRR、NDCG）を解説します。その後、RAGAS（LLM判定役、正解データ不要、合成テストセット生成機能）とTruLens（可観測性、RAGトライアド、ダッシュボード）を詳述し、DeepEvalについても簡単に触れ、フレームワーク選択の指針を提供します。

RAGシステムは、BLEU/ROUGEでは検索と生成の失敗を捉えきれないため、専用の評価が必要です。
RAGASはLLMを判定役とし、正解データなしでスコアリングでき、ドキュメントからテストセットを自動生成します。

人間らしい未来を築く価値

2026-07-12 02:56 UTC+9

この記事は、人間の意志と判断を拡張するAIを提唱し、分散知識、カスタマイズ、分散型アライメントを強調して、AIが多様な人間のニーズに応えることを目指しています。

AIは人間の意志と判断を拡張すべきであり、置き換えるべきではない。
知識は暗黙的で局所的かつ分散的であり、AIは分散化されてその恩恵を受ける必要がある。

逆ケンタウロスがAIのパラドックスを解く

2026-07-12 02:23 UTC+9

コーリー・ドクトロウはAIのパラドックスを探求する：なぜ一部のユーザーはAIを愛し、他のユーザーは嫌うのか？彼は「ケンタウロス」（AIに支援される人間）と「逆ケンタウロス」（AIの責任吸収体として使われる人間）の概念を導入する。AIはバブルであり破裂するが、オープンソースモデル（Whisperなど）は生産的な残渣として残ると主張する。鍵はテクノロジーそのものではなく、誰がAIを制御するかにある。

人間がAIの使い方を選ぶとき、AIは力を与える（ケンタウロス）が、上司が押し付けるときは抑圧的になる（逆ケンタウロス）。
ハーストの夏の読書ガイドの失敗は、フリーランスライターがAIのミスの責任を負わされた逆ケンタウロスの典型例。

Show HN: スタンドアロン SearXNG CLI+MCP（サーバー不要）

2026-07-12 01:49 UTC+9

SearXNG AI Kit は、プライバシーを尊重するメタサーチエンジン SearXNG のための AI 強化型コマンドラインインターフェース、Python ライブラリ、MCP サーバーであり、180 以上の検索エンジンをサポートし、Linux と macOS 向けのスタンドアロンバイナリを提供します。

CLI、Python ライブラリ、MCP サーバーを提供し、180 以上の検索エンジンをサポート
AI チャットや高度なリサーチ機能、設定可能な出力形式を備える

Agentation – AIコーディングエージェント向けビジュアルUI注釈ツール

2026-07-12 01:16 UTC+9

Agentationは、AIコーディングエージェント向けのビジュアルUI注釈ツールです。ユーザーはUI要素をクリックして注釈を追加し、CSSセレクタ、ファイルパス、Reactコンポーネントツリー、計算スタイルなどの構造化情報を生成できます。MCP統合により、エージェントが注釈を確認して応答する双方向コミュニケーションが可能です。

UI要素をクリックして注釈を追加し、CSSセレクタやファイルパスなどの構造化情報を出力
MCP統合によりエージェントが注釈をリスト化・応答可能

Agent

関連タグ

Agentの最新ニュース

ArgoCD AIアシスタント

Grok 4.6とGPT5.6、PRのセキュリティ脆弱性発見でAnthropicを凌駕

Show HN：エージェントとチームのための協調的コンテキスト共有メモリプラットフォーム

Adaptive Recall：MCPを介したAIアシスタントのための永続メモリ

人間心理に基づいてペニー株を空売りするAI

AI支援研究のためのSETIホーム

ループエンジニアリングガイド：「自動研究」と「二段階自動研究」がAIエージェントを自律型機械学習研究ループに変える方法

AIの記憶。あなたのマシン上で、あなたのコントロールのもとに。

Kote：AIチャットとGitからエンジニアリングコンテキストをキャプチャして再利用するオープンソースツール

ワンステップの罠（AI研究における）

有用性への反対

GPT-5.6、Fable 5、Grok 4.5が同一仕様からBasecampを再構築

OpenAIのAIがAtCoderで全人類に勝利

AIフォトエディター：テキストプロンプトでプロ級の画像編集

Itara: 分散システムトポロジを明示的で実行可能なレイヤーとして

Linux of AI：AIベンダーロックインを低減するオープンソースツール

完璧に間違ったターゲットを撃つ：AIコードレビューベンチマークの物語

Show HN: エージェント可読性分析ツール - AIショッピングエージェントがストアを読み取れるか確認

印象的なAIデモは終わった：実際に本番に達するもの

メモリーメーカーは好況と不況のジェットコースターの奴隷

The Sequence Radar #893：先週のAI：GPT-5.6、Grok 4.5、Muse Spark 1.1、そしてポストチャットボットスタック

科学者の副業？AIと量子コンピューティングで新規ペプチドを生成

AIエージェントが決済オペレーションを変えようとしている

Show HN: Runeward — ポリシーゲートでAIエージェントをサンドボックス化

Attestor：AIエージェントのためのゼロトラスト実行境界

Agent サービス – プロンプト可能なAIエージェント、ガードレールとダウンロード可能なパッケージ

AIは独自の研究世界モデルを構築すべき

MSK – CTOのように考えるAIエージェント

AIメモツールは簡単な会議まとめを約束するが、その利用には疑問も

Dismissive DanによるOverplane AIコード生成ハーネスのレビュー

NVIDIAのタイルベースGPUプログラミングコーディングガイド：cuTileおよびTritonカーネルからFlash Attentionまで

3つのバグ修正によりQwen3.5-122BがMac Studioで日常的に使えるように

Show HN: AgentTransfer – AIエージェント向けのオープンソースファイル転送（Goバイナリ1つ）

Mesh LLM: iroh上での分散AIコンピューティング

AIと求人情報：破壊から創造へ？

Token Time：AIエージェントのトークン使用量を監視する「スクリーンタイム」風ツール

Anthropic、Claude Codeから秘密のステガノグラフィコードを削除—中国の競合他社を監視

Show HN: BoundFlow – AIエージェント向けオープンソースコントロールプレーン

TradingSpyを構築：ローカル、プライバシー重視のAIトレーディングアシスタント（初のオープンソース）

AIエージェントの出力を評価する無料ツールを構築しました（人間のラベルとLLM審査員）

Sovereign AgentOps – MCPエージェントのためのセルフホスト型憲法AIガバナンス

Show HN: Wizard – 自己拡張型のRustターミナルAIエージェント（ワンラインインストール）

Show HN：MCPサーバーの信頼指数

AI小説は「愚かで質が低い」ため検出が容易、研究で判明

物理AIスケールアップ化学スタートアップが大手製薬企業で注目を集める

RAG評価フレームワーク比較：RAGAS vs TruLens vs DeepEval

人間らしい未来を築く価値

逆ケンタウロスがAIのパラドックスを解く

Show HN: スタンドアロン SearXNG CLI+MCP（サーバー不要）

Agentation – AIコーディングエージェント向けビジュアルUI注釈ツール

トピック

モデル

Agent

チップ

政策

研究

スタートアップ

ロボット

ツール