AIにおけるスキルの理解:よりスマートなAIエージェントを構築するための完全ガイド
AIエージェントの真の力は、そのスキル(再利用可能なモジュール化された論理ブロック)にあります。この記事では、SimplAIプラットフォームにおけるスキルの構築、管理、ベストプラクティスについて詳しく説明します。エージェントプロファイルとスキルの分離、プランニングモードとハーネスモードの選択、スキルの構造とライフサイクル管理、プレビューとトレーシング機能など、プロダクションレベルのAIエージェントを構築するための完全なガイドです。
- スキルはAIエージェントが具体的なタスクを実行するための核であり、エージェントの役割と実行ロジックを分離します。
- ハーネスモードはスキル委譲に必須であり、プランニングモードはスキルをサポートしません。
エストニア、AIエージェントにデジタルIDを付与する世界初の国へ
エストニアは、人工知能エージェントにデジタルIDコードを発行する世界初の国となる予定です。
- エストニア、AIエージェントのデジタルIDシステムを開始
- 世界初
MemoryOps:AIアシスタント向けガバナンス型メモリ基盤
MemoryOpsはAIアシスタント向けのエンタープライズ級メモリガバナンスレイヤーであり、メモリを単なるデータベースではなくガバナンスされた意思決定システムとして扱います。キャプチャ、ポリシー評価、型付きストレージ、ハイブリッド検索、制御された忘却、監査可能性、テナント分離を含むメモリライフサイクルを実装しています。APIキー不要のオフラインスタブで動作し、完全なアーキテクチャドキュメントとテスト可能な不変条件を提供します。現在は書き込み/読み取りパス、ポリシー実行、監査ログ、一時セッション制御、ガバナンスUIなどのコア機能が実現されています。
- メモリをベクトルデータベースではなくガバナンスされた状態として扱う
- テナント分離、削除保証、来歴追跡などのエンタープライズ不変条件を強制
Cloudflare 一時アカウント
Cloudflareの一時アカウントにより、エージェントはサインアップ前にデプロイできます。
- エージェントはサインアップ前にデプロイ可能
- オンボーディングプロセスを効率化
Sakana Fugu:複数モデルを指揮する一つのAPI
Sakana AIが、多様なトップモデルを動的にオーケストレーションするマルチエージェントシステム「Fugu」を発表。単一のAPIで複雑なタスクを処理し、ベンダーロックインを回避。ICLR 2026の2本の論文に基づき、エキスパートエージェントの自動編成を学習。Fugu(バランス型)とFugu Ultra(パフォーマンス最適化型)の2モデルを提供。ベンチマークで最高水準の性能を達成し、輸出規制のリスクもなし。EU/EEAでは未提供。
- Fuguは単一APIで複数のモデルを動的に連携させ、手動ワークフロー設計が不要。
- 標準のFuguと高性能なFugu Ultraの2モデルを用意。
サンドボックスエージェントに読み取れないAPIキーを与える
Superserve は Secrets 機能を発表。APIキーをサンドボックスに紐付けても実際の値は環境内に入らず、エージェントによる漏洩を防ぎます。
- Secrets は実際の認証情報をプレースホルダートークンに置き換え、リクエストがサンドボックスを出る際にのみ交換することで漏洩を防止。
- OpenAI、Anthropic、GitHub などの主要プロバイダーに対応し、カスタムシークレットや許可ホストの指定も可能。
ANMA:安価なAIコーディングエージェントのための境界契約
ANMAは、プレーンYAMLのモジュール契約からCLAUDE.md、フック、CIチェックを生成し、AIコーディングエージェント(Claude Codeなど)をアーキテクチャ境界内に強制するオープンソースツールです。ベンチマークでは、安価なモデル(Haiku 4.5)の違反率を68%から0%に低減し、フロンティアモデルには保険を提供します。Python、Go、TypeScriptをサポートし、軽量設計(約800行)で、ドリフト検出や段階的導入などのエンタープライズ機能を備えています。
- ANMAはプレーンYAML契約でモジュールの公開インターフェースと依存関係を宣言し、エージェント向けガイドと強制チェックを自動生成します。
- 制御されたPythonベンチマークでは、Haiku 4.5の違反が13/19から0/20に減少(Fisher正確検定p<0.0001)。
Show HN: PeekAI – Python AIエージェント向けローカルファーストの可観測性ツール
PeekAIは、すべてのトレースをローカルのSQLiteデータベースに保存するPython AIエージェント向けのローカルファースト可観測性ツールです。クラウドアカウントや設定は不要で、OpenAI、Anthropic、LiteLLMを一行でインストルメント化し、マルチエージェントの可視化、トレースリプレイ、CLIおよびWebダッシュボードを提供します。
- ローカルファースト:トレースは~/.peekai/peekai.dbに保存され、データはマシン外に出ません。
- ゼロ設定:主要なLLMプロバイダーを一行でインストルメント化。
テクノロジー労働者がシリコンバレーのAI推進に抗議
2025年以降、約40万人のテクノロジー労働者が解雇され、2026年だけでも15万人以上が職を失い、多くは企業のAIへの注力が原因とされています。同時に、Meta、Google DeepMind、Oracleの従業員は、AIによる監視、強制的なAI使用、軍事利用に抗議して組織化しています。本記事では、現在のテックワーカー運動の新たな波、課題、将来展望について考察します。
- Meta社員は、コンピューター使用データを収集してAIを訓練する新たな「モデル能力イニシアチブ(MCI)」に反対する請願書に署名、1,600人以上が参加。
- Google DeepMindの英国労働者は、AIの軍事利用に反対するため組合結成を投票で決定。
Compass – AIコーディングエージェントのためのガードレールと厳格な予算上限
Compass は Claude Code、Codex、Gemini 向けのローカルファースト設定レイヤーで、厳格な予算上限を強制し、危険なコマンドをブロックし、CI で評価されるガードレールを提供します。自動 PR ループがレビューと修正を自律的に行い、Opus のみと比較して約 61% のコスト削減を実現するルーティングも特長です。サプライチェーンは SLSA 証明書で検証可能です。
- 厳格な予算上限:設定した金額に達するとセッションを強制停止。
- ガードレール評価:CI で 100/100 のスコアを達成し、危険コマンドや秘密情報の漏洩を防止。
AIに文明を運営させたら、核兵器を作った——CivBenchの開始
著者は『シヴィライゼーションVI』を用いてCivBenchベンチマークを構築し、AIの戦略的意思決定能力を評価した。AIエージェントは優れたパフォーマンスを示したが、文化的勝利の脅威を検出できず、最終的に核兵器を使用したが敗北した。実験は、複雑な環境におけるAIの認識の盲点と実行のギャップを浮き彫りにした。
- AIエージェントは戦略的思考を示したが、文化的勝利の脅威を見逃した。
- 平和的対策が失敗した後、核兵器に訴えたが、それでも敗北した。
Show HN: Bifrost Edge - 組織のPCで動作し、すべてのAIトラフィックをルーティング
Bifrost Edge はアルファ版のエンドポイントエージェントで、デスクトップチャットアプリ、ブラウザツール、コーディングエージェント、MCPサーバーなど、すべてのAIトラフィックを自動的にガバナンスします。既存のBifrostゲートウェイポリシー(仮想キー、予算、監査ログ、ガードレール)を各マシンに拡張します。
- エンドポイント上のすべてのAIトラフィックを自動的にルーティングし、アプリごとの設定不要でガバナンス。
- macOS、Windows、Linuxをサポートし、MDMによるサイレントデプロイが可能。
EGC - AIコーディングツールにセッションを超えたメモリを提供するMCPサーバー
EGCは、AIコーディングツールにセッションを超えた永続メモリを提供するローカルランタイムです。決定、失敗、好み、次のステップを自動的に保存し、新しいセッション開始時にプロンプトなしで状態を読み込みます。Claude Code、Cursor、Gemini CLIなどの複数のツールとモデルをサポートします。
- EGCはAIコーディングツールにセッションを超えた永続メモリを提供
- 自動的に状態を保存・読み込み、プロンプト不要
AIネイティブ組織の解剖
この記事では、AIが組織構造をどのように変えているか、特に中間層の翻訳作業が圧縮され、マネージャーやエンジニアの役割が変化していることを分析します。伝統的な「なぜ」「何を」「どのように」の階層が進化し、「なぜ」層は変わらず、「何を」層は拡大し、「どのように」層は縮小するがより困難になる。マネージャーは単なる調整ではなく直接貢献が求められ、エンジニアはAIが代替できない判断と設計作業に集中すべきです。
- AIは特定の職種ではなく、翻訳タスクを主に置き換える
- 組織の中間層(翻訳層)は縮小し、両端(戦略と製品定義)の重要性が増す
MsgMaster – 混沌とした受信トレイを優先順位付きワークフローに変えるAI
MsgMasterはEmergentが開発したAIツールで、メールをインテリジェントに分類・優先順位付けし、混乱した受信トレイを整理されたワークフローに変えます。
- AIを使用してメールを自動的に優先順位付け
- Emergent社によって開発
Conduit – AIエージェントのためのセルフホスト型Bitcoin Lightning決済
Conduitは、自律型AIエージェント向けのセルフホスト型Bitcoin Lightning Network決済インフラです。自身のLNDノードの前に配置し、各エージェントに仮想Lightningウォレット、支出ポリシー、APIを提供し、運営者は資金を完全に管理します。
- Conduitはセルフホスト型で、運営者が秘密鍵を保持し、エージェントはスコープ付きAPIキーのみ保持。
- テストネットとメインネットをサポートし、実際の決済で検証済み。
日本の半導体製造装置サプライヤー、中国販売が10%減少
日本の半導体製造装置サプライヤーの中国販売が10%減少し、西側企業は東アジア市場戦略の多様化が求められる。西側のサイバーセキュリティプロバイダーは、自律的に脆弱性を特定する高度なAIエージェントに対抗するため、防御戦略を緊急に適応させる必要がある。NTTの「つづみ2」は人間に近いコーディング能力を達成し、日本におけるLLM駆動の自動化の急速な進展を示している。
- 日本半導体装置の中国販売が10%減少、市場多様化の必要性を示唆。
- 西側のサイバーセキュリティは自律的な脆弱性発見AIに対応すべき。
Show HN: DebugBrief – デバッグセッションを報告書に変換、AI不要
DebugBrief は、デバッグセッションを記録し、プルリクエストや引き継ぎ、インシデントノートのための証拠に基づいたMarkdownレポートを生成するローカルファーストのCLIツールです。AIは使用せず、テレメトリも収集せず、実際のコマンドとファイル変更のみからレポートを構築します。
- デバッグ中のメモやコマンドを記録し、AIを使わずに信頼性の高いMarkdownレポートを生成。
- 任意の言語に対応。`debugbrief run` でコマンドをキャプチャし、テストランナーを自動認識。
Lelu – AIエージェントの実行時操作を検知するオープンソース認可エンジン
Lelu は AIエージェント向けのオープンソース認可エンジンであり、プロンプトインジェクション、低信頼度の判断、異常な振る舞いといった実行時の操作を検知します。レイヤードパイプラインを通じて、許可、拒否、人間によるレビュー、計算の4つの結果を提供します。主要なAIフレームワークと連携し、セルフホスティングも可能です。
- プロンプトインジェクションや異常行動など、AIエージェントの実行時操作を検出。
- 4つの判定結果:許可、拒否、人間レビュー(一時停止して承認待ち)、計算(サンドボックスへリダイレクト)。
より安価で安全なエージェント型AIワークフロー
ある開発者がGLM-5.2やDeepSeek V4 Flashなどのモデルを使い、低コスト(0.034ドル)で効率的なエージェント型AIコーディングを実現し、VirtualBoxのサンドボックスでプライバシーを保護した経験を共有。具体的な手順、コスト比較、AI業界のビジネスモデルへの考察を述べている。
- DeepSeek V4 Flashを使用したエージェントタスクが0.034ドル、3分で完了。人間は1時間で4つのミスを犯した。
- VirtualBox内のDebian VMでエージェントを実行し、プロジェクトデータを隔離してプライバシーを保護。
2つのAI審査員がエージェントの回答に0.85のスコアを付けたが、ファイルは一度も開かれていなかった
本記事は、エージェント評価におけるLLM-as-Judgeの根本的な欠陥を明らかにします。審査員は最終回答の一致のみをチェックし、回答が有効な証拠経路に基づいているかどうかは検証しません。ケーススタディでは、エージェントが必要な文書を一度も取得していないにもかかわらず、2つの最先端モデルが0.85のスコアを付け、実際のトレースベースのスコアは0.000でした。記事は、エージェントの行動を評価するための決定的な状態契約を提唱しています。
- LLM-as-Judgeは最終回答と正解を比較するだけで、回答生成経路を検証できない。
- ケーススタディ:2つの最先端モデルが0.85をつけたが、エージェントは必要な文書を開いていなかった。