CogCore:AIエージェント構築のためのAPIネイティブTypeScriptランタイム
CogCoreは、アプリケーションのAPIを中心にAIエージェントを構築するための軽量なTypeScriptランタイムライブラリです。モデルロールの分離、ツール呼び出し、ワーカーエージェント、サンドボックス実行、スキル学習などの機能を提供し、アプリはUI、データ、権限、リリースフローを維持しながら、安全にAI機能を統合できます。
CogCore(認知+コア)は、TypeScriptアプリケーションの独自APIを中心にAIエージェントを構築するためのAPIネイティブランタイムライブラリです。多くのエージェントフレームワークとは異なり、CogCoreは既存のアプリに埋め込む軽量なランタイム層として設計されており、アプリはUI、データ、権限モデル、製品API、リリースフローを保持したまま、AI機能を段階的に導入できます。
CogCoreの核心理念は「APIネイティブ」です。ここでのAPIとはアプリケーション自身のAPIサーフェス、すなわちエージェントが使用を許可される関数、スキーマ、製品ルールを指します。モデルロールの分離、ツールシステム、ワーカーエージェント、サンドボックス実行などのメカニズムにより、安全で制御可能な自動化を実現します。
クイックスタート
インストール後、開発者はCogCoreランタイムインスタンスを作成し、LLMプロバイダーと各ロールで使用するモデルを設定します。例えば、チャットロールには高品質な計画モデル、実行ロールには強力なコード/マルチモーダルモデル、テキストロールには高速低コストモデルを使用できます。次にChatAgentを作成し、Zodスキーマでパラメータを定義したカスタムツールを追加します。コールバック関数がエージェントの操作と権限境界を決定します。
全体構造
CogCoreは通常、大規模アプリケーション内部の小さなランタイムとして使用されます:
- アプリケーション層:UI、ルーティング、データ、認証、権限、アプリケーションAPI、製品ルール。
- CogCoreランタイム:ChatAgent(ユーザー向け対話)、フォーカスされたワーカーエージェント(タスク委任用)、エージェントと承認済みアプリ機能を接続するツール、コード自動化用のオプションAPI仕様。
デフォルトのエージェント構造はChatAgentの下に複数のWorkerAgent(CodeAgent、ApiAgent、ResearchAgent、MediaAgent、RecallAgent、DistillAgent)が配置されます。開発者はSlideAgentやReportAgentなどのカスタムワーカーエージェントも作成可能です。
主要コンセプト
- ランタイム:createCogCore()で共有ランタイムコンテキストを作成。LLMプロバイダー、ロールモデル、オプションの埋め込み/メディア設定、API仕様ローダーを含む。UI、データベース、権限実装は含まない。
- モデルロール:LLMの使用をchat、execute、textの3ロールに分離し、ハイブリッドモデル設定を可能にする。
- エージェント:ChatAgentがルートエージェント、ワーカーエージェントが内部タスク用。エージェントは異なるロールモデルを混在可能。
- ツール:エージェントとアプリケーションを橋渡し。名前、説明、スキーマ、コールバックを持つ。コールバックがエージェントの操作と権限を決定。
- API仕様:*.api.tsエントリポイントから生成されたAPI仕様により、エージェントが呼び出し可能なAPIを理解。
- サンドボックス:CodeAgentはブラウザ互換のサンドボックス内で生成されたJavaScriptを実行。アプリはデータ、権限境界、書き込みポリシーを制御。
- スキル学習:ワーカーの結果が承認されると、CogCoreはその実行を短いスキルヒントに蒸留し、類似の将来タスクでの繰り返しミスを削減。
既存のソリューションとの違い
CogCoreは汎用チャットSDK、エージェントフレームワーク、ワークフロー自動化ツール、純粋なツール呼び出しソリューションとは異なります。既存アプリに埋め込むランタイムライブラリとして、ロール分離、ワーカーエージェント、サンドボックス実行、スキル学習などの機能を提供しつつ、アプリがUI、権限、リリースフローの制御を維持できる点が特徴です。
CogCoreはMITライセンスでリリースされており、現在は初期バージョンですが、開発者チュートリアルと最小限のデモプロジェクトが完備されています。