Show HN:MLが数十億のログを小さなスナップショットに圧縮し、LLMがデバッグできるようにする
Rocketgraph は、既存の監視スタックに組み込めるセルフホスト型のログクラスタリングおよび異常検知ツールです。Drain3、Isolation Forest、Half-Space-Trees の決定論的アルゴリズム(LLM不使用)を使用してログをテンプレートにクラスタリングし、異常を検出します。ネットワーク内で完全に実行され、SaaS費用は不要です。Datadog、Loki、CloudWatch などに対応。
Rocketgraph は、既存の可観測性スタックにシームレスに統合できる、セルフホスト型のログクラスタリングおよびリアルタイム異常検知ツールです。従来の監視ツールとは異なり、ユーザーが積極的に検索する内容だけでなく、現在の環境で異常なパターンを明らかにします。
このツールの核心は、3つの決定論的アルゴリズムの組み合わせです。Drain3 は生のログ行から構造テンプレートを抽出し、Isolation Forest はサービスごとにテンプレートをスコアリングして異常を特定します。Half-Space-Trees はトレーニング済みモデルに対してリアルタイムで新しいログをスコアリングします。このプロセスは大規模言語モデル(LLM)を一切使用せず、完全に再現可能で、幻覚の問題を回避します。実際の本番バーストテストでは、Rocketgraph は単一コンテナ環境で200万件のログを90秒で処理し、58のテンプレートを抽出し、9つの異常を特定しました。
Rocketgraph は、既存のログソースに直接挿入できるように設計されており、並列取り込みパイプラインは不要です。対応プラットフォームには、ログファイル(.log/.json/.csv)、OpenTelemetry、Loki、New Relic、Datadog、CloudWatch、Sentry、ClickHouse が含まれます。今後は Splunk、Elastic/OpenSearch、Azure Monitor、GCP Cloud Logging をサポートする予定です。
デプロイは非常に簡単です。リポジトリをクローンし、環境変数を設定し、Docker Compose で起動するだけです。API を使用して指定した時間枠のログクラスタリング結果を照会したり、ログファイルを直接配置して分析したりできます。また、@rgraph/otel-node という OpenTelemetry 自動計装エージェントも含まれており、約90秒で任意の Node.js サービスを自動計装できます。
迅速な開始のために、Rocketgraph はサンプルセットアップを提供しており、Flask ベースのログファイルクイックスタートスクリプトが含まれています。ログファイルを所定のディレクトリに配置し、analyze.py を実行するだけで、クラスタリングテーブルが表示され、異常がハイライトされます。オプションで --ai パラメータを追加すると、Claude がクラスタリング結果に対して SRE スタイルの診断を実行しますが、エンジン自体は常に決定論的です。
Rocketgraph は完全にオープンソース(Apache 2.0)であり、コミュニティは活発で、コントリビューションを歓迎しています。現在最も求められているコントリビューションは、新しい ML コネクタ、より多くのフレームワークサポート、およびエンドツーエンドのリファレンスアプリケーションです。