AI News HubLIVE
站内改写1 分鐘閱讀

Show HN:機器學習將數十億條日誌壓縮成小型快照,供您的LLM調試

Rocketgraph 是一個自託管的日誌聚類和異常檢測工具,可插入現有監控堆棧。它使用確定性算法(無LLM)將日誌聚類為結構模板並檢測異常,完全在您的網絡內運行,無需SaaS費用。支持多種日誌源,如Datadog、Loki、CloudWatch等。

來源Hacker News AI作者: kvaranasi_

Rocketgraph 是一款自託管的日誌聚類與實時異常檢測工具,旨在無縫嵌入您現有的可觀測性棧中。與傳統的監控工具不同,它能夠揭示出當前環境中的異常模式,而不僅僅是您主動搜索的內容。

該工具的核心是三個確定性算法的組合:Drain3 從原始日誌行中提取結構模板;Isolation Forest 為每個服務的模板評分,以識別異常;Half-Space-Trees 則對訓練好的模型進行實時新日誌評分。整個過程無需任何大型語言模型(LLM),完全可復現,避免了幻覺問題。在一項實際生產測試中,Rocketgraph 在單容器環境下僅用90秒便處理了200萬條日誌,提取出58個模板並識別出9個異常。

Rocketgraph 的設計允許您將其直接插入現有的日誌源,無需額外的並行攝取管道。支持的平台包括日誌文件(.log/.json/.csv)、OpenTelemetry、Loki、New Relic、Datadog、CloudWatch、Sentry 和 ClickHouse。未來計劃支持 Splunk、Elastic/OpenSearch、Azure Monitor 和 GCP Cloud Logging。

部署極其簡便:克隆倉庫,配置環境變量,通過 Docker Compose 啓動即可。您可以通過 API 查詢指定時間窗口的日誌聚類結果,甚至可以將日誌文件直接放入並進行分析。該工具還包含一個 OpenTelemetry 自動探針 @rgraph/otel-node,可在約90秒內對任何 Node.js 服務進行自動儀表化。

為了幫助用户快速上手,Rocketgraph 提供了示例設置,包括一個基於 Flask 的日誌文件快速啓動腳本。您只需將日誌文件放入指定目錄,運行 analyze.py,即可獲得聚類表格並高亮異常。可選地,您還可以添加 --ai 參數,讓 Claude 對聚類結果進行 SRE 風格的診斷,但引擎本身始終保持確定性。

Rocketgraph 完全開源(Apache 2.0),社區活躍,歡迎貢獻。目前最需要的貢獻包括新的 ML 連接器、更多框架支持以及端到端參考應用。