Show HN:机器学习将数十亿条日志压缩成小型快照,供您的LLM调试
Rocketgraph 是一个自托管的日志聚类和异常检测工具,可插入现有监控堆栈。它使用确定性算法(无LLM)将日志聚类为结构模板并检测异常,完全在您的网络内运行,无需SaaS费用。支持多种日志源,如Datadog、Loki、CloudWatch等。
Rocketgraph 是一款自托管的日志聚类与实时异常检测工具,旨在无缝嵌入您现有的可观测性栈中。与传统的监控工具不同,它能够揭示出当前环境中的异常模式,而不仅仅是您主动搜索的内容。
该工具的核心是三个确定性算法的组合:Drain3 从原始日志行中提取结构模板;Isolation Forest 为每个服务的模板评分,以识别异常;Half-Space-Trees 则对训练好的模型进行实时新日志评分。整个过程无需任何大型语言模型(LLM),完全可复现,避免了幻觉问题。在一项实际生产测试中,Rocketgraph 在单容器环境下仅用90秒便处理了200万条日志,提取出58个模板并识别出9个异常。
Rocketgraph 的设计允许您将其直接插入现有的日志源,无需额外的并行摄取管道。支持的平台包括日志文件(.log/.json/.csv)、OpenTelemetry、Loki、New Relic、Datadog、CloudWatch、Sentry 和 ClickHouse。未来计划支持 Splunk、Elastic/OpenSearch、Azure Monitor 和 GCP Cloud Logging。
部署极其简便:克隆仓库,配置环境变量,通过 Docker Compose 启动即可。您可以通过 API 查询指定时间窗口的日志聚类结果,甚至可以将日志文件直接放入并进行分析。该工具还包含一个 OpenTelemetry 自动探针 @rgraph/otel-node,可在约90秒内对任何 Node.js 服务进行自动仪表化。
为了帮助用户快速上手,Rocketgraph 提供了示例设置,包括一个基于 Flask 的日志文件快速启动脚本。您只需将日志文件放入指定目录,运行 analyze.py,即可获得聚类表格并高亮异常。可选地,您还可以添加 --ai 参数,让 Claude 对聚类结果进行 SRE 风格的诊断,但引擎本身始终保持确定性。
Rocketgraph 完全开源(Apache 2.0),社区活跃,欢迎贡献。目前最需要的贡献包括新的 ML 连接器、更多框架支持以及端到端参考应用。