AI News HubLIVE
站内改写2 分で読了

Show HN: Mnemo – あらゆるLLMのためのローカルファーストAIメモリレイヤー(Rust、SQLite、petgraph)

Mnemoは、会話からエンティティと関係を抽出して知識グラフを構築し、LLMに永続的なメモリを提供するサイドカーサービスです。ローカルまたはクラウドのLLMに対応し、応答時間は50ms未満、クラウド依存はありません。Docker、バイナリ、Python SDKでデプロイ可能。

ソースHacker News AI著者: zaydmulani

Mnemoは、大規模言語モデル(LLM)に永続的な記憶を提供するオープンソースプロジェクトです。従来のステートレスな会話とは異なり、Mnemoは各やり取りを監視し、LLMを使って名前付きエンティティとその関係を抽出し、SQLite上に知識グラフを構築します。そして、将来のプロンプトに関連するコンテキストを自動的に注入します。このプロセスは50ミリ秒未満で完了し、クラウド依存はありません。

MnemoはRustで書かれており、4つのクレートで構成されています。mnemo-coreがエンティティ抽出、グラフ操作、検索エンジンを担当。mnemo-apiがAxum REST APIを提供。mnemo-cliはCLIツール、mnemo-benchはベンチマーク用です。ワークフローはシンプルで、POST /ingestでテキストを送信するとMnemoがLLMを呼び出してエンティティを抽出しグラフを更新。その後POST /retrieveでスコアリング・ランキングされたコンテキストを取得し、システムプロンプトに注入します。

デプロイ方法は複数あります。Docker Composeを使った簡単な方法(Ollamaとの連携に最適)、バイナリの直接実行、Python SDKによる統合が可能です。対応するLLMプロバイダはOllama(完全ローカル、無料)、OpenAI、Anthropic、およびOpenAI互換のAPIです。

APIは充実しており、ヘルスチェック、記憶の保存・検索、エンティティやチャンクの管理、全文検索、全記憶の消去などが含まれます。すべてのエンドポイントはJSONを返します。設定は環境変数とTOMLファイルの両方で行えます。

パフォーマンスはApple M2上でのデバッグビルドで、エンティティ挿入が約0.12ミリ秒、完全な検索パイプラインが約4.2ミリ秒でした。リリースビルドでは3~5倍高速化すると見込まれます。プロジェクトには122のRustテスト、21のPythonテスト、12のベンチマークが含まれています。

MnemoはMITライセンスで公開されており、コントリビューションを歓迎します。詳細はGitHubリポジトリを参照してください。