Enki – AIエージェント向けメモリエンジン:記憶量は半分で同等の回答精度
EnkiはAIエージェント向けのメモリエンジンで、mem0と比較して約半分のストレージで同等の精度を達成。25インスタンスの評価では、Enkiが14/25、mem0が12/25のスコアを記録し、特にマルチセッション推論で優位(4/5対2/5)。レイテンシはCPU平均7.6ms。
英国のスタートアップEnki Labsは、大規模言語モデル(LLM)エージェント向けの新しいメモリエンジン「Enki」を発表しました。現在このエンジンはクローズドソースですが、GitHub上でベンチマーク結果が公開されています。公開されたデータによると、EnkiはLongMemEvalベンチマークのサブセット(25インスタンス)において、業界で知られるmem0と直接比較されました。両システムは同一の会話履歴と検索モデル(Claude Haiku)を使用し、検索深度はK=10に統一。唯一の違いはメモリ層の実装です。
結果、Enkiは14/25、mem0は12/25の総合スコアを獲得。特にマルチセッション推論タスクではEnkiが4/5、mem0が2/5と大きな差をつけ、複数セッションにわたる情報統合能力で優位性を示しました。知識更新やシングルセッションの各カテゴリでは両者ほぼ互角でした(知識更新: 3/5対3/5、シングルセッションユーザー: 3/5対3/5、シングルセッションアシスタント: 2/5対2/5、シングルセッション嗜好: 2/5対2/5)。
ストレージ効率においてもEnkiは優れています。平均してEnkiは138件のファクトでタスクを完了するのに対し、mem0は283件必要とし、ストレージ使用量が約51%削減されています。これは長期間稼働するエージェントにとって、リソース消費の低減とスケーラビリティ向上に直結します。
検索レイテンシはCPU環境で計測され、約139ファクトのストア、240サンプルにおいて平均7.6ミリ秒、p50で6.1ミリ秒、p95で11.9ミリ秒、p99で13.0ミリ秒を記録。リアルタイム対話に十分な性能です。
Enki Labsは、この評価が小規模で手動検証されたサンプルに基づくこと、全体的な差(14対12)は控えめであることを正直に認めていますが、メモリフットプリントを半分に抑えつつ同等の回答精度を達成したことは堅牢で再現可能な結果としています。完全な方法論と質問ごとの結果はリクエストにより入手可能です。リポジトリはMITライセンスで公開されていますが、評価結果のみでエンジン自体はクローズドソースです。
Enkiは、ストレージ効率と推論品質のバランスが求められるAIエージェントのメモリ層に新たな選択肢を提供します。今後の評価拡大やオープンソース化が期待されます。