AI News HubLIVE
站内改写

AIエージェントのための永続メモリ構築の教訓

mem9は顧客の要望から始まり、迅速なプロトタイプから製品へと成長しました。この記事では、エージェントメモリ構築の重要な教訓を共有しています:メモリは単なるストレージ問題ではなく、取り込み、ランキング、評価、製品判断が交差するエンジニアリング上の課題です。メモリAPIだけでは製品として不十分であり、ユーザーはエージェントが記憶した内容を確認、検査、信頼、修正する必要があります。さらに、評価はメモリ製品の基盤インフラとして組み込まれるべきであり、品質の可視化とデバッグを可能にします。最後に、エージェントのメモリはテキストに留まらず、マルチモーダルへと拡張されるべきです。

記事インテリジェンス

エンジニア中級

要点

  • mem9はロードマップではなく顧客の実際の問題から始まり、迅速なプロトタイプで価値が検証されました。
  • エージェントメモリの核心的な課題は永続化ではなく、実運用の制約下で正確な情報を適切なタイミングで検索することです。
  • メモリAPIだけでは不十分で、ユーザーにはメモリを可視化し管理するツールが必要です。
  • 評価とベンチマークはメモリ製品の基盤インフラであり、再現品質を測定し改善するために不可欠です。

重要な理由

このニュースが重要なのは、mem9はロードマップではなく顧客の実際の問題から始まり、迅速なプロトタイプで価値が検証されましたためです。

技術的影響

モデル選定、推論コスト、プロダクト能力、評価基準に影響する可能性があります。

mem9の物語は2026年3月、ある顧客からの「エージェントに記憶を持たせる」というシンプルな要望から始まりました。私たちは洗練されたロードマップや大規模なアーキテクチャレビューではなく、まずラフなプロトタイプを構築し、顧客の目の前で実演しました。エージェントが通常忘れてしまう情報を記憶できる姿を見た瞬間、会話は一変し、「興味深い能力」から「市場が求める製品」へと変わりました。

最初の数日間で、Goサーバー、メモリAPI、TiDB Cloudによるストレージ、検索、認証、レート制限、そして最初のプラグイン統合を含むコアシステムを驚くほど迅速に組み立てました。その後すぐに、OpenClaw、OpenCode、Claude Codeなどのエージェント環境への対応を拡大し、オンボーディングの改善、マルチテナント基盤の構築、最初のmem9.aiサイトの公開を同時に進めました。私たちはインフラ、製品、成長という順序に従うのではなく、その価値が明白になったため、すべてのトラックを一度に動かしました。

初期の時点で、エージェントメモリを単なる「ベクトルデータベース」として捉えるべきではないと明確になりました。多くの議論は依然としてメモリを「ストレージ+検索」としてフレーム化していますが、実際にはそれは浅すぎます。本当の課題は、情報が保存できるかどうかではなく、適切な情報が適切なタイミングで適切な量だけ、実運用の制約下で返ってくるかどうかです。再現が少なすぎると重要な詳細が失われ、多すぎるとコンテキストが無関係なノイズで汚染されます。メモリコーパスが成長するにつれて再現がノイズになると、信頼は失われます。したがって、挑戦は永続性そのものではなく、精度です。

この洞察により、mem9は基本メモリストアをすぐに超えて、取り込み、抽出、調整、ランキング、検索に対するより意見のあるシステムへと進化しました。サーバー中心のアーキテクチャを選択したことで、統合は薄く保ちつつ、メモリロジックを中央で進化させることができました。この決定により、すべてのプラグインやランタイムに複雑さを押し込むのではなく、コアで動作を改善できるようになりました。

次の教訓は、メモリAPIだけでは製品として不十分であることです。人々はメモリが存在するだけでなく、それを見て、検査し、信頼し、修正し、最終的に形成したいと考えます。そのため、私たちはメモリを可視化するためのインターフェースを構築しました:セッションビュー、タイムラインビュー、分析ワークフロー、フィルター、プレビュー、インサイトレイヤー。これらは、何が記憶されたかだけでなく、なぜそれが重要かを理解するのに役立ちます。この作業は徐々に「あなたのメモリ」へと発展し、長期記憶を具体的で信頼できるものにしました。

バックエンドでは、このシフトにより、分類、分析品質、重複排除、応答性、レポートワークフローといった異なるエンジニアリングが要求されました。第一段階はメモリが機能することを証明し、第二段階はそれを理解可能で信頼できるものにしました。同時に、製品を発見しやすくするためのあまり華やかでない部分も構築しました:公開ウェブサイト、ドキュメント、分析、帰属、連絡フロー、より良いオンボーディング、そして最終的にはAPIドキュメントです。これらの変化はコミットログでは特に劇的ではありませんが、実際の製品が成長する方法です。

ユーザーが実際のワークフローでメモリに依存し始めると、直感だけでは不十分になります。再現品質が改善しているか、低下しているか、単に形が変わっているかを測定する方法が必要でした。そのため、評価を製品インフラとして扱いました。評価ハーネスを構築し、古いマルチターンデータセットを現代のエージェント設定に適応させ、実際のエンジニアリング上の決定を導くフィードバックループを作成しました。ベンチマークは学術的なスコアリングから製品の真実のための計装へと変わり、直感を超えて反復可能な改善へと導きました。

mem9の構築におけるもう一つの興味深い教訓は、メモリは完全に不可視であってはならないということです。ユーザーはメモリをインデックスとしてではなく、継続性として体験します。システムが自分を知っているように感じられるか、時間を超えてスレッドを再接続できるか、その継続性が不気味ではなく信頼できるかどうかを気にします。そのため、私たちは可視化への投資を続けました。例えば、Memory Farmはピクセルアート風のビジュアルメモリエクスプローラーで、記憶が庭の植物として成長し、トピック別にクラスター化され、関係で結ばれます。この背後にある真面目な意図は、メモリをより直感的な形でパターン、クラスター、履歴、関係を見せることができれば、理解しやすくなるというものです。

外部から見れば、エージェントメモリはホットなカテゴリーですが、内部から見れば、厳しいエッジケースの長いリストです。大きなコンテキストウィンドウは依然として有限であり、重要な事実は最近のノイズに埋もれ、単純な検索は間違ったものを返し、繰り返しがトークンを浪費し、メモリが成長するにつれて品質が低下します。再現がランダムに感じられ始めると、ユーザーの信頼は急速に失われます。mem9は初日からこれらの問題の中に構築されており、そのため製品は生の永続性から取り込み、調整、ハイブリッド検索、ランキング、分析、ベンチマーク、オーケストレーションへと迅速に移行しました。

構築を進める中で、エージェントの長期メモリはテキストのみの検索を超えて、より温かくリッチになるべきだと確信を深めました。これは特にマルチモーダルユースケースに関する議論で顕著でした。コーディングエージェントを超えて、音声、写真、ビデオを中心とした製品に移行すると、メモリの意味が変わります。有用なメモリシステムは、何年も前の文を検索するだけでなく、画像、音声断片、インタラクション、証拠、そして現在の瞬間をより意味あるものにする周囲のコンテキストを検索できるべきです。

mem9は迅速なプロトタイプから、わずか2週間余りで1万人以上のユーザーを持つ製品へと成長しました。この旅は従来のソフトウェアプロジェクトというより、圧縮されたスタートアップの一年のように感じられます。私たちが学んだ最も重要なことは、エージェントメモリはストレージの問題ではなく、エージェントが何を保持すべきか、何を表面化すべきか、何を静かに保つべきかを決定するのを助けることです。これはエンジニアリング、製品、そして人間の信頼が交差する地点です。