AIの数学を変えることでハードウェア負荷を軽減
研究者らはSEMQ(シンボリック埋め込みマルチ量子化)を提案。意味と埋め込み表現を分離することで、精度を犠牲にすることなくAIモデルのメモリとストレージ要件を削減する。
研究者たちは、AIモデルが数学を処理する方法を変えることで、ハードウェアの負荷を大幅に軽減する新しい手法「SEMQ(Symbolic Embedding Multi-Quantization)」を開発した。この手法は、SEMQ GroupのCEO兼創業者であるアンドレス・マック・アリスター氏によって提唱され、セマンティクス(意味)とその表現方法を分離し、精度を損なうことなくストレージとメモリの要件を削減することを目指している。
現在の高度なAIモデルは大量のメモリとストレージを必要とする。従来の量子化技術はモデルの重みを圧縮することでフットプリントを削減するが、精度低下を伴う。SEMQは、生のベクトルを固定次元のシンボリック構造に置き換え、相対的な類似性順序や近傍構造などの関係性プロパティを保持しながら、表現をメトリクス、インデックス、実行セマンティクスから切り離す。
マック・アリスター氏によると、セマンティックシステムでは個々の数値の正確な保存よりも、関係性、類似性、近傍、連続性、検索動作、経時変化が重要である。SEMQは、浮動小数点の絶対値の列挙ではなく、相対的な幾何学を表現することで、移植可能で再現可能なセマンティック状態の表現を実現する。
初期の検証テストでは、MTEBのBanking77データセットとall-MiniLM-L6-v2埋め込みモデルを使用したベンチマークで、FP32ベースラインが92.26%の精度だったのに対し、SEMQは92.27%とほぼ同等の精度を達成した。一方、4ビット量子化は56.05%の精度にとどまった。マック・アリスター氏は、従来の量子化が普遍的に無効というわけではないが、セマンティック分類の設定では、関連するセマンティック構造を保持することが数値精度を単に削減することとは質的に異なることを示していると述べている。
SEMQは、データ取り込み時またはクエリ時に適用可能で、組織は既存のLLM、埋め込みモデル、ベクトルデータベース、エージェントフレームワークを交換することなく、SDKを使用して埋め込みベクトルを.semqアーティファクトにエンコードできる。サイドカー層として既存のスタックと並行して動作し、その後、選択された検索やメモリワークロードの表現として利用される。
ユースケースとしては、システム間での埋め込みやメモリ状態の移植、異なる実行やマシン間でのセマンティック状態の再現、モデル変更の監査、不透明で再現困難なステートフルパイプラインへの依存低減、セマンティック状態の差分比較などが挙げられる。さらに、SEMQはランタイム認知状態にも拡張可能で、プロセス境界を越えたTransformer KVキャッシュ状態のスナップショットと復元を可能にし、アクティブなモデルセッションの一時停止、転送、再開をサポートする。
SEMQ Groupは現在、ファウンディングデザインパートナーシッププログラムを通じて、エンタープライズAI、検索、エージェントメモリ、監査可能なAIワークフローを探求する複数の組織と協力している。パートナーには一部のAIインフラハイパースケーラーやAIアプリケーション層の企業が含まれ、再現性、状態管理、インフラオーバーヘッド削減、セマンティック動作の検査が運用上重要なチームからの関心が寄せられている。