改变AI数学运算可降低硬件负担
研究人员提出SEMQ(符号化嵌入多量化)方法,通过将语义与嵌入表示分离,降低AI模型的存储和内存需求,同时保持高精度。
研究人员开发出一种名为SEMQ(符号化嵌入多量化)的新方法,旨在通过改变AI模型处理数学的方式,显著降低硬件负担。该方法由SEMQ集团创始人兼CEO安德烈斯·麦克·阿利斯特提出,其核心思想是将语义(含义)与表示方式分离,从而在不牺牲精度的前提下减少存储和内存需求。
当前,高级AI模型通常依赖大量内存和存储空间。传统的量化技术通过压缩模型权重(包括嵌入)来减小体积,但会带来精度损失。SEMQ另辟蹊径,用固定维度的符号化结构取代原始向量,保留关系的相对属性(如相似性排序和邻域结构),同时将表示与度量、索引和执行语义解耦。
麦克·阿利斯特解释,嵌入通常表示为长浮点向量,同时编码幅度和方向。而SEMQ专注于表示相对几何结构,而非孤立数值的枚举。这在语义系统中尤为重要,因为系统更关心关系、相似性、邻域和行为变化,而非单个数值的精确保留。
初步验证结果令人鼓舞。在MTEB的Banking77数据集上,使用all-MiniLM-L6-v2嵌入模型,FP32基线准确率为92.26%,而SEMQ达到92.27%,几乎完全匹配。相比之下,4位量化仅实现56.05%的准确率。麦克·阿利斯特强调,这并非否定传统量化的普遍效果,而是表明在语义分类场景中,保留相关语义结构与降低数值精度有本质区别。
SEMQ可在数据摄入阶段或查询时应用。组织可通过SDK将嵌入模型生成的向量编码为.semq工件,而无需替换现有LLM、嵌入模型、向量数据库或代理框架。它可作为侧边层与现有堆栈并行运行,随后逐步成为选中的检索或内存工作负载的表示方式。
潜在用例包括:跨系统移植嵌入或内存状态、跨不同运行或机器复制语义状态、审计模型变更、减少对不透明或难以复現的状态管道的依赖,以及进行语义状态差异比较。此外,SEMQ还可扩展到运行时认知状态,例如跨进程边界快照和恢复Transformer KV-Cache状态,支持暂停、传输和恢复活动模型会话。
目前,SEMQ集团正通过创始设计合作伙伴计划与多个组织合作,涵盖企业AI、检索、代理内存和可审计AI工作流等领域,包括一些AI基础设施超大规模公司和AI应用层企业。麦克·阿利斯特表示,所有合作伙伴均已签署NDA,但他透露兴趣主要来自那些在可再现性、状态管理、降低基础设施开销及语义行为检查方面有重要需求的团队。