2026-07-01 14:12 UTC+8站内改写2 分钟阅读更新: 2026-07-01 14:29 UTC+8

改变AI数学运算可降低硬件负担

研究人员提出SEMQ（符号化嵌入多量化）方法，通过将语义与嵌入表示分离，降低AI模型的存储和内存需求，同时保持高精度。

来源Hacker News AI作者: galaxyLogic

研究人员开发出一种名为SEMQ（符号化嵌入多量化）的新方法，旨在通过改变AI模型处理数学的方式，显著降低硬件负担。该方法由SEMQ集团创始人兼CEO安德烈斯·麦克·阿利斯特提出，其核心思想是将语义（含义）与表示方式分离，从而在不牺牲精度的前提下减少存储和内存需求。

当前，高级AI模型通常依赖大量内存和存储空间。传统的量化技术通过压缩模型权重（包括嵌入）来减小体积，但会带来精度损失。SEMQ另辟蹊径，用固定维度的符号化结构取代原始向量，保留关系的相对属性（如相似性排序和邻域结构），同时将表示与度量、索引和执行语义解耦。

麦克·阿利斯特解释，嵌入通常表示为长浮点向量，同时编码幅度和方向。而SEMQ专注于表示相对几何结构，而非孤立数值的枚举。这在语义系统中尤为重要，因为系统更关心关系、相似性、邻域和行为变化，而非单个数值的精确保留。

初步验证结果令人鼓舞。在MTEB的Banking77数据集上，使用all-MiniLM-L6-v2嵌入模型，FP32基线准确率为92.26%，而SEMQ达到92.27%，几乎完全匹配。相比之下，4位量化仅实现56.05%的准确率。麦克·阿利斯特强调，这并非否定传统量化的普遍效果，而是表明在语义分类场景中，保留相关语义结构与降低数值精度有本质区别。

SEMQ可在数据摄入阶段或查询时应用。组织可通过SDK将嵌入模型生成的向量编码为.semq工件，而无需替换现有LLM、嵌入模型、向量数据库或代理框架。它可作为侧边层与现有堆栈并行运行，随后逐步成为选中的检索或内存工作负载的表示方式。

潜在用例包括：跨系统移植嵌入或内存状态、跨不同运行或机器复制语义状态、审计模型变更、减少对不透明或难以复現的状态管道的依赖，以及进行语义状态差异比较。此外，SEMQ还可扩展到运行时认知状态，例如跨进程边界快照和恢复Transformer KV-Cache状态，支持暂停、传输和恢复活动模型会话。

目前，SEMQ集团正通过创始设计合作伙伴计划与多个组织合作，涵盖企业AI、检索、代理内存和可审计AI工作流等领域，包括一些AI基础设施超大规模公司和AI应用层企业。麦克·阿利斯特表示，所有合作伙伴均已签署NDA，但他透露兴趣主要来自那些在可再现性、状态管理、降低基础设施开销及语义行为检查方面有重要需求的团队。