AI News HubLIVE
站內改寫2 分鐘閱讀

改變AI數學運算可降低硬件負擔

研究人員提出SEMQ(符號化嵌入多量化)方法,通過將語義與嵌入表示分離,降低AI模型的存儲和內存需求,同時保持高精度。

來源Hacker News AI作者: galaxyLogic

研究人員開發出一種名為SEMQ(符號化嵌入多量化)的新方法,旨在通過改變AI模型處理數學的方式,顯著降低硬件負擔。該方法由SEMQ集團創始人兼CEO安德烈斯·麥克·阿利斯特提出,其核心思想是將語義(含義)與表示方式分離,從而在不犧牲精度的前提下減少存儲和內存需求。

當前,高級AI模型通常依賴大量內存和存儲空間。傳統的量化技術通過壓縮模型權重(包括嵌入)來減小體積,但會帶來精度損失。SEMQ另闢蹊徑,用固定維度的符號化結構取代原始向量,保留關係的相對屬性(如相似性排序和鄰域結構),同時將表示與度量、索引和執行語義解耦。

麥克·阿利斯特解釋,嵌入通常表示為長浮點向量,同時編碼幅度和方向。而SEMQ專注於表示相對幾何結構,而非孤立數值的枚舉。這在語義系統中尤為重要,因為系統更關心關係、相似性、鄰域和行為變化,而非單個數值的精確保留。

初步驗證結果令人鼓舞。在MTEB的Banking77數據集上,使用all-MiniLM-L6-v2嵌入模型,FP32基線準確率為92.26%,而SEMQ達到92.27%,幾乎完全匹配。相比之下,4位量化僅實現56.05%的準確率。麥克·阿利斯特強調,這並非否定傳統量化的普遍效果,而是表明在語義分類場景中,保留相關語義結構與降低數值精度有本質區別。

SEMQ可在數據攝入階段或查詢時應用。組織可通過SDK將嵌入模型生成的向量編碼為.semq工件,而無需替換現有LLM、嵌入模型、向量數據庫或代理框架。它可作為側邊層與現有堆棧並行運行,隨後逐步成為選中的檢索或內存工作負載的表示方式。

潛在用例包括:跨系統移植嵌入或內存狀態、跨不同運行或機器複製語義狀態、審計模型變更、減少對不透明或難以復現的狀態管道的依賴,以及進行語義狀態差異比較。此外,SEMQ還可擴展到運行時認知狀態,例如跨進程邊界快照和恢復Transformer KV-Cache狀態,支持暫停、傳輸和恢復活動模型會話。

目前,SEMQ集團正通過創始設計合作伙伴計劃與多個組織合作,涵蓋企業AI、檢索、代理內存和可審計AI工作流等領域,包括一些AI基礎設施超大規模公司和AI應用層企業。麥克·阿利斯特表示,所有合作伙伴均已簽署NDA,但他透露興趣主要來自那些在可再現性、狀態管理、降低基礎設施開銷及語義行為檢查方面有重要需求的團隊。