AI News HubLIVE
站內改寫2 分鐘閱讀

改變AI數學運算可降低硬體負擔

研究人員提出SEMQ(符號化嵌入多量化)方法,透過將語義與嵌入表示分離,降低AI模型的儲存和記憶體需求,同時保持高精度。

來源Hacker News AI作者: galaxyLogic

研究人員開發出一種名為SEMQ(符號化嵌入多量化)的新方法,旨在透過改變AI模型處理數學的方式,顯著降低硬體負擔。該方法由SEMQ集團創始人兼CEO安德烈斯·麥克·阿利斯特提出,其核心思想是將語義(含義)與表示方式分離,從而在不犧牲精度的前提下減少儲存和記憶體需求。

當前,高階AI模型通常依賴大量記憶體和儲存空間。傳統的量化技術透過壓縮模型權重(包括嵌入)來減小體積,但會帶來精度損失。SEMQ另闢蹊徑,用固定維度的符號化結構取代原始向量,保留關係的相對屬性(如相似性排序和鄰域結構),同時將表示與度量、索引和執行語義解耦。

麥克·阿利斯特解釋,嵌入通常表示為長浮點向量,同時編碼幅度和方向。而SEMQ專注於表示相對幾何結構,而非孤立數值的列舉。這在語義系統中尤為重要,因為系統更關心關係、相似性、鄰域和行為變化,而非單個數值的精確保留。

初步驗證結果令人鼓舞。在MTEB的Banking77資料集上,使用all-MiniLM-L6-v2嵌入模型,FP32基線準確率為92.26%,而SEMQ達到92.27%,幾乎完全匹配。相比之下,4位量化僅實現56.05%的準確率。麥克·阿利斯特強調,這並非否定傳統量化的普遍效果,而是表明在語義分類場景中,保留相關語義結構與降低數值精度有本質區別。

SEMQ可在資料攝入階段或查詢時應用。組織可透過SDK將嵌入模型生成的向量編碼為.semq工件,而無需替換現有LLM、嵌入模型、向量資料庫或代理框架。它可作為側邊層與現有堆疊並行執行,隨後逐步成為選中的檢索或記憶體工作負載的表示方式。

潛在用例包括:跨系統移植嵌入或記憶體狀態、跨不同執行或機器複製語義狀態、審計模型變更、減少對不透明或難以復現的狀態管道的依賴,以及進行語義狀態差異比較。此外,SEMQ還可擴充套件到執行時認知狀態,例如跨程序邊界快照和恢復Transformer KV-Cache狀態,支援暫停、傳輸和恢復活動模型會話。

目前,SEMQ集團正透過創始設計合作伙伴計劃與多個組織合作,涵蓋企業AI、檢索、代理記憶體和可審計AI工作流等領域,包括一些AI基礎設施超大規模公司和AI應用層企業。麥克·阿利斯特表示,所有合作伙伴均已簽署NDA,但他透露興趣主要來自那些在可再現性、狀態管理、降低基礎設施開銷及語義行為檢查方面有重要需求的團隊。