AI News HubLIVE
站内改写2 分钟阅读

在受限API下黑盒推断LLM架构属性

研究提出NightVision攻击,即使在仅返回单个logit且无法偏置logit的受限API下,也能以较低误差率推断大型语言模型的隐藏维度、深度和参数数量。

来源arXiv Machine Learning作者: Christopher Ellis, Shreyas Chaudhari, Mei-Yu Wang, Leighton Barnes, Giulia Fanti, Jos\'e M. F. Moura

大型语言模型(LLM)的商业提供商通常不公开其模型架构的详细信息。这一做法旨在保护知识产权,但也给研究人员和用户了解模型能力带来了困难。先前的研究表明,当API提供top-k logits或logit偏置功能时,可以通过分析输出概率恢复部分架构参数,如前馈网络的隐藏维度。针对这些结果,许多LLM提供商收紧了API限制,仅返回每个解码token的单一logit,并移除了logit偏置功能,试图阻止架构信息的泄露。然而,一项由Christopher Ellis等六位研究人员共同完成的最新研究显示,即使在这些严格限制下,关键架构属性仍然具有可恢复性。该研究发表于arXiv(论文编号:2607.01313),并提出了名为NightVision的攻击方法。

NightVision的核心创新在于“公共集提示”技术。该方法通过构造多个不同的提示,使模型输出相同的token集合,从而获取这些token的log概率。由于不同提示会改变内部表示的分布,对多组log概率进行频谱分析可以揭示隐藏维度的特征信号。此外,NightVision还利用了端到端的首个令牌延迟(TTFT)测量——即从输入到生成第一个输出token的时间。结合已估计的隐藏维度,TTFT与模型深度和参数数量存在关联,进而可以估算出这些指标。

研究团队在32个开源LLM上进行了全面评估,涵盖多种规模和架构。实验结果显示,NightVision对隐藏维度的平均相对误差为23%,而针对混合专家模型(MoE)时的误差仅为9%。对于参数超过30亿的模型,深度和参数数量的估计误差控制在53%以内。研究还通过大量消融实验探讨了token预算、模型属性等因素对精度的影响,验证了方法的可扩展性和鲁棒性。

NightVision的意义不仅在于其技术突破,更在于它揭示了当前LLM API在保护架构隐私方面的不足。尽管提供商采取了限制措施,但攻击者仍能通过精心设计的提示和时序测量获取敏感信息。这项研究为LLM服务的安全设计提出了新的挑战,提示提供商需要重新评估其隐私保护策略,例如引入噪声或限制时序信息的精度。同时,该结果也提醒用户,依赖API访问的模型并非完全“黑盒”,其内部结构可能在无意中被暴露。