2026-07-03 12:00 UTC+8站内改写2 分钟阅读更新: 2026-07-03 16:07 UTC+8

在受限API下黑盒推断LLM架构属性

研究提出NightVision攻击，即使在仅返回单个logit且无法偏置logit的受限API下，也能以较低误差率推断大型语言模型的隐藏维度、深度和参数数量。

来源arXiv Machine Learning作者: Christopher Ellis, Shreyas Chaudhari, Mei-Yu Wang, Leighton Barnes, Giulia Fanti, Jos\'e M. F. Moura

大型语言模型（LLM）的商业提供商通常不公开其模型架构的详细信息。这一做法旨在保护知识产权，但也给研究人员和用户了解模型能力带来了困难。先前的研究表明，当API提供top-k logits或logit偏置功能时，可以通过分析输出概率恢复部分架构参数，如前馈网络的隐藏维度。针对这些结果，许多LLM提供商收紧了API限制，仅返回每个解码token的单一logit，并移除了logit偏置功能，试图阻止架构信息的泄露。然而，一项由Christopher Ellis等六位研究人员共同完成的最新研究显示，即使在这些严格限制下，关键架构属性仍然具有可恢复性。该研究发表于arXiv（论文编号：2607.01313），并提出了名为NightVision的攻击方法。

NightVision的核心创新在于“公共集提示”技术。该方法通过构造多个不同的提示，使模型输出相同的token集合，从而获取这些token的log概率。由于不同提示会改变内部表示的分布，对多组log概率进行频谱分析可以揭示隐藏维度的特征信号。此外，NightVision还利用了端到端的首个令牌延迟（TTFT）测量——即从输入到生成第一个输出token的时间。结合已估计的隐藏维度，TTFT与模型深度和参数数量存在关联，进而可以估算出这些指标。

研究团队在32个开源LLM上进行了全面评估，涵盖多种规模和架构。实验结果显示，NightVision对隐藏维度的平均相对误差为23%，而针对混合专家模型（MoE）时的误差仅为9%。对于参数超过30亿的模型，深度和参数数量的估计误差控制在53%以内。研究还通过大量消融实验探讨了token预算、模型属性等因素对精度的影响，验证了方法的可扩展性和鲁棒性。

NightVision的意义不仅在于其技术突破，更在于它揭示了当前LLM API在保护架构隐私方面的不足。尽管提供商采取了限制措施，但攻击者仍能通过精心设计的提示和时序测量获取敏感信息。这项研究为LLM服务的安全设计提出了新的挑战，提示提供商需要重新评估其隐私保护策略，例如引入噪声或限制时序信息的精度。同时，该结果也提醒用户，依赖API访问的模型并非完全“黑盒”，其内部结构可能在无意中被暴露。