2026-07-03 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-03 16:07 UTC+8

在受限API下黑盒推斷LLM架構屬性

研究提出NightVision攻擊，即使在僅返回單個logit且無法偏置logit的受限API下，也能以較低誤差率推斷大型語言模型的隱藏維度、深度和引數數量。

來源arXiv Machine Learning作者: Christopher Ellis, Shreyas Chaudhari, Mei-Yu Wang, Leighton Barnes, Giulia Fanti, Jos\'e M. F. Moura

大型語言模型（LLM）的商業提供商通常不公開其模型架構的詳細資訊。這一做法旨在保護智慧財產權，但也給研究人員和使用者瞭解模型能力帶來了困難。先前的研究表明，當API提供top-k logits或logit偏置功能時，可以透過分析輸出機率恢復部分架構引數，如前饋網路的隱藏維度。針對這些結果，許多LLM提供商收緊了API限制，僅返回每個解碼token的單一logit，並移除了logit偏置功能，試圖阻止架構資訊的洩露。然而，一項由Christopher Ellis等六位研究人員共同完成的最新研究顯示，即使在這些嚴格限制下，關鍵架構屬性仍然具有可恢復性。該研究發表於arXiv（論文編號：2607.01313），並提出了名為NightVision的攻擊方法。

NightVision的核心創新在於“公共集提示”技術。該方法透過構造多個不同的提示，使模型輸出相同的token集合，從而獲取這些token的log機率。由於不同提示會改變內部表示的分佈，對多組log機率進行頻譜分析可以揭示隱藏維度的特徵訊號。此外，NightVision還利用了端到端的首個令牌延遲（TTFT）測量——即從輸入到生成第一個輸出token的時間。結合已估計的隱藏維度，TTFT與模型深度和引數數量存在關聯，進而可以估算出這些指標。

研究團隊在32個開源LLM上進行了全面評估，涵蓋多種規模和架構。實驗結果顯示，NightVision對隱藏維度的平均相對誤差為23%，而針對混合專家模型（MoE）時的誤差僅為9%。對於引數超過30億的模型，深度和引數數量的估計誤差控制在53%以內。研究還透過大量消融實驗探討了token預算、模型屬性等因素對精度的影響，驗證了方法的可擴充套件性和魯棒性。

NightVision的意義不僅在於其技術突破，更在於它揭示了當前LLM API在保護架構隱私方面的不足。儘管提供商採取了限制措施，但攻擊者仍能透過精心設計的提示和時序測量獲取敏感資訊。這項研究為LLM服務的安全設計提出了新的挑戰，提示提供商需要重新評估其隱私保護策略，例如引入噪聲或限制時序資訊的精度。同時，該結果也提醒使用者，依賴API訪問的模型並非完全“黑盒”，其內部結構可能在無意中被暴露。