AI News HubLIVE
站內改寫2 分鐘閱讀

在受限API下黑盒推斷LLM架構屬性

研究提出NightVision攻擊,即使在僅返回單個logit且無法偏置logit的受限API下,也能以較低誤差率推斷大型語言模型的隱藏維度、深度和引數數量。

來源arXiv Machine Learning作者: Christopher Ellis, Shreyas Chaudhari, Mei-Yu Wang, Leighton Barnes, Giulia Fanti, Jos\'e M. F. Moura

大型語言模型(LLM)的商業提供商通常不公開其模型架構的詳細資訊。這一做法旨在保護智慧財產權,但也給研究人員和使用者瞭解模型能力帶來了困難。先前的研究表明,當API提供top-k logits或logit偏置功能時,可以透過分析輸出機率恢復部分架構引數,如前饋網路的隱藏維度。針對這些結果,許多LLM提供商收緊了API限制,僅返回每個解碼token的單一logit,並移除了logit偏置功能,試圖阻止架構資訊的洩露。然而,一項由Christopher Ellis等六位研究人員共同完成的最新研究顯示,即使在這些嚴格限制下,關鍵架構屬性仍然具有可恢復性。該研究發表於arXiv(論文編號:2607.01313),並提出了名為NightVision的攻擊方法。

NightVision的核心創新在於“公共集提示”技術。該方法透過構造多個不同的提示,使模型輸出相同的token集合,從而獲取這些token的log機率。由於不同提示會改變內部表示的分佈,對多組log機率進行頻譜分析可以揭示隱藏維度的特徵訊號。此外,NightVision還利用了端到端的首個令牌延遲(TTFT)測量——即從輸入到生成第一個輸出token的時間。結合已估計的隱藏維度,TTFT與模型深度和引數數量存在關聯,進而可以估算出這些指標。

研究團隊在32個開源LLM上進行了全面評估,涵蓋多種規模和架構。實驗結果顯示,NightVision對隱藏維度的平均相對誤差為23%,而針對混合專家模型(MoE)時的誤差僅為9%。對於引數超過30億的模型,深度和引數數量的估計誤差控制在53%以內。研究還透過大量消融實驗探討了token預算、模型屬性等因素對精度的影響,驗證了方法的可擴充套件性和魯棒性。

NightVision的意義不僅在於其技術突破,更在於它揭示了當前LLM API在保護架構隱私方面的不足。儘管提供商採取了限制措施,但攻擊者仍能透過精心設計的提示和時序測量獲取敏感資訊。這項研究為LLM服務的安全設計提出了新的挑戰,提示提供商需要重新評估其隱私保護策略,例如引入噪聲或限制時序資訊的精度。同時,該結果也提醒使用者,依賴API訪問的模型並非完全“黑盒”,其內部結構可能在無意中被暴露。