2026-05-15 00:15 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GLiNER2-PII：0.3B參數開源PII模型超越OpenAI隱私過濾器

一款名為GLiNER2-PII的開源模型，僅有0.3B參數，在PII檢測任務上取得了最先進性能，在SPY基準測試中超越了OpenAI的隱私過濾器。該模型能識別42種實體類型，並基於多語言合成語料庫訓練。模型已在Hugging Face上公開發布。

來源Hacker News AI作者: neon_share1

隨着數據處理系統的廣泛應用，可靠地檢測個人身份信息（PII）變得至關重要。然而，由於PII跨度多樣、依賴地區、對上下文敏感，且常嵌入嘈雜或半結構化文檔中，這一任務充滿挑戰。Fastino Labs研究團隊提出了GLiNER2-PII，一個僅0.3B參數的小型模型，基於GLiNER2改進，能以字符跨度分辨率識別42種PII實體類型。訓練此類系統面臨標註數據匱乏和隱私風險，因為收集真實PII數據涉及大規模隱私問題。為解決這一挑戰，團隊構建了一個多語言合成語料庫，包含4,910條標註文本，採用約束驅動生成流水線，產生跨語言、跨領域、跨格式和跨實體分佈的多樣化逼真示例。在挑戰性的SPY基準測試中，GLiNER2-PII在五個比較系統中取得了最高的跨度級F1分數，包括OpenAI隱私過濾器和三個基於GLiNER的檢測器。這一結果表明，即使參數規模較小，精心設計的開源模型也能在PII檢測任務上超越商業解決方案。模型已在Hugging Face上公開發布，旨在支持開源PII檢測系統的進一步研究和實際部署。研究團隊還計劃繼續優化模型，以適應更多語言和實體類型，並探索在邊緣設備上的部署可能性。