2026-05-15 00:15 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

GLiNER2-PII：0.3B引數開源PII模型超越OpenAI隱私過濾器

一款名為GLiNER2-PII的開源模型，僅有0.3B引數，在PII檢測任務上取得了最先進效能，在SPY基準測試中超越了OpenAI的隱私過濾器。該模型能識別42種實體型別，並基於多語言合成語料庫訓練。模型已在Hugging Face上公開發布。

來源Hacker News AI作者: neon_share1

隨著資料處理系統的廣泛應用，可靠地檢測個人身份資訊（PII）變得至關重要。然而，由於PII跨度多樣、依賴地區、對上下文敏感，且常嵌入嘈雜或半結構化文件中，這一任務充滿挑戰。Fastino Labs研究團隊提出了GLiNER2-PII，一個僅0.3B引數的小型模型，基於GLiNER2改進，能以字元跨度解析度識別42種PII實體型別。訓練此類系統面臨標註資料匱乏和隱私風險，因為收集真實PII資料涉及大規模隱私問題。為解決這一挑戰，團隊構建了一個多語言合成語料庫，包含4,910條標註文本，採用約束驅動生成流水線，產生跨語言、跨領域、跨格式和跨實體分佈的多樣化逼真示例。在挑戰性的SPY基準測試中，GLiNER2-PII在五個比較系統中取得了最高的跨度級F1分數，包括OpenAI隱私過濾器和三個基於GLiNER的檢測器。這一結果表明，即使引數規模較小，精心設計的開源模型也能在PII檢測任務上超越商業解決方案。模型已在Hugging Face上公開發布，旨在支援開源PII檢測系統的進一步研究和實際部署。研究團隊還計劃繼續最佳化模型，以適應更多語言和實體型別，並探索在邊緣裝置上的部署可能性。