2026-05-15 01:15 UTC+9サイト内リライト1 分で読了更新: 2026-06-30 22:03 UTC+9

GLiNER2-PII：0.3BパラメータのオープンソースPIIモデルがOpenAIのプライバシーフィルターを上回る

新しいオープンソースモデルGLiNER2-PII（0.3Bパラメータ）が、PII検出において最先端のパフォーマンスを達成し、SPYベンチマークでOpenAIのプライバシーフィルターを上回りました。42のエンティティタイプを認識し、多言語合成コーパスで訓練されています。モデルはHugging Faceで公開されています。

ソースHacker News AI著者: neon_share1

現代のデータ処理システムにおいて、個人識別情報（PII）の信頼性の高い検出の重要性が高まっていますが、PIIスパンは多様で地域依存、文脈依存であり、ノイズの多い半構造化ドキュメントに埋め込まれていることが課題です。Fastino Labsの研究チームは、GLiNER2を基にした0.3Bパラメータの小型モデルGLiNER2-PIIを開発しました。このモデルは42のPIIエンティティタイプを文字スパン解像度で認識します。訓練には、制約駆動型生成パイプラインを用いて構築された多言語合成コーパス（4,910テキスト）を使用し、言語、ドメイン、フォーマット、エンティティ分布にわたる多様な例を生成しました。挑戦的なSPYベンチマークにおいて、GLiNER2-PIIはOpenAIプライバシーフィルターや3つのGLiNERベースの検出器を含む5つの比較システムの中で最高のスパンレベルF1スコアを達成しました。この成果は、小規模なオープンソースモデルであっても、適切に設計されれば商用ソリューションを凌駕できることを示しています。モデルはHugging Faceで公開されており、オープンなPII検出システムの研究と実用的展開を支援しています。研究チームは今後、より多くの言語やエンティティタイプに対応するための最適化や、エッジデバイスへの展開可能性についても検討する予定です。