2026-04-27站内改写

如何使用OpenAI的隱私過濾器構建可擴充套件的Web應用

本文介紹瞭如何利用OpenAI新發布的開源隱私過濾器（Privacy Filter）構建三個可擴充套件的Web應用：文件隱私探索器、影像匿名化器和智慧編輯貼上板。每個應用都展示了該模型的不同能力，並透過gradio.Server實現高效的後端處理和自定義前端。

文章情報

工程師進階

要點

OpenAI釋出隱私過濾器（Privacy Filter），一個開源的個人身份資訊（PII）檢測器，支援128k上下文和8個類別。
透過三個示例應用展示模型能力：文件隱私探索器、影像匿名化器、智慧編輯貼上板。
所有應用均基於gradio.Server構建，結合自定義HTML/JS前端與Gradio的佇列、ZeroGPU分配等功能。
模型為1.5B引數（50M活躍），在PII-Masking-300k基準上達到最優效能。

為什麼重要

這條新聞值得關注，因為OpenAI釋出隱私過濾器（Privacy Filter），一個開源的個人身份資訊（PII）檢測器，支援128k上下文和8個類別。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI本週在Hugging Face Hub上釋出了Privacy Filter，這是一個開源的個人身份資訊（PII）檢測器，能夠在一個前向傳遞中標記128k上下文內的文本，覆蓋八個類別。本文基於該模型構建了三個Web應用，每個都展示了模型的不同方面。

模型概述

Privacy Filter是一個1.5B引數的模型，其中50M為活躍引數，採用Apache 2.0許可。它識別的PII類別包括：私人人物、私人地址、私人郵箱、私人電話、私人URL、私人日期、賬號和秘密。上下文長度為128,000個token，在PII-Masking-300k基準上達到了最先進的效能。

應用一：文件隱私探索器

該應用允許使用者上傳PDF或DOCX文件，文件中的PII會按類別高亮顯示，側邊欄提供過濾功能，頂部有摘要儀表板。Privacy Filter的單次128k上下文前向傳遞避免了分塊和拼接問題，BIOES解碼保持了邊界清晰。gradio.Server提供了自定義的閱讀檢視和單一佇列端點，使得併發上傳被序列化，並與ZeroGPU相容。

應用二：影像匿名化器

使用者上傳影像（如截圖），應用會透過OCR提取文本，執行Privacy Filter檢測PII，並在影像上覆蓋黑色矩形條。使用者可以在畫布上切換、拖動或手動新增遮蓋。gradio.Server處理模型呼叫，返回畫素座標，所有前端互動均在瀏覽器中進行，無需往返伺服器。

應用三：智慧編輯貼上板

使用者貼上敏感文本後，獲得兩個URL：一個公開的編輯版本（使用佔位符替換PII），另一個私密的揭示連結（需token驗證）。模型負責檢測和替換，而gradio.Server利用其FastAPI底層支援自定義路由，實現公開和token控制的檢視。整個服務包括儲存僅約200行程式碼。

gradio.Server的作用

所有三個應用共享相同的架構：模型相關的計算透過@server.api裝飾器進入Gradio佇列，而靜態頁面和輕量級路由則使用普通的@server.get和@server.post。這種分離確保了佇列、ZeroGPU和客戶端SDK的一致體驗，同時允許靈活的前端實現。

嘗試與推薦閱讀

讀者可以嘗試每個應用的原型連結，觀察Privacy Filter對真實文本的檢測效果。推薦閱讀OpenAI的官方釋出部落格、模型卡以及相關的編輯示例。