2026-04-27站内改写

如何使用OpenAI的隱私過濾器構建可擴展的Web應用

本文介紹瞭如何利用OpenAI新發布的開源隱私過濾器（Privacy Filter）構建三個可擴展的Web應用：文檔隱私探索器、圖像匿名化器和智能編輯粘貼板。每個應用都展示了該模型的不同能力，並通過gradio.Server實現高效的後端處理和自定義前端。

文章情報

工程師進階

要點

OpenAI發佈隱私過濾器（Privacy Filter），一個開源的個人身份信息（PII）檢測器，支持128k上下文和8個類別。
通過三個示例應用展示模型能力：文檔隱私探索器、圖像匿名化器、智能編輯粘貼板。
所有應用均基於gradio.Server構建，結合自定義HTML/JS前端與Gradio的隊列、ZeroGPU分配等功能。
模型為1.5B參數（50M活躍），在PII-Masking-300k基準上達到最優性能。

為甚麼重要

這條新聞值得關注，因為OpenAI發佈隱私過濾器（Privacy Filter），一個開源的個人身份信息（PII）檢測器，支持128k上下文和8個類別。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI本週在Hugging Face Hub上發佈了Privacy Filter，這是一個開源的個人身份信息（PII）檢測器，能夠在一個前向傳遞中標記128k上下文內的文本，覆蓋八個類別。本文基於該模型構建了三個Web應用，每個都展示了模型的不同方面。

模型概述

Privacy Filter是一個1.5B參數的模型，其中50M為活躍參數，採用Apache 2.0許可。它識別的PII類別包括：私人人物、私人地址、私人郵箱、私人電話、私人URL、私人日期、賬號和秘密。上下文長度為128,000個token，在PII-Masking-300k基準上達到了最先進的性能。

應用一：文檔隱私探索器

該應用允許用户上傳PDF或DOCX文檔，文檔中的PII會按類別高亮顯示，側邊欄提供過濾功能，頂部有摘要儀表板。Privacy Filter的單次128k上下文前向傳遞避免了分塊和拼接問題，BIOES解碼保持了邊界清晰。gradio.Server提供了自定義的閲讀視圖和單一隊列端點，使得併發上傳被序列化，並與ZeroGPU兼容。

應用二：圖像匿名化器

用户上傳圖像（如截圖），應用會通過OCR提取文本，運行Privacy Filter檢測PII，並在圖像上覆蓋黑色矩形條。用户可以在畫布上切換、拖動或手動添加遮蓋。gradio.Server處理模型調用，返回像素座標，所有前端交互均在瀏覽器中進行，無需往返服務器。

應用三：智能編輯粘貼板

用户粘貼敏感文本後，獲得兩個URL：一個公開的編輯版本（使用佔位符替換PII），另一個私密的揭示鏈接（需token驗證）。模型負責檢測和替換，而gradio.Server利用其FastAPI底層支持自定義路由，實現公開和token控制的視圖。整個服務包括存儲僅約200行代碼。

gradio.Server的作用

所有三個應用共享相同的架構：模型相關的計算通過@server.api裝飾器進入Gradio隊列，而靜態頁面和輕量級路由則使用普通的@server.get和@server.post。這種分離確保了隊列、ZeroGPU和客户端SDK的一致體驗，同時允許靈活的前端實現。

嘗試與推薦閲讀

讀者可以嘗試每個應用的原型鏈接，觀察Privacy Filter對真實文本的檢測效果。推薦閲讀OpenAI的官方發佈博客、模型卡以及相關的編輯示例。