AI News HubLIVE
站内改写

如何使用OpenAI的隱私過濾器構建可擴展的Web應用

本文介紹瞭如何利用OpenAI新發布的開源隱私過濾器(Privacy Filter)構建三個可擴展的Web應用:文檔隱私探索器、圖像匿名化器和智能編輯粘貼板。每個應用都展示了該模型的不同能力,並通過gradio.Server實現高效的後端處理和自定義前端。

文章情報

工程師進階

要點

  • OpenAI發佈隱私過濾器(Privacy Filter),一個開源的個人身份信息(PII)檢測器,支持128k上下文和8個類別。
  • 通過三個示例應用展示模型能力:文檔隱私探索器、圖像匿名化器、智能編輯粘貼板。
  • 所有應用均基於gradio.Server構建,結合自定義HTML/JS前端與Gradio的隊列、ZeroGPU分配等功能。
  • 模型為1.5B參數(50M活躍),在PII-Masking-300k基準上達到最優性能。

為甚麼重要

這條新聞值得關注,因為OpenAI發佈隱私過濾器(Privacy Filter),一個開源的個人身份信息(PII)檢測器,支持128k上下文和8個類別。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI本週在Hugging Face Hub上發佈了Privacy Filter,這是一個開源的個人身份信息(PII)檢測器,能夠在一個前向傳遞中標記128k上下文內的文本,覆蓋八個類別。本文基於該模型構建了三個Web應用,每個都展示了模型的不同方面。

模型概述

Privacy Filter是一個1.5B參數的模型,其中50M為活躍參數,採用Apache 2.0許可。它識別的PII類別包括:私人人物、私人地址、私人郵箱、私人電話、私人URL、私人日期、賬號和秘密。上下文長度為128,000個token,在PII-Masking-300k基準上達到了最先進的性能。

應用一:文檔隱私探索器

該應用允許用户上傳PDF或DOCX文檔,文檔中的PII會按類別高亮顯示,側邊欄提供過濾功能,頂部有摘要儀表板。Privacy Filter的單次128k上下文前向傳遞避免了分塊和拼接問題,BIOES解碼保持了邊界清晰。gradio.Server提供了自定義的閲讀視圖和單一隊列端點,使得併發上傳被序列化,並與ZeroGPU兼容。

應用二:圖像匿名化器

用户上傳圖像(如截圖),應用會通過OCR提取文本,運行Privacy Filter檢測PII,並在圖像上覆蓋黑色矩形條。用户可以在畫布上切換、拖動或手動添加遮蓋。gradio.Server處理模型調用,返回像素座標,所有前端交互均在瀏覽器中進行,無需往返服務器。

應用三:智能編輯粘貼板

用户粘貼敏感文本後,獲得兩個URL:一個公開的編輯版本(使用佔位符替換PII),另一個私密的揭示鏈接(需token驗證)。模型負責檢測和替換,而gradio.Server利用其FastAPI底層支持自定義路由,實現公開和token控制的視圖。整個服務包括存儲僅約200行代碼。

gradio.Server的作用

所有三個應用共享相同的架構:模型相關的計算通過@server.api裝飾器進入Gradio隊列,而靜態頁面和輕量級路由則使用普通的@server.get和@server.post。這種分離確保了隊列、ZeroGPU和客户端SDK的一致體驗,同時允許靈活的前端實現。

嘗試與推薦閲讀

讀者可以嘗試每個應用的原型鏈接,觀察Privacy Filter對真實文本的檢測效果。推薦閲讀OpenAI的官方發佈博客、模型卡以及相關的編輯示例。