AI News HubLIVE
站内改写

如何使用OpenAI的隱私過濾器構建可擴充套件的Web應用

本文介紹瞭如何利用OpenAI新發布的開源隱私過濾器(Privacy Filter)構建三個可擴充套件的Web應用:文件隱私探索器、影像匿名化器和智慧編輯貼上板。每個應用都展示了該模型的不同能力,並透過gradio.Server實現高效的後端處理和自定義前端。

文章情報

工程師進階

要點

  • OpenAI釋出隱私過濾器(Privacy Filter),一個開源的個人身份資訊(PII)檢測器,支援128k上下文和8個類別。
  • 透過三個示例應用展示模型能力:文件隱私探索器、影像匿名化器、智慧編輯貼上板。
  • 所有應用均基於gradio.Server構建,結合自定義HTML/JS前端與Gradio的佇列、ZeroGPU分配等功能。
  • 模型為1.5B引數(50M活躍),在PII-Masking-300k基準上達到最優效能。

為什麼重要

這條新聞值得關注,因為OpenAI釋出隱私過濾器(Privacy Filter),一個開源的個人身份資訊(PII)檢測器,支援128k上下文和8個類別。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

OpenAI本週在Hugging Face Hub上釋出了Privacy Filter,這是一個開源的個人身份資訊(PII)檢測器,能夠在一個前向傳遞中標記128k上下文內的文本,覆蓋八個類別。本文基於該模型構建了三個Web應用,每個都展示了模型的不同方面。

模型概述

Privacy Filter是一個1.5B引數的模型,其中50M為活躍引數,採用Apache 2.0許可。它識別的PII類別包括:私人人物、私人地址、私人郵箱、私人電話、私人URL、私人日期、賬號和秘密。上下文長度為128,000個token,在PII-Masking-300k基準上達到了最先進的效能。

應用一:文件隱私探索器

該應用允許使用者上傳PDF或DOCX文件,文件中的PII會按類別高亮顯示,側邊欄提供過濾功能,頂部有摘要儀表板。Privacy Filter的單次128k上下文前向傳遞避免了分塊和拼接問題,BIOES解碼保持了邊界清晰。gradio.Server提供了自定義的閱讀檢視和單一佇列端點,使得併發上傳被序列化,並與ZeroGPU相容。

應用二:影像匿名化器

使用者上傳影像(如截圖),應用會透過OCR提取文本,執行Privacy Filter檢測PII,並在影像上覆蓋黑色矩形條。使用者可以在畫布上切換、拖動或手動新增遮蓋。gradio.Server處理模型呼叫,返回畫素座標,所有前端互動均在瀏覽器中進行,無需往返伺服器。

應用三:智慧編輯貼上板

使用者貼上敏感文本後,獲得兩個URL:一個公開的編輯版本(使用佔位符替換PII),另一個私密的揭示連結(需token驗證)。模型負責檢測和替換,而gradio.Server利用其FastAPI底層支援自定義路由,實現公開和token控制的檢視。整個服務包括儲存僅約200行程式碼。

gradio.Server的作用

所有三個應用共享相同的架構:模型相關的計算透過@server.api裝飾器進入Gradio佇列,而靜態頁面和輕量級路由則使用普通的@server.get和@server.post。這種分離確保了佇列、ZeroGPU和客戶端SDK的一致體驗,同時允許靈活的前端實現。

嘗試與推薦閱讀

讀者可以嘗試每個應用的原型連結,觀察Privacy Filter對真實文本的檢測效果。推薦閱讀OpenAI的官方釋出部落格、模型卡以及相關的編輯示例。