AI News HubLIVE
站内改写3 分鐘閱讀

使用Spark實時模式與Lakebase構建實時欺詐檢測

傳統的欺詐檢測系統因依賴批量處理或複雜的流式引擎而存在檢測延遲。Databricks推出了Spark實時模式(RTM)和Lakebase,使數據團隊能夠在統一平台上構建端到端的實時欺詐檢測工作流,實現毫秒級交易處理、低延遲機器學習模型評分和可解釋的欺詐分數,無需外部基礎設施。本文介紹了一個開源解決方案加速器,包含四個漸進步驟:快速體驗RTM、構建生產級欺詐檢測管道、升級到機器學習模型、以及實時監控儀表板。

傳統的欺詐檢測系統面臨着滯後的檢測問題,它們要麼依賴緩慢的批量處理,要麼依賴繁瑣且生搬硬套的流式處理引擎,無法實時阻止威脅。為了應對這一挑戰,Databricks推出了Spark實時模式(Real-Time Mode,簡稱RTM)和Lakebase,使數據團隊能夠輕鬆構建並自動化端到端的欺詐檢測工作流:處理高吞吐量數據流、執行低延遲的機器學習模型,並提供可解釋的欺詐評分——所有這些都在一個統一的平台上完成,無需外部基礎設施。組織可以實現對欺詐交易的亞秒級干預,減少運營複雜性,同時保護收入和維護客户信任。

信用卡欺詐在幾秒鐘內就能發生。一張被盜的信用卡號可以在幾分鐘內被用於數十筆購買,一旦交易結算,追回資金就變得極其困難。根據Nilson Report的數據,金融機構每年因欺詐性信用卡交易損失約330億美元,而且隨着數字交易量的加速增長,這一數字只會繼續上升。挑戰不在於檢測欺詐——大多數組織已經擁有有效的欺詐模型和精心調整的規則——而在於足夠快速地檢測,以在交易結算之前(在授權與結算之間的亞秒級窗口內)阻止可疑交易,且無需增加一個獨立的、專門化的流式引擎,以免增加運營複雜性。

在這篇博客中,我們介紹了一個新的解決方案加速器:一個開源的參考實現,您可以克隆並直接部署到您的Databricks環境中。它演示瞭如何構建一個完整的端到端欺詐檢測系統,從原始交易攝入和實時機器學習評分,到使用Databricks Apps構建的實時監控儀表板,全部在Databricks平台上完成。其核心是兩項技術:用於Apache Spark結構化流處理的實時模式(RTM),可在Databricks上實現低於300毫秒的流處理;以及Lakebase,一個完全託管、無服務器的Postgres數據庫,內置於Databricks平台。

速度與簡潔性:實時欺詐檢測的權衡

欺詐檢測處於兩個相互衝突的需求之間。一方面,速度至關重要:一筆欺詐交易必須在數百毫秒內被識別並阻止。另一方面,簡潔性也不可或缺:數據團隊希望在一個單一平台上構建、訓練和部署欺詐模型,擁有統一治理、共享數據和一套工具,而不希望為了“最後一英里”的實時評分而維護一個獨立的流式棧。直到現在,團隊不得不做出選擇。使用RTM,這種權衡不再必要。

RTM:亞秒級處理,無需多系統運維負擔

RTM是Spark結構化流處理引擎的演進,可為延遲敏感的運營應用(如特徵工程)提供亞秒級數據處理。在速度方面,RTM在毫秒級處理事件,在無狀態轉換、基於連接的增強和聚合工作負載上比Apache Flink快92%。Coinbase等客户已使用RTM計算超過250個機器學習特徵,並實現了低於100毫秒的P99處理延遲。在簡潔性方面,RTM存在於您已經運行的Spark引擎內部,而非其旁邊。因此,您立即受益於:無邏輯漂移(相同代碼用於離線訓練和實時評分)、單一運營面(Spark UI、監控、告警等工具統一適用)、以及在成本與數據新鮮度之間的靈活切換。

構建實時欺詐檢測的四個步驟

該加速器包含四個漸進階段,每個階段建立在前一個基礎上。

第一步:即刻體驗實時模式 快速入門筆記本讓您的團隊在不到五分鐘內體驗實時模式,驗證核心延遲基準測試和平台適配性。它使用Spark內置的rate source生成合成交易,應用欺詐評分邏輯,並實時顯示結果。

第二步:構建欺詐檢測管道 生產級欺詐檢測管道從Kafka接收交易,經過解析、速度跟蹤(使用transformWithState維護每卡狀態)、特徵增強(從商户風險檔案和持卡人數據中查找)、評分(結合五個加權欺詐信號:速度、地理異常、金額偏差、商户類別風險和國別風險)和路由(最終決策:批准、標記審核或阻止)五個階段。端到端延遲測試顯示P50低於40毫秒,P99在215-392毫秒之間。

第三步:升級到機器學習 高級筆記本將邏輯升級為有監督的機器學習模型,引入Lakebase作為在線服務層(將特徵持續流式寫入Lakebase表,提供亞毫秒級讀取)和MLflow用於模型訓練與實驗跟蹤。隨機森林分類器學習信號之間的非線性關係,並隨時間改進。

第四步:實時監控一切 加速器包括一個基於Streamlit的Databricks Apps,直接從Lakebase讀取數據,提供實時欺詐監控儀表板,顯示總評分交易數、決策分佈、最新欺詐評分及概率分佈,每10秒自動刷新。