AI News HubLIVE
站內改寫2 分鐘閱讀

從732位元組到無處可逃:在生產環境中關閉Copy Fail漏洞

Together AI 詳細介紹了他們如何迅速應對 Linux 核心漏洞 Copy Fail(CVE-2026-31431),該漏洞允許本地無特權使用者透過 AF_ALG 介面獲得精確的4位元組寫入原語,從而實現許可權提升。團隊透過立即解除安裝易受攻擊的核心模組、滾動應用核心補丁,並加強檢測與監控,確保了 AI 基礎設施的安全。

Together AI 近日披露了其應對嚴重 Linux 核心漏洞 Copy Fail(CVE-2026-31431)的完整過程。該漏洞允許任何本地無特權使用者透過 AF_ALG 套接字介面,對系統上任意可讀檔案的頁快取實施精確的4位元組寫入。在實際攻擊中,公共利用程式碼透過修改共享的 setuid 二進位制檔案在記憶體中的幾個位元組,從而在主流 Linux 發行版上獲得 root 許可權。由於磁碟上的檔案從未改變,頁快取也未被標記為髒,傳統的檔案完整性檢查無法發現攻擊,即使被修改的二進位制檔案正在執行。

對於 AI 基礎設施而言,該漏洞的風險被顯著放大。在一個現代 AI 平臺中,“本地”訪問通常包括 CI 作業、多租戶 GPU 節點、臨時研究環境或第三方工作負載。一旦容器內的 AF_ALG 套接字被利用,攻擊者可以輕鬆獲得底層主機的 root 許可權。由於頁快取是共享的,一個工作負載的寫入可能會悄無聲息地破壞同一節點上其他租戶使用的二進位制檔案或庫。一旦主機被攻陷,攻擊者就能更容易地訪問附加儲存、控制平面和相鄰工作負載。

Together AI 的響應策略非常直接:立即停用易受攻擊的 AF_ALG 介面。由於他們的生產工作負載並不依賴使用者空間的 algif_aead 套接字,團隊能夠在整個叢集範圍內採取果斷行動:解除安裝 algif_aead 模組以立即切斷易受攻擊的程式碼路徑,並將模組檔案移出標準模組目錄,防止系統或自動化工具在後續操作中重新載入它。這種方法具有快速、低風險且持久的特點:無需重啟(這對執行長時間 GPU 作業至關重要),且即使主機重啟到相同的核心版本,algif_aead 仍保持停用狀態。該措施被編碼為配置管理中的冪等性合規檢查,主機只有在模組解除安裝且 .ko 檔案被隔離後才被視為健康。

在採取緊急緩解措施後,Together AI 開始分階段部署核心補丁。他們將補丁後的核心首先部署在非生產叢集中,這些叢集模擬了最重的 AI 工作負載,包括密集的多租戶 GPU 節點。透過加速的浸泡測試驗證效能、GPU 驅動相容性和穩定性後,補丁按區域和環境逐步推出,從共享較少的叢集開始,逐步推進到多租戶環境。即使在打補丁之後,他們仍計劃在沒有明確需求的場景中繼續保持 algif_aead 停用。

與此同時,檢測團隊在遙測系統中新增了針對 Copy Fail 的訊號:對未預期的 AF_ALG 使用情況或加密模組載入發出警報,並對特權二進位制檔案進行行為監控,即使磁碟映象未發生變化也能發現異常。

Copy Fail 漏洞清晰地展示了小型核心錯誤如何在 AI 基礎設施中產生巨大影響。共享核心和密集的多租戶架構會將本地漏洞放大為跨租戶風險;頁快取技巧可以繞過傳統的基於檔案完整性的防禦;而看似“無人使用”的窄介面可能突然成為主要攻擊面。Together AI 的經驗表明,持續收緊核心暴露模型、對非必要介面預設關閉、建立快速的叢集級切換機制,以及透過驗證管道確保這些決策不影響高效能 AI 工作負載,是保障安全的關鍵。