AI News HubLIVE
站內改寫2 分鐘閱讀

從732字節到無處可逃:在生產環境中關閉Copy Fail漏洞

Together AI 詳細介紹了他們如何迅速應對 Linux 內核漏洞 Copy Fail(CVE-2026-31431),該漏洞允許本地無特權用户通過 AF_ALG 接口獲得精確的4字節寫入原語,從而實現權限提升。團隊通過立即卸載易受攻擊的內核模塊、滾動應用內核補丁,並加強檢測與監控,確保了 AI 基礎設施的安全。

Together AI 近日披露了其應對嚴重 Linux 內核漏洞 Copy Fail(CVE-2026-31431)的完整過程。該漏洞允許任何本地無特權用户通過 AF_ALG 套接字接口,對系統上任意可讀文件的頁緩存實施精確的4字節寫入。在實際攻擊中,公共利用代碼通過修改共享的 setuid 二進制文件在內存中的幾個字節,從而在主流 Linux 發行版上獲得 root 權限。由於磁盤上的文件從未改變,頁緩存也未被標記為髒,傳統的文件完整性檢查無法發現攻擊,即使被修改的二進制文件正在運行。

對於 AI 基礎設施而言,該漏洞的風險被顯著放大。在一個現代 AI 平台中,“本地”訪問通常包括 CI 作業、多租户 GPU 節點、臨時研究環境或第三方工作負載。一旦容器內的 AF_ALG 套接字被利用,攻擊者可以輕鬆獲得底層主機的 root 權限。由於頁緩存是共享的,一個工作負載的寫入可能會悄無聲息地破壞同一節點上其他租户使用的二進制文件或庫。一旦主機被攻陷,攻擊者就能更容易地訪問附加存儲、控制平面和相鄰工作負載。

Together AI 的響應策略非常直接:立即停用易受攻擊的 AF_ALG 接口。由於他們的生產工作負載並不依賴用户空間的 algif_aead 套接字,團隊能夠在整個集羣範圍內採取果斷行動:卸載 algif_aead 模塊以立即切斷易受攻擊的代碼路徑,並將模塊文件移出標準模塊目錄,防止系統或自動化工具在後續操作中重新加載它。這種方法具有快速、低風險且持久的特點:無需重啓(這對運行長時間 GPU 作業至關重要),且即使主機重啓到相同的內核版本,algif_aead 仍保持禁用狀態。該措施被編碼為配置管理中的冪等性合規檢查,主機只有在模塊卸載且 .ko 文件被隔離後才被視為健康。

在採取緊急緩解措施後,Together AI 開始分階段部署內核補丁。他們將補丁後的內核首先部署在非生產集羣中,這些集羣模擬了最重的 AI 工作負載,包括密集的多租户 GPU 節點。通過加速的浸泡測試驗證性能、GPU 驅動兼容性和穩定性後,補丁按區域和環境逐步推出,從共享較少的集羣開始,逐步推進到多租户環境。即使在打補丁之後,他們仍計劃在沒有明確需求的場景中繼續保持 algif_aead 禁用。

與此同時,檢測團隊在遙測系統中新增了針對 Copy Fail 的信號:對未預期的 AF_ALG 使用情況或加密模塊加載發出警報,並對特權二進制文件進行行為監控,即使磁盤鏡像未發生變化也能發現異常。

Copy Fail 漏洞清晰地展示了小型內核錯誤如何在 AI 基礎設施中產生巨大影響。共享內核和密集的多租户架構會將本地漏洞放大為跨租户風險;頁緩存技巧可以繞過傳統的基於文件完整性的防禦;而看似“無人使用”的窄接口可能突然成為主要攻擊面。Together AI 的經驗表明,持續收緊內核暴露模型、對非必要接口默認關閉、建立快速的集羣級切換機制,以及通過驗證管道確保這些決策不影響高性能 AI 工作負載,是保障安全的關鍵。