2026-04-30 08:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-27 08:25 UTC+8

從732字節到無處可逃：在生產環境中關閉Copy Fail漏洞

Together AI 詳細介紹了他們如何迅速應對 Linux 內核漏洞 Copy Fail（CVE-2026-31431），該漏洞允許本地無特權用户通過 AF_ALG 接口獲得精確的4字節寫入原語，從而實現權限提升。團隊通過立即卸載易受攻擊的內核模塊、滾動應用內核補丁，並加強檢測與監控，確保了 AI 基礎設施的安全。

來源Together AI Blog

文章情報

工程師進階

要點

Copy Fail（CVE-2026-31431）是 Linux 內核加密子系統中的一個邏輯錯誤，允許本地無特權用户對任意可讀文件的頁緩存實現精確4字節寫入。
Together AI 在數小時內卸載了 algif_aead 模塊並移除了模塊文件，阻止了漏洞利用，無需重啓。
公司正在逐步推出內核補丁，並計劃在非必要環境中保持該模塊禁用。
該事件凸顯了 AI 基礎設施中共享內核和多租户環境面臨的獨特安全挑戰。

為甚麼重要

這條新聞值得關注，因為Copy Fail（CVE-2026-31431）是 Linux 內核加密子系統中的一個邏輯錯誤，允許本地無特權用户對任意可讀文件的頁緩存實現精確4字節寫入。

技術影響

可能影響模型選型、推理成本、產品能力和評測基準。

本面板由 AI 生成，經人工審核。

Together AI 近日披露了其應對嚴重 Linux 內核漏洞 Copy Fail（CVE-2026-31431）的完整過程。該漏洞允許任何本地無特權用户通過 AF_ALG 套接字接口，對系統上任意可讀文件的頁緩存實施精確的4字節寫入。在實際攻擊中，公共利用代碼通過修改共享的 setuid 二進制文件在內存中的幾個字節，從而在主流 Linux 發行版上獲得 root 權限。由於磁盤上的文件從未改變，頁緩存也未被標記為髒，傳統的文件完整性檢查無法發現攻擊，即使被修改的二進制文件正在運行。

對於 AI 基礎設施而言，該漏洞的風險被顯著放大。在一個現代 AI 平台中，“本地”訪問通常包括 CI 作業、多租户 GPU 節點、臨時研究環境或第三方工作負載。一旦容器內的 AF_ALG 套接字被利用，攻擊者可以輕鬆獲得底層主機的 root 權限。由於頁緩存是共享的，一個工作負載的寫入可能會悄無聲息地破壞同一節點上其他租户使用的二進制文件或庫。一旦主機被攻陷，攻擊者就能更容易地訪問附加存儲、控制平面和相鄰工作負載。

Together AI 的響應策略非常直接：立即停用易受攻擊的 AF_ALG 接口。由於他們的生產工作負載並不依賴用户空間的 algif_aead 套接字，團隊能夠在整個集羣範圍內採取果斷行動：卸載 algif_aead 模塊以立即切斷易受攻擊的代碼路徑，並將模塊文件移出標準模塊目錄，防止系統或自動化工具在後續操作中重新加載它。這種方法具有快速、低風險且持久的特點：無需重啓（這對運行長時間 GPU 作業至關重要），且即使主機重啓到相同的內核版本，algif_aead 仍保持禁用狀態。該措施被編碼為配置管理中的冪等性合規檢查，主機只有在模塊卸載且 .ko 文件被隔離後才被視為健康。

在採取緊急緩解措施後，Together AI 開始分階段部署內核補丁。他們將補丁後的內核首先部署在非生產集羣中，這些集羣模擬了最重的 AI 工作負載，包括密集的多租户 GPU 節點。通過加速的浸泡測試驗證性能、GPU 驅動兼容性和穩定性後，補丁按區域和環境逐步推出，從共享較少的集羣開始，逐步推進到多租户環境。即使在打補丁之後，他們仍計劃在沒有明確需求的場景中繼續保持 algif_aead 禁用。

與此同時，檢測團隊在遙測系統中新增了針對 Copy Fail 的信號：對未預期的 AF_ALG 使用情況或加密模塊加載發出警報，並對特權二進制文件進行行為監控，即使磁盤鏡像未發生變化也能發現異常。

Copy Fail 漏洞清晰地展示了小型內核錯誤如何在 AI 基礎設施中產生巨大影響。共享內核和密集的多租户架構會將本地漏洞放大為跨租户風險；頁緩存技巧可以繞過傳統的基於文件完整性的防禦；而看似“無人使用”的窄接口可能突然成為主要攻擊面。Together AI 的經驗表明，持續收緊內核暴露模型、對非必要接口默認關閉、建立快速的集羣級切換機制，以及通過驗證管道確保這些決策不影響高性能 AI 工作負載，是保障安全的關鍵。