AI News HubLIVE
站内改写2 分钟阅读

从732字节到无处可逃:在生产环境中关闭Copy Fail漏洞

Together AI 详细介绍了他们如何迅速应对 Linux 内核漏洞 Copy Fail(CVE-2026-31431),该漏洞允许本地无特权用户通过 AF_ALG 接口获得精确的4字节写入原语,从而实现权限提升。团队通过立即卸载易受攻击的内核模块、滚动应用内核补丁,并加强检测与监控,确保了 AI 基础设施的安全。

Together AI 近日披露了其应对严重 Linux 内核漏洞 Copy Fail(CVE-2026-31431)的完整过程。该漏洞允许任何本地无特权用户通过 AF_ALG 套接字接口,对系统上任意可读文件的页缓存实施精确的4字节写入。在实际攻击中,公共利用代码通过修改共享的 setuid 二进制文件在内存中的几个字节,从而在主流 Linux 发行版上获得 root 权限。由于磁盘上的文件从未改变,页缓存也未被标记为脏,传统的文件完整性检查无法发现攻击,即使被修改的二进制文件正在运行。

对于 AI 基础设施而言,该漏洞的风险被显著放大。在一个现代 AI 平台中,“本地”访问通常包括 CI 作业、多租户 GPU 节点、临时研究环境或第三方工作负载。一旦容器内的 AF_ALG 套接字被利用,攻击者可以轻松获得底层主机的 root 权限。由于页缓存是共享的,一个工作负载的写入可能会悄无声息地破坏同一节点上其他租户使用的二进制文件或库。一旦主机被攻陷,攻击者就能更容易地访问附加存储、控制平面和相邻工作负载。

Together AI 的响应策略非常直接:立即停用易受攻击的 AF_ALG 接口。由于他们的生产工作负载并不依赖用户空间的 algif_aead 套接字,团队能够在整个集群范围内采取果断行动:卸载 algif_aead 模块以立即切断易受攻击的代码路径,并将模块文件移出标准模块目录,防止系统或自动化工具在后续操作中重新加载它。这种方法具有快速、低风险且持久的特点:无需重启(这对运行长时间 GPU 作业至关重要),且即使主机重启到相同的内核版本,algif_aead 仍保持禁用状态。该措施被编码为配置管理中的幂等性合规检查,主机只有在模块卸载且 .ko 文件被隔离后才被视为健康。

在采取紧急缓解措施后,Together AI 开始分阶段部署内核补丁。他们将补丁后的内核首先部署在非生产集群中,这些集群模拟了最重的 AI 工作负载,包括密集的多租户 GPU 节点。通过加速的浸泡测试验证性能、GPU 驱动兼容性和稳定性后,补丁按区域和环境逐步推出,从共享较少的集群开始,逐步推进到多租户环境。即使在打补丁之后,他们仍计划在没有明确需求的场景中继续保持 algif_aead 禁用。

与此同时,检测团队在遥测系统中新增了针对 Copy Fail 的信号:对未预期的 AF_ALG 使用情况或加密模块加载发出警报,并对特权二进制文件进行行为监控,即使磁盘镜像未发生变化也能发现异常。

Copy Fail 漏洞清晰地展示了小型内核错误如何在 AI 基础设施中产生巨大影响。共享内核和密集的多租户架构会将本地漏洞放大为跨租户风险;页缓存技巧可以绕过传统的基于文件完整性的防御;而看似“无人使用”的窄接口可能突然成为主要攻击面。Together AI 的经验表明,持续收紧内核暴露模型、对非必要接口默认关闭、建立快速的集群级切换机制,以及通过验证管道确保这些决策不影响高性能 AI 工作负载,是保障安全的关键。