AI News HubLIVE
站内改写2 分钟阅读

如何赢回开发者:GitHub的计划

由于AI代码生成带来的前所未有的增长,GitHub遭遇频繁宕机。该公司正在扩展基础设施,迁移至Azure,并重建核心系统以恢复可靠性。

来源The New Stack AI作者: Frederic Lardinois

在过去一年的大部分时间里,GitHub不再像开发者们长期习惯的那样稳定。从搜索到GitHub Actions及其依赖的CI/CD管道,宕机事件变得过于频繁。该公司在过去12个月里记录了数百起事件,并不得不公开道歉。

The New Stack与GitHub首席运营官Kyle Daigle(现兼任微软开发者首席营销官)探讨了这一切发生的原因以及GitHub的修复计划。Daigle表示,在这个AI编码时代,GitHub正面临前所未有的增长,甚至远超超增长云公司的通常水平。为了应对这种超增长,GitHub现在处于“全员出动”状态。

“这不仅仅是云时代常规的扩展解决方案——换更大的机器或增加更多机器,”Daigle说,“而是确保我们能在未来一年内扩展到30到40倍,而不是历史上令人印象深刻的每年100%增长。”GitHub的工程团队正在努力使系统能够处理当前30倍的提交、拉取请求和问题。

具有讽刺意味的是,GitHub本身在2021年推出Copilot,帮助开启了AI代码生成时代,但现在却不堪重负。2025年全年,该平台处理了10亿次提交,而现在每月处理14亿次。Daigle表示,仅AI代理每月就创建超过1700万个拉取请求。

GitHub正在将其数据中心迁移到微软Azure云以满足需求,但这不仅仅是增加容量。“我们一直关注的不仅是常规的扩展——继续获取更多CPU并进行水平和垂直扩展,更重要的是深入底层系统,更新、重建或改进那些执行核心工作的隐藏系统,”Daigle说。早期工作集中在减轻数据库压力上,包括解决MySQL争用、将Webhook完全移出MySQL,以及重新设计会话缓存和身份验证流程。对于GitHub Actions,任务分发方式被重写。更广泛的架构目标是隔离Actions和Git等关键服务,防止一个子系统崩溃拖垮其他系统。GitHub还将性能敏感代码从Ruby单体架构迁移到Go。

“大部分低垂的果实我们已经摘取,”Daigle承认,但改进难以量化。“提高可用性是一个两难问题,”他说,“当系统正常运行时,很难说‘看,我们做了这个改进’。”GitHub也在借助微软的力量。“GitHub现在是全员出动,”Daigle说,“我们得到了比以往更多的支持,有经验丰富的工程师来帮助我们快速扩展。”这些增援大多来自微软,包括曾大规模扩展系统的工程师。

尽管如此,GitHub仍在推出新功能,如新的Copilot应用。Daigle认为这些功能在低风险表面迭代,不会影响正在修复的系统。“如果我发布一个CLI功能,它不会具有与github.com相同的稳定性和弹性。”Daigle似乎对这段动荡期即将结束抱有希望:“希望每个月都比前一个月好一点,我们将全力以赴。”