AI News HubLIVE
站內改寫1 分鐘閱讀

核心轉儲流行病學:修復一個18年的錯誤

OpenAI工程師透過大規模核心轉儲分析,除錯罕見的基礎設施崩潰,發現了硬體故障和一個長期的軟體錯誤。

OpenAI的工程師們最近利用了一種被稱為“核心轉儲流行病學”的方法,對罕見的基礎設施崩潰進行了深入分析。核心轉儲是程式崩潰時生成的記憶體快照,透過大規模收集和分析這些資料,工程師們能夠識別出兩個不同的問題:一個是硬體故障,另一個則是潛伏了長達18年的軟體錯誤。

這種方法類似於流行病學如何追蹤疾病的傳播模式,但應用於系統崩潰。透過檢查數千個核心轉儲檔案,團隊發現了崩潰背後共同的模式,從而定位到了根本原因。硬體故障涉及特定元件的退化,而軟體錯誤則是一個在早期程式碼中遺留的邊界條件問題,直到最近才在特定負載下被觸發。

這次調查不僅修復了當前的問題,還展示了大規模資料分析在系統可靠性工程中的潛力。OpenAI計劃將這種方法整合到常規監控中,以預防未來類似的問題。