AI News HubLIVE
站内改写3 分鐘閱讀

停止手動調優核心:Neuron Agentic Development如何加速AWS Trainium最佳化

AWS推出Neuron Agentic Development功能,透過AI代理和技能集,使開發者無需深厚硬體知識即可為Trainium和Inferentia編寫、除錯和最佳化自定義核心,大幅縮短開發週期。

來源AWS Machine Learning Blog作者: Josh Longenecker

隨著前沿AI模型規模的不斷增長,開發者面臨一個共同挑戰:如何從硬體中提取最大效能和效率。無論是為世界模型提供即時體驗、支援代理工作流中的深度推理,還是降低大規模推理成本,硬體理論效能與實際團隊能達到的效果之間始終存在差距。自定義核心開發是縮小這一差距的傳統途徑,但它需要深厚的架構專業知識、手動效能分析工作流以及迭代最佳化週期,這些是大多數團隊無法承擔的。

今天,AWS宣佈推出Neuron Agentic Development功能:一系列AI代理和技能,使在AWS Trainium和AWS Inferentia上構建的開發者能夠實現這一目標。首批功能使Kiro和Claude中的編碼代理能夠編寫、除錯和分析Neuron核心介面(NKI)核心,將ML效能工程擴充套件到團隊中的每位開發者。來自其他架構的核心開發者可以快速適應Trainium,團隊可以縮短從想法到硬體最佳化實現的時間,而曾經限制核心開發的深層架構知識現在透過代理工具在每個步驟中引導開發者。

Neuron Agentic Development技能集

該包提供五個專業技能,遵循自然的核心開發流程:編寫→除錯→分析→查詢。開發者可以單獨呼叫技能執行特定任務,或透過neuron-nki-agent將它們串聯起來,該代理會根據請求自動選擇正確的工作流程。要使用它們,將技能新增到代理IDE的技能目錄中。

核心編寫:neuron-nki-writing技能是建立NKI核心的起點。它將PyTorch、NumPy或自然語言描述轉換為正確的NKI程式碼,涵蓋尊重硬體約束的分塊策略、記憶體訪問模式、計算操作以及效率指南。該技能按複雜度分類任務,僅載入所需參考。

除錯:neuron-nki-debugging技能提供系統化工作流,用於解決Trainium和Inferentia硬體上的NKI編譯和執行錯誤,包括環境設定、編譯器錯誤解析(涵蓋全部28個NCC錯誤程式碼)以及數值驗證。

效能分析和查詢:neuron-nki-profiling技能在硬體上捕獲執行配置檔案,配置執行時檢查環境變數,執行核心,識別正確的NEFF檔案,並透過neuron-explorer捕獲跟蹤,包括DMA級詳細資訊。然後,neuron-nki-profile-querying技能攝取NEFF和NTFF檔案,執行SQL查詢以計算效能邊界、識別瓶頸引擎,並將低效定位到特定NKI原始碼行。支援三種分析方式:neuron-explorer API伺服器、DuckDB直接查詢Parquet檔案或pandas自定義計算。

文件:neuron-nki-docs技能在整個開發過程中使用,提供API簽名、錯誤程式碼解釋、教程和架構細節。

代理

雖然技能為單個任務提供了構建塊,但代理將多個技能組合成自主工作流。每個代理是一個專門的角色,端到端處理多步驟開發場景。

neuron-nki-agent是統一的入口點,自動選擇正確的工作流並編排相應技能。此外還有專門的編寫代理、除錯代理、文件代理和分析代理。

實戰:最佳化自定義softmax核心

假設您的推理管道中有一個PyTorch softmax操作成為瓶頸,您希望編寫自定義NKI核心將其與前面的縮放操作融合。

步驟0:設定例項和環境——啟動trn2.3xlarge例項,安裝Kiro和Neuron Agentic Development技能,並確認Neuron裝置可見。

步驟1:編寫核心——在Kiro CLI中輸入提示:“編寫一個計算softmax(x * scale)沿最後一維的NKI核心,輸入形狀為[batch, seq_len, hidden_dim],bfloat16格式。”代理生成一個完整的三遍核心(行最大值、指數和、歸一化),使用了硬體加速的exp和float32累積以提高數值穩定性。

步驟2:在硬體上除錯——要求代理執行核心並驗證數值一致性。代理遇到廣播問題,查閱NKI參考模式後,透過步長為0的訪問檢視解決了問題。所有四個測試案例均透過,最大誤差在bfloat16容差內。

步驟3:分析核心執行——使用SwiGLU MLP核心演示效能分析。代理捕獲配置檔案後,進行兩部分調查:首先檢查核心級統計資訊和效能邊界,發現張量引擎佔主導且效率低下,DMA引擎存在冗餘和低效工作。然後透過SQL查詢精確定位到三行有問題的NKI程式碼。

注意事項

分析和除錯技能需要在實際的Trainium或Inferentia例項上執行,而編寫和文件技能可在任何地方執行。所有技能針對當前NKI API(0.4.0)。

Neuron Agentic Development正在將核心開發民主化,讓更多開發者能夠為特定硬體最佳化模型,而無需成為晶片專家。