2026-06-10站内改写2 分鐘閱讀更新: 2026-06-12

停止手動調優內核：Neuron Agentic Development如何加速AWS Trainium優化

AWS推出Neuron Agentic Development功能，通過AI代理和技能集，使開發者無需深厚硬件知識即可為Trainium和Inferentia編寫、調試和優化自定義內核，大幅縮短開發週期。

來源AWS Machine Learning Blog作者: Josh Longenecker

隨着前沿AI模型規模的不斷增長，開發者面臨一個共同挑戰：如何從硬件中提取最大性能和效率。無論是為世界模型提供實時體驗、支持代理工作流中的深度推理，還是降低大規模推理成本，硬件理論性能與實際團隊能達到的效果之間始終存在差距。自定義內核開發是縮小這一差距的傳統途徑，但它需要深厚的架構專業知識、手動性能分析工作流以及迭代優化週期，這些是大多數團隊無法承擔的。

今天，AWS宣佈推出Neuron Agentic Development功能：一系列AI代理和技能，使在AWS Trainium和AWS Inferentia上構建的開發者能夠實現這一目標。首批功能使Kiro和Claude中的編碼代理能夠編寫、調試和分析Neuron內核接口（NKI）內核，將ML性能工程擴展到團隊中的每位開發者。來自其他架構的內核開發者可以快速適應Trainium，團隊可以縮短從想法到硬件優化實現的時間，而曾經限制內核開發的深層架構知識現在通過代理工具在每個步驟中引導開發者。

Neuron Agentic Development技能集

該包提供五個專業技能，遵循自然的內核開發流程：編寫→調試→分析→查詢。開發者可以單獨調用技能執行特定任務，或通過neuron-nki-agent將它們串聯起來，該代理會根據請求自動選擇正確的工作流程。要使用它們，將技能添加到代理IDE的技能目錄中。

內核編寫：neuron-nki-writing技能是創建NKI內核的起點。它將PyTorch、NumPy或自然語言描述轉換為正確的NKI代碼，涵蓋尊重硬件約束的分塊策略、內存訪問模式、計算操作以及效率指南。該技能按複雜度分類任務，僅加載所需參考。

調試：neuron-nki-debugging技能提供系統化工作流，用於解決Trainium和Inferentia硬件上的NKI編譯和執行錯誤，包括環境設置、編譯器錯誤解析（涵蓋全部28個NCC錯誤代碼）以及數值驗證。

性能分析和查詢：neuron-nki-profiling技能在硬件上捕獲執行配置文件，配置運行時檢查環境變量，運行內核，識別正確的NEFF文件，並通過neuron-explorer捕獲跟蹤，包括DMA級詳細信息。然後，neuron-nki-profile-querying技能攝取NEFF和NTFF文件，運行SQL查詢以計算性能邊界、識別瓶頸引擎，並將低效定位到特定NKI源代碼行。支持三種分析方式：neuron-explorer API服務器、DuckDB直接查詢Parquet文件或pandas自定義計算。

文檔：neuron-nki-docs技能在整個開發過程中使用，提供API簽名、錯誤代碼解釋、教程和架構細節。

代理

雖然技能為單個任務提供了構建塊，但代理將多個技能組合成自主工作流。每個代理是一個專門的角色，端到端處理多步驟開發場景。

neuron-nki-agent是統一的入口點，自動選擇正確的工作流並編排相應技能。此外還有專門的編寫代理、調試代理、文檔代理和分析代理。

實戰：優化自定義softmax內核

假設您的推理管道中有一個PyTorch softmax操作成為瓶頸，您希望編寫自定義NKI內核將其與前面的縮放操作融合。

步驟0：設置實例和環境——啓動trn2.3xlarge實例，安裝Kiro和Neuron Agentic Development技能，並確認Neuron設備可見。

步驟1：編寫內核——在Kiro CLI中輸入提示：“編寫一個計算softmax(x * scale)沿最後一維的NKI內核，輸入形狀為[batch, seq_len, hidden_dim]，bfloat16格式。”代理生成一個完整的三遍內核（行最大值、指數和、歸一化），使用了硬件加速的exp和float32累積以提高數值穩定性。

步驟2：在硬件上調試——要求代理運行內核並驗證數值一致性。代理遇到廣播問題，查閲NKI參考模式後，通過步長為0的訪問視圖解決了問題。所有四個測試案例均通過，最大誤差在bfloat16容差內。

步驟3：分析內核執行——使用SwiGLU MLP內核演示性能分析。代理捕獲配置文件後，進行兩部分調查：首先檢查內核級統計信息和性能邊界，發現張量引擎佔主導且效率低下，DMA引擎存在冗餘和低效工作。然後通過SQL查詢精確定位到三行有問題的NKI代碼。

注意事項

分析和調試技能需要在實際的Trainium或Inferentia實例上執行，而編寫和文檔技能可在任何地方運行。所有技能針對當前NKI API（0.4.0）。

Neuron Agentic Development正在將內核開發民主化，讓更多開發者能夠為特定硬件優化模型，而無需成為芯片專家。