2026-06-01 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

探索自主代理資料工程實現模型專業化

大型語言模型在通用任務上表現出色，但難以適應專業領域。本文提出自主代理資料工程任務，讓LLM作為自主資料工程師，透過端到端資料策劃驅動模型專業化。實驗表明，GPT-5.2透過迭代代理驅動的資料適應，將學生模型效能提升57.29%。

來源arXiv Computational Linguistics作者: Yujie Luo, Xiangyuan Ru, Jingsheng Zheng, Jingjing Wang, Yuqi Zhu, Jintian Zhang, Runnan Fang, Kewei Xu, Ye Liu, Zheng Wei, Jiang Bian, Zang Li, Shumin Deng

大型語言模型（LLM）在通用自然語言處理任務中展現了卓越的效能，但面對專業領域時，由於缺乏高質量、領域特定的訓練資料，其表現常常不盡如人意。現有的基於LLM的資料策劃方法大多依賴於人工設計的流程，這些流程雖然有效，但需要大量的專家知識和手動調整，限制了自動化和可擴充套件性。針對這一挑戰，一篇新的研究論文正式定義了“自主代理資料工程”（Autonomous Agentic Data Engineering）這一新任務，旨在評估LLM作為自主資料工程師的能力，透過端到端的資料策劃來驅動模型專業化。

該研究將資料視為一個可最佳化的元件，並設計了一種智慧代理，能夠自主規劃、生成和迭代最佳化多個領域的訓練資料，其最佳化目標直接指向訓練後的效能提升。與傳統的靜態資料策劃不同，這種代理驅動的資料適應過程是動態和自適應的，能夠根據模型反饋不斷調整訓練資料，從而實現更高效的模型專業化。

實驗結果顯示，自主LLM資料工程師帶來了顯著的效能提升。具體而言，使用GPT-5.2作為基礎模型，透過構建迭代式的代理驅動訓練課程，將一個小型學生模型的效能提升了驚人的57.29%。這一改進完全是透過自動化的、代理驅動的資料適應實現的，無需人工干預或手動資料工程。研究不僅展示了這一方法的巨大潛力，也揭示了當前存在的一些瓶頸，例如代理的規劃效率、資料生成的多樣性以及迭代最佳化的收斂性等問題。

這項研究將自主資料工程確立為一種可測量的能力，併為未來代理驅動的模型專業化指明瞭方向。它表明，透過賦予LLM自主執行資料工程任務的能力，可以顯著簡化模型適應專業領域的流程，減少對人力的依賴。作者計劃在GitHub上釋出相關程式碼，以促進該領域的進一步研究和發展。