AI News HubLIVE
站內改寫2 分鐘閱讀

Dream團隊在SemEval-2026任務13中提出:用於單次機器生成程式碼檢測的SALSA方法

大語言模型在程式碼生成方面的進步引發了關於作者身份、評估完整性和軟體信任的擔憂。SemEval-2026任務13子任務A將檢測定義為對程式碼片段的二元分類,特別關注跨未見程式語言和領域的分佈外泛化。研究提出了一種SALSA風格的方法,即單次自迴歸大語言模型結構化分類,將每個類別對映到專用輸出標記,並訓練模型在結構化響應中發出單標記標籤。透過平衡取樣、引數高效微調和保守訓練,系統在官方排行榜上取得了OOD F1=0.789,大幅超越CodeBERT基線(F1=0.305)。

來源arXiv Computational Linguistics作者: Ruslan Berdichevsky, Shai Nahum-Gefen, Elad Ben-Zaken

隨著大語言模型(LLM)在程式碼生成領域的廣泛應用,機器生成的程式碼與人類編寫的程式碼之間的界限日益模糊,這引發了關於作者身份、學術評估完整性以及軟體供應鏈信任的嚴重擔憂。為應對這一挑戰,SemEval-2026會議設立了任務13,其中子任務A專注於機器生成程式碼的檢測問題,將其形式化為一個二元分類任務,對程式碼片段進行判斷。該任務特別強調分佈外(OOD)泛化能力,即模型需要能夠處理訓練階段未見過的程式語言和應用領域,例如從Python和Java等常見語言泛化到Rust或Kotlin等較少見的語言,或者從網頁開發領域泛化到嵌入式系統領域。

來自Dream團隊的研究人員提出了一種名為SALSA(單次自迴歸大語言模型結構化分類)的新穎方法。與傳統的基於手工特徵或決策規則的檢測技術不同,SALSA將分類任務直接委託給大語言模型本身。具體而言,該方法為每個類別(機器生成或人類編寫)分配一個專用的輸出標記,並訓練模型在生成結構化響應時僅輸出一個單一的標記來表示分類結果。這種設計避免了複雜的特徵工程,充分利用了LLM的語義理解能力,能夠捕捉程式碼中的細微風格差異。

為了提升模型在OOD場景下的魯棒性,研究團隊採取了多項策略。首先,他們在訓練資料中實施了跨語言的平衡取樣,確保模型不會偏向於某些常見語言,例如在包含多種語言的混合資料集中,對每種語言進行等量取樣。其次,他們採用了引數高效的微調方法(如LoRA),僅調整模型的一小部分引數,從而降低過擬合風險。同時,他們使用了保守的訓練策略——包括較低的學習率和僅一個訓練週期——以防止模型過度記憶訓練資料中的特定模式。這些技術的結合使得模型能夠更好地泛化到新的語言和領域。

在SemEval-2026任務13的官方排行榜上,SALSA系統取得了OOD F1分數0.789的優異成績,大幅超越了作為基線的CodeBERT模型(F1=0.305)。這一結果證明了基於LLM的端到端分類方法在機器生成程式碼檢測任務中的有效性,尤其是在跨語言和跨領域的泛化方面。該研究已被ACL 2026的SemEval研討會接收,論文由Ruslan Berdichevsky等人撰寫,於2026年6月23日提交至arXiv。