AI News HubLIVE
サイト内リライト2 分で読了

Dreamチーム、SemEval-2026タスク13でシングルパス機械生成コード検出のためのSALSAを提案

大規模言語モデルはコード生成を変革し、作者性、評価の完全性、ソフトウェアの信頼性に関する懸念を引き起こしています。SemEval-2026タスク13サブタスクAは、コードスニペットに対する二項分類として検出を定義し、未見のプログラミング言語やアプリケーションドメインへの分布外汎化に特に重点を置いています。研究では、SALSA(シングルパス自己回帰大規模言語モデル構造化分類)を提案し、各クラスを専用の出力トークンにマッピングし、モデルが構造化応答で単一トークンのラベルを生成するよう訓練します。バランスの取れたサンプリング、パラメータ効率の良い微調整、保守的な訓練を組み合わせることで、システムは公式リーダーボードでOOD F1=0.789を達成し、CodeBERTベースライン(F1=0.305)を大幅に上回りました。

ソースarXiv Computational Linguistics著者: Ruslan Berdichevsky, Shai Nahum-Gefen, Elad Ben-Zaken

大規模言語モデル(LLM)のコード生成への応用が進むにつれ、機械生成コードと人間が書いたコードの区別がますます困難になり、作者性の証明、学術評価の公正さ、ソフトウェアサプライチェーンに対する信頼に深刻な問題が生じています。この課題に対処するため、SemEval-2026はタスク13を設定し、サブタスクAではコードスニペットを二項分類する形で機械生成コードの検出を定義しています。特に、訓練時に見られなかったプログラミング言語や応用領域への分布外(OOD)汎化能力が重視されており、例えばPythonやJavaなどの一般的な言語からRustやKotlinなどのマイナー言語への汎化や、Web開発から組み込みシステムへのドメイン適応が求められます。

Dreamチームの研究者らは、SALSA(シングルパス自己回帰LLM構造化分類)と呼ばれる新しい手法を提案しました。従来の手作業による特徴量設計やルールベースのアプローチとは異なり、SALSAは分類タスクをLLM自体に委ねます。具体的には、各クラス(機械生成または人間作成)に専用の出力トークンを割り当て、モデルが構造化された応答の中で単一のトークンで分類結果を出力するように訓練します。これにより、複雑な特徴量エンジニアリングが不要となり、LLMの意味理解能力を直接活用してコードの微妙なスタイルの違いを捉えることができます。

OODシナリオでのロバスト性を高めるため、研究チームは複数の戦略を採用しました。まず、訓練データにおいて言語間のバランスの取れたサンプリングを実施し、特定の言語に偏らないようにしました。例えば、複数の言語を含む混合データセットでは、各言語から均等にサンプリングします。次に、パラメータ効率の良い微調整手法(LoRAなど)を用い、モデルのごく一部のパラメータのみを調整することで過適合のリスクを低減しました。さらに、低い学習率と単一エポックという保守的な訓練戦略を採用し、訓練ドメインへの過剰適合を防ぎました。これらの工夫により、モデルは新しい言語や領域への汎化性能を向上させることができました。

SemEval-2026タスク13の公式リーダーボードにおいて、SALSAシステムはOOD F1スコア0.789を記録し、ベースラインのCodeBERTモデル(F1=0.305)を大きく上回りました。この結果は、LLMベースのエンドツーエンド分類手法が機械生成コード検出、特に言語や領域をまたぐ汎化において有効であることを示しています。本研究はACL 2026のSemEvalワークショップで採択され、論文はRuslan Berdichevskyらによって執筆され、2026年6月23日にarXivに提出されました。