2026-06-02 13:00 UTC+9サイト内リライト2 分で読了更新: 2026-06-30 22:03 UTC+9

強化学習と効率認識報酬を用いた中国語テキスト修正のためのChain-of-Thought推論

CSRPは、継続的事前学習、Chain-of-Thought SFT、効率認識報酬によるRLを用いた3段階フレームワークで、中国語文法誤り訂正における過剰訂正問題に対処。NACGECベンチマークでSOTA（F0.5=50.99、精度57.17）、CSCDスペル訂正でF1=59.61（GPT-4を5.20ポイント上回る）。

ソースarXiv Computational Linguistics著者: Wei Tian, Yuhao Zhou, Man Lan

中国語文法誤り訂正（CGEC）は大規模言語モデル（LLM）の重要な応用分野でありながら、2つの主要な課題に直面しています。第一に、汎用モデルは中国語の微妙な文法の違いに対する専門的な言語学知識を欠いており、誤文に対する感度が不十分です。第二に、最尤推定（MLE）に基づく従来の教師ありファインチューニング（SFT）は、再現率を向上させるものの、精度重視の指標を最適化できず、体系的な過剰訂正を引き起こします。つまり、モデルが正しい文までも不要に修正してしまう傾向があります。

これらの課題に対処するため、華東師範大学の研究チームはCSRPフレームワークを提案しました。CSRPは3段階の漸進的トレーニングにより、高品質な中国語文法訂正能力を構築します。第1段階は継続的事前学習（CPT）で、研究チームは590万件のバランスの取れたサンプルからなる専用データセットで継続的事前学習を行い、モデルに中国語文法のドメイン知識を内在化させます。第2段階はChain-of-Thought SFT（CoT SFT）で、従来の方法とは異なり、CSRPはモデルに誤りの推論プロセス（誤りタイプの識別、位置特定、修正戦略）を明示的に生成させることで、診断の透明性と解釈可能性を大幅に向上させます。第3段階は効率認識報酬を用いたグループ相対方策最適化（GRPO）で、研究者は不要な編集を明示的にペナルティする新しい効率認識報酬関数を設計し、過剰訂正傾向を効果的に抑制します。

ベンチマーク評価において、CSRPは顕著な成果を挙げています。NACGEC（Native Chinese Grammatical Error Correction）ベンチマークでは、F0.5スコア50.99、精度57.17を達成し、従来の最高結果を大幅に上回り、MLE訓練モデルに固有の過剰訂正バイアスを効果的に緩和しました。CSCD（Chinese Spelling Correction Dataset）スペル訂正タスクでは、F1スコア59.61を達成し、GPT-4を含む既存の最先端モデルを5.20ポイント上回りました。詳細なアブレーション研究により、強化学習アライメント段階はSFTベースラインに対して8%の相対的な改善をもたらし、その効果は大規模CPTの寄与と直交していることが示されました。これは、高品質な文法訂正には編集効率の明示的最適化が不可欠であることを裏付けています。

CSRPのソースコードはGitHubで公開されており、研究コミュニティによる利用と改良が可能です。本研究は計算言語学のトップ会議であるACL 2026メインカンファレンスに採択されています。CSRPの成功は、中国語文法訂正に新たな技術的アプローチを提供するだけでなく、他の言語の校正タスクにも参考となる知見を提供しています。