2026-06-04 12:00 UTC+8站內改寫2 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

利用可解釋語言特徵檢測AI生成假新聞的跨提示泛化研究

本研究探討了在不同提示策略下，利用可解釋的語言特徵（詞法多樣性、可讀性和情感特徵）檢測AI生成假新聞的跨提示泛化能力。通過隨機森林分類器在三種不同提示生成的AI文章和真實新聞數據集上進行測試，所有六種訓練-測試組合的AUC值均達0.988至1.000，表明基於特徵的檢測方法對提示變化具有穩健性。

來源arXiv Computational Linguistics作者: Aya Vera-Jimenez, Samuel Jaeger, Calvin Ibenye, Dhrubajyoti Ghosh

隨着大型語言模型（LLM）的廣泛應用，AI生成的假新聞在不同提示策略下的傳播問題日益引發關注。現有的大多數檢測模型僅在單一生成設置下訓練和評估，其對未知提示的泛化能力尚不明確。為了填補這一空白，一項最新研究探索了跨提示泛化在假新聞檢測中的表現，利用三種不同提示生成的AI文章數據集與真實新聞文章相結合，提取詞法多樣性、可讀性和情感特徵等可解釋語言特徵，並採用隨機森林分類器進行跨提示框架下的評估。

研究團隊分別從三個不同提示策略下生成AI文章，並與真實新聞混合構建數據集。他們提取的特徵包括詞法多樣性（如詞彙豐富度）、可讀性（如句子長度和複雜度）以及情感強度（如情緒詞彙的使用）。在跨提示實驗中，模型在一種提示下訓練，然後在另一種提示下測試。所有六種訓練-測試組合的性能均保持高度一致，AUC值介於0.988至1.000之間，顯示出分類器的強大泛化能力。

進一步的分析表明，與真實新聞相比，AI生成文本表現出更高的詞法多樣性、更低的可讀性以及顯著較低的情感強度。儘管不同提示之間存在分佈差異，但這些特徵仍能捕捉AI生成文本的穩定屬性，使得分類器在不同提示策略下維持高性能。這一發現表明，基於可解釋語言特徵的方法能夠提供對AI生成假新聞的穩健檢測，即使提示策略發生變化。

該研究的另一個重要貢獻在於驗證了特徵基方法在實際應用中的潛力。由於LLM生成的文本在不同提示下可能呈現不同風格，但語言特徵的核心差異仍然存在，這為開發不依賴於具體提示的通用檢測系統提供了可能。未來的研究方向可以包括擴展到更多種類的提示策略、納入多模態特徵以及探索深度學習模型在跨提示場景下的表現。

總之，該研究為跨提示場景下的AI虛假信息檢測提供了新的視角，證實了特徵基方法的有效性，併為未來開發更通用的檢測系統奠定了基礎。研究團隊來自多個機構，論文已提交至arXiv（編號2606.04199），並將進一步在學術會議上展示。