AI News HubLIVE
站内改写2 分鐘閱讀

AI正在使新聞語言變得更加重複和可預測——這對我們所有人來説都是個問題

隨着越來越多的新聞內容由機器生成,語言正變得同質化,失去創新性。研究表明,AI模型在自生成文本上訓練會導致“模型崩潰”,進一步縮小公共語言的多樣性。這不僅影響新聞業,也削弱了社會描述和討論現實的能力。

來源AIhub作者: The Conversation

隨着生成式AI在新聞業中的廣泛應用,一個關鍵問題浮現:當越來越多的新聞內容由機器編寫時,語言本身會發生什麼變化?這個問題不僅關乎新聞職業的未來,更影響我們所有人用來理解、描述和討論現實的語言豐富性。

歷史上,新聞業一直是公共語言生長和豐富的空間。報紙和網絡媒體不僅是信息傳播的渠道,也是新詞彙、新表達方式在社會中流通的起點。研究表明,新聞語言是創造和傳播新術語的重要平台,尤其是在報道新事件、技術變革和社會變遷時。然而,如果大量新聞寫作被委託給生成式AI,這一角色將逐漸削弱。

大型語言模型(LLM)通過預測下一個“標記”或詞語來生成流暢、可信的文本,但這使其傾向於統計規律性和常見的既定表達。當這種邏輯主導公共領域的寫作時,問題就出現了。更深層次的危險在於AI系統開始用AI生成的文本訓練自身,這會導致“模型崩潰”——模型產出的內容污染後續訓練數據,使得AI系統越來越多地從合成文本中學習。如果這些合成文本充斥線上和線下公共空間,未來訓練的語言生態將更加受限,與社會變化接觸的機會減少。

這種趨勢不僅導致語言多樣性的下降,還會固化現有偏見。當數據變化減少、既定模式佔主導時,訓練材料中的偏見可能被強化而非糾正。同時,寫作變得更加重複和同質化,重複句法結構,趨向中性語氣、公式化表達和可預測的段落結構。新聞業不僅傳遞信息,還調節專業與通俗之間的轉換、決定重點、翻譯詞彙並教授表達形式。當公共語言過於統一時,新聞業精細調整寫作以應對新信息的能力將受到限制。

最終,不常見或專業詞彙、罕見結構以及語用細微差別(如諷刺、歧義和觀點變化)會減少。語言創新往往始於偶然的偏差、不尋常的用詞或局部命名新現象的方式。如果系統總是偏愛統計上最可能的選項,新興語言流通和紮根的空間就會縮小。這不是人與機器的抽象對立,而是語言暴露於人類社會的偶然事件與源於預學習規律性的文本輸出之間的具體差異。

語言變得模糊、可預測或重複,會削弱社會描述問題、澄清觀點和進行公共辯論的能力。互聯網充斥着合成文本時,讀者、記者和機構都將暴露於更單一的公共語言中。部分研究將合成文本描述為“污染”在線生態系統,強調混合真實數據與人工數據的方式至關重要。

然而,並非所有AI使用都必然導致衰退。研究表明,當合成數據與真實數據混合而非完全替代時,模型崩潰的行為不同,誤差可控。問題不在於偶爾使用AI或合理結合合成與人類數據,而在於大規模用AI取代人類寫作,並將其替代產物當作活的語言重新利用。

當AI成為記者工作的一部分,新聞業變得更加高效,但社會將失去什麼?如果新聞業放棄其撰寫、翻譯、命名和教授新語言的角色,不僅影響記者日常工作,還會削弱公共語言豐富、更新和擴展的空間。

AI正在使新聞語言變得更加重複和可預測——這對我們所有人來説都是個問題 | AI News Hub