AI寫作為何糟糕的資訊理論解讀
本文從資訊理論角度分析了AI寫作的單一性問題。由於RLHF等對齊技術最佳化輸出以獲得廣泛認可,導致模型趨向於低方差的“標註者共識方言”,抑制了人類作者的獨特風格。即使調整溫度或提示風格,也無法複製人類作者的結構化不規則性。
近年來,AI寫作工具生成的文本往往缺乏人類作者的獨特風格,讀起來千篇一律。一位資深科幻讀者和軟體工程師從資訊理論角度解釋了這一現象。他指出,人類作者的“聲音”並非隨機或平均,而是一個特定的機率分佈,包含低頻但高影響的選擇(如詞彙、句式)。例如,泰德·姜的句子語法簡單但語義密集,而厄休拉·勒古恩的文風清晰、接地氣卻富有詩意。這些獨特性可以透過KL散度來量化:衡量模型輸出分佈與特定作者分佈之間的差異。當KL散度大且有結構時,我們就聽到了“聲音”。
AI模型在預訓練階段學習了一個廣泛的人類文本分佈(Q_base),包含了模仿幾乎所有作者的能力。然而,在微調階段,RLHF等對齊技術為了安全性和有用性,將模型最佳化為產生符合人類偏好得分的輸出。這個過程中,評估者(通常是眾包工人)對獨特寫作風格的評分方差高,而平淡、對稱、謹慎的回答則獲得穩定的高分。最佳化演算法為了最大化期望獎勵,傾向於降低方差,導致模型輸出趨近於一種“標註者共識方言”——類似於酒店大堂的裝飾,安全但毫無個性。即使較新的對齊技術試圖保留多樣性,但本質上仍懲罰高風險、高方差的輸出。
有人可能認為透過提示可以改變風格,例如“以1920年代硬漢偵探的風格寫作”。但這只是移動了分佈的平均值,並沒有複製方差的特性。模型捕捉了目標風格的常見元素,但平滑了所有突發性,結果只是目標風格的漫畫化。人類寫作依賴於結構化的不規則性:作者有基線節奏,但會透過碎片化句子、異常動詞或纏繞句式來刻意打破規則。計算風格學可以透過句子長度時間序列的赫斯特指數來測量這種長程依賴性,而AI文本缺乏這些特徵。
擴大AI分佈的方法如溫度縮放只是盲目地引入隨機噪聲,使文本從“異常平滑”變為“異常隨機”,而非真正的人類風格。更復雜的解碼策略如top-p取樣、top-k過濾等雖然有所改善,但本質上是推理時的干預,無法解決對齊過程中塑造的操作哲學。值得注意的是,對齊並未刪除基模型中的潛在多樣性——預訓練權重仍包含大部分Q_base的豐富性。新興的推理時引導技術如表示工程可能部分恢復被壓制的方差,但這些仍處於研究階段。此外,長上下文學習可以提供稍好的結果,但注意力機制隨著上下文增長而衰減。
總的來說,RLHF相關的設計選擇將使得AI的“聲音”在很長一段時間內可被檢測。作者鼓勵讀者下次閱讀喜愛的作者時,嘗試識別其中的KL散度,這既能增加閱讀樂趣,也是對抗LLM導致的技能衰退的好方法。文章由Joe Stech撰寫,他是《Think Weirder: The Year's Best Science Fiction Ideas》年刊的編輯,也是Arm公司的首席解決方案架構師。