使用AI代理自動化大規模黑盒審計個性化演算法
本文提出一種利用生成式AI代理作為行為引擎的框架,用於黑盒審計個性化演算法。透過在2024年美國大選後對X平臺部署1120個代理的案例研究,發現演算法推送相比時間線推送放大了有毒、極化、政治化和右傾內容,且放大程度因使用者意識形態而異。反事實分析顯示,人口統計訊號對內容推送的影響依賴於使用者角色。
個性化演算法在當今社交媒體平臺中扮演著核心角色,它決定了使用者能夠看到哪些內容。然而,對這些演算法進行審計是一項極具挑戰性的任務。獨立審計人員通常只有黑盒訪問許可權,即無法瞭解演算法的內部執行機制,而個性化過程又高度依賴使用者的屬性、行為以及不斷變化的互動歷史。現有的審計方法面臨著真實性與可擴充套件性之間的根本矛盾:使用真實使用者的研究能夠捕捉到真實的行為模式,但成本高昂且難以控制變數;而使用所謂“傀儡賬號”(sock puppet)的審計方法雖然更容易大規模部署,但其依賴指令碼化行為,缺乏真實性。此外,這兩種方法都難以將使用者屬性與使用者行為的影響分離開來,限制了我們從因果關係上理解個性化演算法的能力。
為了克服這些侷限性,研究人員提出了一種創新的框架:利用生成式AI代理作為合成賬戶的行為引擎。每個代理被賦予一個固定的“角色”(persona),該角色基於真實的人口統計和政治調查資料構建。代理會透過推理來選擇行動,與平臺內容進行互動。關鍵在於,在每個角色內部,代理的行為是固定的,而平臺可見的訊號——例如年齡、性別、地理位置等——則可以實驗性地進行擾動。這種設計使得研究人員能夠進行反事實審計,即探究平臺對不同使用者屬性訊號的響應差異。
為了驗證這一框架的有效性,研究團隊在2024年美國總統大選後不久,在X平臺(原Twitter)上部署了1120個AI代理。這些代理覆蓋了14種不同的角色,並設定了三種反事實條件,最終收集了超過20萬次的內容曝光資料。結果令人深思:與時間線(chronological feed)相比,X的演算法推送(algorithmic feed)顯著放大了有毒、極化、政治化和右傾的內容,而且這種放大效應隨著使用者意識形態的不同而劇烈變化。進一步的反事實分析表明,人口統計訊號對內容推送的影響依賴於具體的角色:從總體來看,合併效應大多為零,但在子群體層面上,效果的方向和幅度各不相同。
這項研究確立了基於生成式AI的代理作為演算法審計的一種新型工具,為深入理解平臺個性化機制提供了更強大的手段。它揭示了演算法推送可能如何加劇資訊繭房和極化現象,對於政策制定者、平臺運營者和研究者都具有重要意義。