AI News HubLIVE
站内改写3 分鐘閱讀

預測人們偏好時,考慮“三的力量”會更有價值

麻省理工學院的研究人員對近一個世紀曆史的隨機效用模型進行了重大升級。他們發現,傳統的兩兩比較方法無法捕捉選擇之間的相關性,而通過讓人們從三個選項中排序,可以更準確地預測偏好。這項研究對互聯網經濟、AI模型對齊等領域具有重要意義。

來源MIT News AI作者: Steve Nadis | MIT Laboratory for Information and Decision Systems

1927年,美國心理學家L.L.瑟斯頓(L. L. Thurstone)在其論文《比較判斷定律》中提出,當人們在多個選項中做出選擇時,他們實際上是在挑選對自己價值最高的一個,儘管他們無法給這個選擇賦予具體的數字。瑟斯頓是“心理測量學”的先驅——這一領域的前提是,我們無法直接觀察的心理過程仍然可以被測量和量化。他的這篇論文為如今所謂的隨機效用模型(RUM)奠定了基礎,這些模型提供了一個數學框架來描述人類偏好,進而可用於預測各種假設情境下的行為。

隨機效用模型之所以得名,是因為它們評估從給定選擇中獲得的“效用”或收益——例如,決定從圖書館借回的一摞小説中先讀哪一本。麻省理工學院電氣工程與計算機科學系(EECS)助理教授、信息與決策系統實驗室(LIDS)首席研究員加布裏埃爾·法里納(Gabriele Farina)解釋説:“這些模型本質上是隨機的,因為人們各不相同。每個人都有自己獨特的偏好,甚至這些偏好也會隨時間變化。”例如,一個通常早上選咖啡、晚上選茶的人,有時可能會完全顛倒順序。

實際上,RUM在政府和工業界被廣泛應用於比選擇熱飲或冷飲更為重要的決策中。這些模型通常用於預測人們在反事實(“如果……會怎樣”)情境下的行為傾向,例如:如果一條主要道路因施工關閉,人們將如何通勤?他們會選擇哪些路線和交通方式?或者,如果某城市突然獲得2000萬美元的資金,如何分配才能最大化公共利益?

考慮到RUM已經存在近百年,並且隨着時間的推移越來越複雜,人們可能會認為,到了這個階段,這些模型已經沒有多少改進空間了。然而,事實並非如此。

今年4月在巴西里約熱內盧舉行的國際學習表徵會議(ICLR)上提交的一篇論文揭示了基本事實,表明從這些模型中我們可以獲得比傳統認知更多的信息。該論文由前麻省理工學院博士後、現任職於新加坡南洋理工大學的耶什萬特·切拉帕納梅爾傑裏(Yeshwanth Cherapanamjeri)、法里納(同時也是麻省理工學院運籌學研究中心的核心教員)、麻省理工學院計算機科學阿瓦內森教授、計算機科學與人工智能實驗室成員康斯坦丁諾斯·達斯卡拉基斯(Constantinos Daskalakis)以及麻省理工學院計算機科學博士生、LIDS和EECS成員索布漢·穆罕默德普爾(Sobhan Mohammadpour)共同撰寫。

該團隊的發現部分源於RUM在實踐中的一種常見估計缺陷,這種缺陷自瑟斯頓時代以來一直存在。用於估計模型的數據大多來自所謂的“成對比較”:在項目A和B之間選擇——無論是Netflix上的電影、亞馬遜上的競爭產品、Google上的新聞故事等——你會選哪一個?達斯卡拉基斯解釋説,這種方法之所以如此普遍,一個原因是“給你從單個物品中獲得的好處分配一個精確的數值分數,比如4.37,是非常困難的。而比較兩樣東西並決定你更喜歡哪個,在認知上要容易得多。”但他補充説,問題就在這裏。“通過這種評估偏好的方式,一次只看兩個選項,無法發現眾多選擇之間的相關性。”

標準應用RUM的方法假設從A和B獲得的效用是獨立的,但實際上它們可能是關聯的,而知道這一點很重要。例如,如果一位競選公職的人發現某潛在選民支持槍支管制,那麼同一個人很可能也支持政府資助的兒童保育。同樣,喜歡獨立電影的觀眾可能也對外國電影情有獨鍾,但對好萊塢動作大片不太感興趣。達斯卡拉基斯指出:“如果數字平台對這些相關性的存在視而不見,它將無法非常準確地估計偏好。如果Netflix經常向你展示你不關心的電影,你可能會退出並取消訂閲。”

MIT團隊證明,僅靠兩兩比較無法獲取關於相關性的信息。然而,當大量的人對三個備選方案進行偏好排序時,就可以辨別出相關性。同樣,通過將“最佳之三”和“最佳之二”的選擇結合起來,也能獲得相同的信息。在實踐中,穆罕默德普爾解釋説:“你讓一組人對三個項目進行排序。然後你可以利用我們開發的方法將這些個體結果合併成一個大的模型,從而為我們提供全局圖景。”

法里納表示,他們的研究重點在於RUM的計算方面,設計能夠提取偏好信息的算法,並確定需要多少數據(即需要運行多少實驗)才能做到這一點。他説,好消息是,高效算法確實可以實現這一目標。所需的實驗數量不會隨着目錄或數據庫中的項目數量呈指數增長。

“這篇論文提供了一個關鍵性的突破,”蒙特利爾大學的計算機科學家艾瑪·弗雷金格(Emma Frejinger)評論道。“它在數學上證明了為什麼傳統的數據收集方法會失敗,並表明僅僅通過詢問用户的最佳之三選擇,就能解鎖準確訓練這些強大模型的能力。這一發現為收集更好的數據以推動更準確的優化提供了高度實用的路線圖。”

“構建效用模型將始終是一個非常活躍的領域,”達斯卡拉基斯堅持認為。“正如RUM自20世紀90年代末以來對互聯網經濟至關重要一樣,它們現在並將在未來對AI模型的對齊至關重要。”更重要的是,他補充説,“RUM在大型語言模型(LLM)的商業可行性和實用性中發揮着核心作用。”在訓練期間,通常要求人們對這些LLM的各種候選輸出進行排序,從而使模型能夠更好地瞭解哪些文本(在語氣、風格和內容方面)是更受偏好的。

考慮到我們在許多領域“不斷被大量選項所包圍”,達斯卡拉基斯説,“你不可能要求人們就所有可能的場景傳達他們所有的個人偏好。因此,你可以做的是建立一個模型,預測人們對不同可能結果的看法。而且你必須通過迭代過程不斷改進和更新你的模型,直到你能夠做出良好的預測。”