AI News HubLIVE
站内改写3 分钟阅读

预测人们偏好时,考虑“三的力量”会更有价值

麻省理工学院的研究人员对近一个世纪历史的随机效用模型进行了重大升级。他们发现,传统的两两比较方法无法捕捉选择之间的相关性,而通过让人们从三个选项中排序,可以更准确地预测偏好。这项研究对互联网经济、AI模型对齐等领域具有重要意义。

来源MIT News AI作者: Steve Nadis | MIT Laboratory for Information and Decision Systems

1927年,美国心理学家L.L.瑟斯顿(L. L. Thurstone)在其论文《比较判断定律》中提出,当人们在多个选项中做出选择时,他们实际上是在挑选对自己价值最高的一个,尽管他们无法给这个选择赋予具体的数字。瑟斯顿是“心理测量学”的先驱——这一领域的前提是,我们无法直接观察的心理过程仍然可以被测量和量化。他的这篇论文为如今所谓的随机效用模型(RUM)奠定了基础,这些模型提供了一个数学框架来描述人类偏好,进而可用于预测各种假设情境下的行为。

随机效用模型之所以得名,是因为它们评估从给定选择中获得的“效用”或收益——例如,决定从图书馆借回的一摞小说中先读哪一本。麻省理工学院电气工程与计算机科学系(EECS)助理教授、信息与决策系统实验室(LIDS)首席研究员加布里埃尔·法里纳(Gabriele Farina)解释说:“这些模型本质上是随机的,因为人们各不相同。每个人都有自己独特的偏好,甚至这些偏好也会随时间变化。”例如,一个通常早上选咖啡、晚上选茶的人,有时可能会完全颠倒顺序。

实际上,RUM在政府和工业界被广泛应用于比选择热饮或冷饮更为重要的决策中。这些模型通常用于预测人们在反事实(“如果……会怎样”)情境下的行为倾向,例如:如果一条主要道路因施工关闭,人们将如何通勤?他们会选择哪些路线和交通方式?或者,如果某城市突然获得2000万美元的资金,如何分配才能最大化公共利益?

考虑到RUM已经存在近百年,并且随着时间的推移越来越复杂,人们可能会认为,到了这个阶段,这些模型已经没有多少改进空间了。然而,事实并非如此。

今年4月在巴西里约热内卢举行的国际学习表征会议(ICLR)上提交的一篇论文揭示了基本事实,表明从这些模型中我们可以获得比传统认知更多的信息。该论文由前麻省理工学院博士后、现任职于新加坡南洋理工大学的耶什万特·切拉帕纳梅尔杰里(Yeshwanth Cherapanamjeri)、法里纳(同时也是麻省理工学院运筹学研究中心的核心教员)、麻省理工学院计算机科学阿瓦内森教授、计算机科学与人工智能实验室成员康斯坦丁诺斯·达斯卡拉基斯(Constantinos Daskalakis)以及麻省理工学院计算机科学博士生、LIDS和EECS成员索布汉·穆罕默德普尔(Sobhan Mohammadpour)共同撰写。

该团队的发现部分源于RUM在实践中的一种常见估计缺陷,这种缺陷自瑟斯顿时代以来一直存在。用于估计模型的数据大多来自所谓的“成对比较”:在项目A和B之间选择——无论是Netflix上的电影、亚马逊上的竞争产品、Google上的新闻故事等——你会选哪一个?达斯卡拉基斯解释说,这种方法之所以如此普遍,一个原因是“给你从单个物品中获得的好处分配一个精确的数值分数,比如4.37,是非常困难的。而比较两样东西并决定你更喜欢哪个,在认知上要容易得多。”但他补充说,问题就在这里。“通过这种评估偏好的方式,一次只看两个选项,无法发现众多选择之间的相关性。”

标准应用RUM的方法假设从A和B获得的效用是独立的,但实际上它们可能是关联的,而知道这一点很重要。例如,如果一位竞选公职的人发现某潜在选民支持枪支管制,那么同一个人很可能也支持政府资助的儿童保育。同样,喜欢独立电影的观众可能也对外国电影情有独钟,但对好莱坞动作大片不太感兴趣。达斯卡拉基斯指出:“如果数字平台对这些相关性的存在视而不见,它将无法非常准确地估计偏好。如果Netflix经常向你展示你不关心的电影,你可能会退出并取消订阅。”

MIT团队证明,仅靠两两比较无法获取关于相关性的信息。然而,当大量的人对三个备选方案进行偏好排序时,就可以辨别出相关性。同样,通过将“最佳之三”和“最佳之二”的选择结合起来,也能获得相同的信息。在实践中,穆罕默德普尔解释说:“你让一组人对三个项目进行排序。然后你可以利用我们开发的方法将这些个体结果合并成一个大的模型,从而为我们提供全局图景。”

法里纳表示,他们的研究重点在于RUM的计算方面,设计能够提取偏好信息的算法,并确定需要多少数据(即需要运行多少实验)才能做到这一点。他说,好消息是,高效算法确实可以实现这一目标。所需的实验数量不会随着目录或数据库中的项目数量呈指数增长。

“这篇论文提供了一个关键性的突破,”蒙特利尔大学的计算机科学家艾玛·弗雷金格(Emma Frejinger)评论道。“它在数学上证明了为什么传统的数据收集方法会失败,并表明仅仅通过询问用户的最佳之三选择,就能解锁准确训练这些强大模型的能力。这一发现为收集更好的数据以推动更准确的优化提供了高度实用的路线图。”

“构建效用模型将始终是一个非常活跃的领域,”达斯卡拉基斯坚持认为。“正如RUM自20世纪90年代末以来对互联网经济至关重要一样,它们现在并将在未来对AI模型的对齐至关重要。”更重要的是,他补充说,“RUM在大型语言模型(LLM)的商业可行性和实用性中发挥着核心作用。”在训练期间,通常要求人们对这些LLM的各种候选输出进行排序,从而使模型能够更好地了解哪些文本(在语气、风格和内容方面)是更受偏好的。

考虑到我们在许多领域“不断被大量选项所包围”,达斯卡拉基斯说,“你不可能要求人们就所有可能的场景传达他们所有的个人偏好。因此,你可以做的是建立一个模型,预测人们对不同可能结果的看法。而且你必须通过迭代过程不断改进和更新你的模型,直到你能够做出良好的预测。”