2026-05-28 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

识别和理解文本中的人类价值：一种可定制的基于LLM的架构

本文介绍了一种基于大型语言模型（LLM）的架构，用于检测和量化文本中人类价值的强度。该架构包含三个协调模块，可适应多种价值理论，并在ValueEval数据集上表现出良好的检测性能。

来源arXiv AI作者: Eduardo de la Cruz Fern\'andez, Marcelo Karanik, Sascha Ossowski

随着智能系统在自主决策中扮演越来越重要的角色，如何在人工智能中融入伦理和道德考量成为一个核心问题。传统上，决策机制往往依赖效用最大化模型，但这类模型可能忽视人类的价值体系。为此，评估决策与人类价值观的一致性变得至关重要。基于大型语言模型（LLM）从文本中识别显性或隐性人类价值的研究应运而生。

本文由Eduardo de la Cruz Fernández等人提出了一种可定制的基于LLM的架构，旨在检测和量化文本中人类价值的强度。该架构克服了以往方法依赖于特定价值理论或复杂提示工程的局限性。架构由三个协同工作的模块组成：第一个模块从任何理论框架的基础文本中生成结构化的价值规范；第二个模块利用这些规范对文本进行标注；第三个模块则根据修辞和语义证据分配支持或反对的等级。这种模块化设计将概念化与检测任务分离，形成了一个可扩展且可重复的流程，能够适应多种价值理论。

研究人员使用多种LLM实例化了该架构，并在ValueEval数据集上进行了评估。实验结果显示该架构具有良好的检测性能，验证了其管道的通用性。该研究发表在ICAART 2026会议的论文集中（第5卷，4096-4103页），论文共8页，包含1张图表。此外，论文还提供了开源的代码和数据链接，以促进可复现性。该架构的提出标志着从传统的、需要手工设计提示的方法向自动化、理论无关的方向转变。价值规范的生成不依赖于预定义的价值观列表，而是通过解析任何伦理理论的核心文本来动态构建。这使得系统可以灵活地应用于不同的文化、领域或框架，为AI伦理对齐研究提供了新的工具和方法。