2026-05-28 12:00 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

識別和理解文本中的人類價值：一種可定製的基於LLM的架構

本文介紹了一種基於大型語言模型（LLM）的架構，用於檢測和量化文本中人類價值的強度。該架構包含三個協調模組，可適應多種價值理論，並在ValueEval資料集上表現出良好的檢測效能。

來源arXiv AI作者: Eduardo de la Cruz Fern\'andez, Marcelo Karanik, Sascha Ossowski

隨著智慧系統在自主決策中扮演越來越重要的角色，如何在人工智慧中融入倫理和道德考量成為一個核心問題。傳統上，決策機制往往依賴效用最大化模型，但這類模型可能忽視人類的價值體系。為此，評估決策與人類價值觀的一致性變得至關重要。基於大型語言模型（LLM）從文本中識別顯性或隱性人類價值的研究應運而生。

本文由Eduardo de la Cruz Fernández等人提出了一種可定製的基於LLM的架構，旨在檢測和量化文本中人類價值的強度。該架構克服了以往方法依賴於特定價值理論或複雜提示工程的侷限性。架構由三個協同工作的模組組成：第一個模組從任何理論框架的基礎文本中生成結構化的價值規範；第二個模組利用這些規範對文本進行標註；第三個模組則根據修辭和語義證據分配支援或反對的等級。這種模組化設計將概念化與檢測任務分離，形成了一個可擴充套件且可重複的流程，能夠適應多種價值理論。

研究人員使用多種LLM例項化了該架構，並在ValueEval資料集上進行了評估。實驗結果顯示該架構具有良好的檢測效能，驗證了其管道的通用性。該研究發表在ICAART 2026會議的論文集中（第5卷，4096-4103頁），論文共8頁，包含1張圖表。此外，論文還提供了開源的程式碼和資料連結，以促進可復現性。該架構的提出標誌著從傳統的、需要手工設計提示的方法向自動化、理論無關的方向轉變。價值規範的生成不依賴於預定義的價值觀列表，而是透過解析任何倫理理論的核心文本來動態構建。這使得系統可以靈活地應用於不同的文化、領域或框架，為AI倫理對齊研究提供了新的工具和方法。