2026-05-26 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-30 21:03 UTC+8

利用大型语言模型提升分部披露的完整性和可比性

本研究开发了一个基于大型语言模型的框架，直接从10-K报表中提取分部披露信息，并保留可报告和嵌套分部信息。同时，设计了一个检索增强系统，整合多个报表的信息以支持可比性。实验表明，该框架能准确提取信息并有效回答跨期问题，展示了LLM在增强分部披露衡量和解释方面的潜力。

来源arXiv Computational Linguistics作者: Yue Liu, Zhiyuan Cheng, Longying Lai

分部层面的披露是财务报告的重要组成部分，它揭示了公司的内部组织结构以及经济活动在各运营单元之间的分配。然而，分部信息往往同时以定性和定量形式呈现，分散在10-K报表的表格和叙述部分中。依赖结构化数据库的实证研究面临完整性和可比性两方面的挑战：部分公司-年度观测值可能缺失，嵌套的分部披露未被捕获，而且对纵向和跨公司可比性的支持有限。

为了解决这些问题，本研究开发了一个基于大型语言模型（LLM）的框架，直接从10-K报表中提取分部披露信息。该框架不仅能够提取可报告分部信息，还能保留嵌套分部信息，即那些包含子分部的复杂组织结构。此外，研究还设计了一个检索增强系统，通过整合多份报表中的信息来支持可比性。这一系统能够跨越不同报表，为分析师提供更全面的视角，从而解决跨公司和跨时间段的比较难题。

研究在两个具有代表性的场景中展示了该框架的应用：一是公司内部的纵向分析，用于解读分部随时间的演变，例如通过连续多年的10-K报表追踪某一业务分部的发展变化；二是跨公司的地理分部对齐，用于比较不同报告结构下的公司，例如将两家使用不同分类标准公司的地理分部进行标准化对齐。结果表明，该人工制品能够准确提取分部层面的信息，并有效回答需要跨期知识的问题。例如，它可以准确回答“某公司过去三年在北美地区收入占比的变化趋势”这类问题，展示了基于LLM的方法在增强分部披露的衡量和解释方面的巨大潜力。

该研究提交至《Accounting Horizons》期刊，共39页，包含4张图表。其代码和数据已通过相关平台公开，以便其他研究者复现和进一步探索。总体而言，这项研究为财务报告领域提供了一种创新的自动化工具，有望提高分部披露分析的效率和深度，从而帮助投资者和分析师更准确地理解企业的经营状况。