利用大型语言模型提升分部披露的完整性和可比性
本研究开发了一个基于大型语言模型的框架,直接从10-K报表中提取分部披露信息,并保留可报告和嵌套分部信息。同时,设计了一个检索增强系统,整合多个报表的信息以支持可比性。实验表明,该框架能准确提取信息并有效回答跨期问题,展示了LLM在增强分部披露衡量和解释方面的潜力。
文章情报
要点
- 分部披露是财务报告的核心,但常以定性和定量形式分散在10-K报表中,导致完整性和可比性问题。
- 提出基于LLM的框架,从10-K中提取分部信息,保留嵌套结构。
- 设计检索增强系统,利用多份报表信息增强跨公司和跨时间可比性。
- 在纵向分析和跨公司地理分部对齐两个场景中验证了有效性。
为什么重要
这条新闻值得关注,因为分部披露是财务报告的核心,但常以定性和定量形式分散在10-K报表中,导致完整性和可比性问题。
技术影响
可能影响模型选型、推理成本、产品能力和评测基准。
分部层面的披露是财务报告的重要组成部分,它揭示了公司的内部组织结构以及经济活动在各运营单元之间的分配。然而,分部信息往往同时以定性和定量形式呈现,分散在10-K报表的表格和叙述部分中。依赖结构化数据库的实证研究面临完整性和可比性两方面的挑战:部分公司-年度观测值可能缺失,嵌套的分部披露未被捕获,而且对纵向和跨公司可比性的支持有限。
为了解决这些问题,本研究开发了一个基于大型语言模型(LLM)的框架,直接从10-K报表中提取分部披露信息。该框架不仅能够提取可报告分部信息,还能保留嵌套分部信息,即那些包含子分部的复杂组织结构。此外,研究还设计了一个检索增强系统,通过整合多份报表中的信息来支持可比性。这一系统能够跨越不同报表,为分析师提供更全面的视角,从而解决跨公司和跨时间段的比较难题。
研究在两个具有代表性的场景中展示了该框架的应用:一是公司内部的纵向分析,用于解读分部随时间的演变,例如通过连续多年的10-K报表追踪某一业务分部的发展变化;二是跨公司的地理分部对齐,用于比较不同报告结构下的公司,例如将两家使用不同分类标准公司的地理分部进行标准化对齐。结果表明,该人工制品能够准确提取分部层面的信息,并有效回答需要跨期知识的问题。例如,它可以准确回答“某公司过去三年在北美地区收入占比的变化趋势”这类问题,展示了基于LLM的方法在增强分部披露的衡量和解释方面的巨大潜力。
该研究提交至《Accounting Horizons》期刊,共39页,包含4张图表。其代码和数据已通过相关平台公开,以便其他研究者复现和进一步探索。总体而言,这项研究为财务报告领域提供了一种创新的自动化工具,有望提高分部披露分析的效率和深度,从而帮助投资者和分析师更准确地理解企业的经营状况。