利用大型語言模型提升分部披露的完整性和可比性
本研究開發了一個基於大型語言模型的框架,直接從10-K報表中提取分部披露資訊,並保留可報告和巢狀分部資訊。同時,設計了一個檢索增強系統,整合多個報表的資訊以支援可比性。實驗表明,該框架能準確提取資訊並有效回答跨期問題,展示了LLM在增強分部披露衡量和解釋方面的潛力。
文章情報
要點
- 分部披露是財務報告的核心,但常以定性和定量形式分散在10-K報表中,導致完整性和可比性問題。
- 提出基於LLM的框架,從10-K中提取分部資訊,保留巢狀結構。
- 設計檢索增強系統,利用多份報表資訊增強跨公司和跨時間可比性。
- 在縱向分析和跨公司地理分部對齊兩個場景中驗證了有效性。
為什麼重要
這條新聞值得關注,因為分部披露是財務報告的核心,但常以定性和定量形式分散在10-K報表中,導致完整性和可比性問題。
技術影響
可能影響模型選型、推理成本、產品能力和評測基準。
分部層面的披露是財務報告的重要組成部分,它揭示了公司的內部組織結構以及經濟活動在各運營單元之間的分配。然而,分部資訊往往同時以定性和定量形式呈現,分散在10-K報表的表格和敘述部分中。依賴結構化資料庫的實證研究面臨完整性和可比性兩方面的挑戰:部分公司-年度觀測值可能缺失,巢狀的分部披露未被捕獲,而且對縱向和跨公司可比性的支援有限。
為了解決這些問題,本研究開發了一個基於大型語言模型(LLM)的框架,直接從10-K報表中提取分部披露資訊。該框架不僅能夠提取可報告分部資訊,還能保留巢狀分部資訊,即那些包含子分部的複雜組織結構。此外,研究還設計了一個檢索增強系統,透過整合多份報表中的資訊來支援可比性。這一系統能夠跨越不同報表,為分析師提供更全面的視角,從而解決跨公司和跨時間段的比較難題。
研究在兩個具有代表性的場景中展示了該框架的應用:一是公司內部的縱向分析,用於解讀分部隨時間的演變,例如透過連續多年的10-K報表追蹤某一業務分部的發展變化;二是跨公司的地理分部對齊,用於比較不同報告結構下的公司,例如將兩家使用不同分類標準公司的地理分部進行標準化對齊。結果表明,該人工製品能夠準確提取分部層面的資訊,並有效回答需要跨期知識的問題。例如,它可以準確回答“某公司過去三年在北美地區收入佔比的變化趨勢”這類問題,展示了基於LLM的方法在增強分部披露的衡量和解釋方面的巨大潛力。
該研究提交至《Accounting Horizons》期刊,共39頁,包含4張圖表。其程式碼和資料已透過相關平臺公開,以便其他研究者復現和進一步探索。總體而言,這項研究為財務報告領域提供了一種創新的自動化工具,有望提高分部披露分析的效率和深度,從而幫助投資者和分析師更準確地理解企業的經營狀況。