控えめな提案:ドキュメントをAIにとって扱いやすくするためにすべてを再フォーマットする
Linux Foundation傘下のLF AI & Data Foundationは、既存のPDFやMarkdown形式に代わるAIネイティブなドキュメントフォーマット「DocLang」のワーキンググループを設立した。IBM、NVIDIA、Red Hat、ABBYY、HumanSignal、Forgisが共同創設し、LLMトークナイザー向けに最適化された1対1のトークンマッピングにより、コスト削減と精度向上を実現する。
近年、人工知能技術の急速な発展に伴い、AIがドキュメントの内容を効率的に理解できるようにすることが重要な課題となっています。既存のPDF、Markdown、HTML、LaTeXなどのフォーマットは主に人間の可読性を考慮して設計されており、機械が解析可能なセマンティック構造が欠如しているため、AIモデルが処理する際に多くの追加計算が必要となります。この問題を解決するため、Linux Foundation傘下のLF AI & Data Foundationは、AIネイティブでロスレスなドキュメントフォーマット「DocLang」を開発するワーキンググループを設立しました。
DocLangはIBM、NVIDIA、Red Hat、ABBYY、HumanSignal、Forgisによって共同で設立されました。このフォーマットはIBMが2024年にリリースしたオープンソースツール「Docling」を基盤とし、さらに拡張された標準化された交換フォーマットです。PDFなどのフォーマットとは異なり、DocLangは制限されたXML語彙を使用し、大規模言語モデルのトークナイザーと1対1でマッピングすることで、最適化されたプロンプトを生成し、トークン消費を削減し、処理効率を向上させます。
DocLangはドキュメントの構造、レイアウト、セマンティック情報を保持するように設計されており、表、数式、チャート、マルチモーダルコンテンツをサポートします。オープンスタンダードであるだけでなく、ガバナンス機能も組み込まれており、ドキュメントの出所やメタデータが転送中に失われないようにします。ABBYYのAI戦略担当副社長Maxime Vermeir氏は、DocLangが現代のAIシステムに確定的な基盤を提供し、「人間向けに設計されたドキュメントを機械向けに最適化する」という根本的な問題を解決すると述べています。
コスト削減もDocLangの大きな利点です。ABBYYのベンチマークテストによると、IBMの2025年版年次報告書を処理する際、PDFバージョンでは8,421個の入力トークンと512個の出力トークンが必要でしたが、DocLangバージョンでは5,310個の入力トークンと498個の出力トークンのみで済み、レイテンシも4.2秒から2.7秒に短縮され、品質も向上しました。全体として、モデルやドキュメントの複雑さに応じて、コスト削減は4倍から30倍以上に達する可能性があります。
それでも、ABBYYのJon Knisley氏はDocLangはまだ初期段階であり、ワーキンググループはさらなる企業や組織の参加を歓迎していると述べています。この標準はオープンで無料であり、エンタープライズAIドキュメント処理の標準化と効率化を促進することを目的としています。