AI News HubLIVE
站内改写2 分で読了

AIネイティブ文書形式

DocLangは、AIパイプライン向けに設計された機械可読な文書フォーマットのオープンスタンダードです。PDFやDOCXとは異なり、構造、セマンティクス、メタデータを保持し、LLMやVLMが信頼できるコンテキストを提供します。

ソースHacker News AI著者: taubek

DocLangは、AI時代に特化した文書フォーマットのオープンスタンダードであり、Joint Development Foundationによって管理され、IBM、NVIDIA、Red Hat、ABBYY、HumanSignalなどの企業が支援しています。このフォーマットは、PDFやDOCXなどの従来の文書形式が機械にとって扱いにくいという問題を解決することを目的としています。これらはレンダリング用に設計されており、セマンティック構造が欠如しているため、AIモデルが解析する際に課題が生じます。

従来のPDFやDOCXは印刷や編集のために構築され、ページの外観を記述するものの、内容の意味は記述しません。AIモデルがこれらの文書を処理する際には、パーサーが読み順やテーブル構造を推測する必要があり、しばしばエラーが発生します。DocLangは構造化された表現を提供し、各コンポーネントにセマンティックタグ、バウンディングボックス座標、読み順が含まれており、LLMトークナイザーが変換レイヤーなしで直接理解できます。

DocLangの主な特徴は以下の通りです。AIネイティブ:各要素がLLMトークンに直接マッピング。ロスレス:テーブルは完全なグリッド構造を保持し、図の位置も保存。表現力豊か:セマンティックロール、バウンディングボックス、文書階層が完全にエンコード。文書を超えて:音声トランスクリプト、画像、ビデオセグメントもファーストクラス要素として扱う。明確性:コンテンツタイプごとに一つの正準表現があり、パーサー間の差異を排除。オープン:公開仕様、ベンダーロックインなし。

ビジネスアプリケーションでは、DocLangはAIシステムに信頼性の高い構造化コンテキストを提供し、エラーを減らし、意思決定を迅速化し、コンプライアンス監査をデフォルトでサポートします。コンプライアンスメタデータは文書とともに移動し、下流システムが自動的に読み取ります。

DocLang仕様は制約付きXML形式に基づいており、LLMトークナイザー向けに設計され、トークンの1対1マッピングを実現しています。例えば、テーブルはOTSLを使用して表現され、わずか5つの構造トークンで済みます(HTMLでは28トークン必要)。

一般的な文書パーサーとは異なり、DocLangは標準であり、任意のツールが実装できます。DoclingやABBYY FineReaderはすでにDocLang出力をネイティブサポートしています。この標準のガバナンスはJoint Development Foundationによって開放性と中立性が確保されています。

LLMやVLMを使って現実世界の文書を処理しているなら、DocLangは欠けていた基盤層かもしれません。無料でオープン、そしてすぐに使用可能です。