AI News HubLIVE
公開記事 8収集記事 11信頼度 82更新頻度 120 分
稼働状態 正常ソース種別 公式全文利用権限 公式全文最終取り込み 2026-06-09ID unstructured-blog状態 有効

Official document AI and RAG infrastructure blog; confirm reuse terms before full body display.

最新公開記事

レイクハウスは構造化データを見事に処理します。非構造化データが次の課題です。

この記事では、AIエージェントが組織内の非構造化データ(PDF、契約書、メールなど)の約80%にアクセスできない問題を考察し、UnstructuredプラットフォームがそれらのデータをDatabricksレイクハウスでエージェントが利用可能な知識に変換する方法を紹介しています。単一のパイプラインで65以上のファイル形式を処理し、メダリオンアーキテクチャとUnity Catalogによるガバナンスを強調しています。

  • 組織の知識の約80%は非構造化データに閉じ込められている。
  • Unstructuredは抽出、チャンク化、エンリッチメント、埋め込みを単一パイプラインで提供。
サイト内本文

Unstructured、NAVSEA契約を獲得-艦隊AIアクセスを実現

米海軍海上システム司令部はUnstructuredに契約を授与し、戦闘員が重要な情報をより迅速に入手し、オペレーターの負担を軽減し、対潜水艦戦および水上戦における意思決定を加速するAI対応ソリューションの設計・実証を行う。本ソリューションはUnstructuredのデータ取り込みとElasticのエンタープライズ検索を統合し、異種データソースを活用。まずCV-TSCおよびUSW-DSSシステムに展開され、将来的にはJADC2やC5ISRへの適用が期待される。

  • UnstructuredがNAVSEAから契約を獲得し、断片化されたデータを統合して艦隊の意思決定を加速するAIソリューションを開発。
  • ソリューションはUnstructuredのデータ取り込みとElasticのエンタープライズ検索を組み合わせ、対潜水艦戦や水上戦を支援。
サイト内本文

Unstructured、Extract機能を発表:ドキュメントからの構造化データ抽出

Unstructuredは、ワークフローに新しいエンリッチメントノード「Extract」を追加しました。LLMまたは正規表現を使用してドキュメントから構造化JSONデータを抽出し、インテリジェントな文書処理を実現します。

  • Extractノードはスキーマを定義して構造化レコードを抽出。LLMベース(内容理解が必要な場合)と正規表現ベース(パターンが固定の場合)に対応。
  • 既存のワークフローに組み込み、DocumentData要素を生成。他のノードの出力はそのまま保持。
サイト内本文

Webhooks:Unstructuredからその後のすべてへ接続

Unstructuredは、ジョブライフサイクルイベントに基づいて下流アクションを自動化するWebhook機能を開始しました。ワークスペースまたはワークフロースコープで任意のエンドポイントと統合できます。

  • Webhookは5つのジョブイベント(scheduled, in_progress, stopped, failed, completed)で発火します。
  • スコープは2種類:ワークスペーススコープ(全ジョブ)とワークフロースコープ(特定ワークフロー)。
サイト内本文

AIエージェントを使ってトレーニングデータを修正する方法 | Unstructured

Unstructuredは、高品質だがアノテーションスタイルが一致しないデータセットを組み合わせると、モデルのパフォーマンスが低下することを発見しました。彼らはVLMを使ったエージェント型ラベル調和パイプラインを構築し、トレーニング前にラベルの違いを調整した結果、14の指標で改善が見られました。

  • トレーニングデータのアノテーションの不一致は、データ量が増えてもモデルのパフォーマンスを低下させる可能性がある。
  • UnstructuredはVLMを使用して、トレーニング前に矛盾するアノテーションを調整するエージェント型ラベル調和ワークフローを開発した。
サイト内本文

最先端モデルは強力だが、文書解析はより難しい | Unstructured

UnstructuredはSCORE-Benchベンチマークを用いて、5つの最先端モデルのエンタープライズ文書解析能力を評価し、生のモデル呼び出しと最適化パイプラインの間に有意なギャップがあることを明らかにした。モデルは推論や幻覚制御(特にClaude Opus 4.6)で優れるものの、テーブル抽出、文書構造、出力一貫性で最大23ポイントの差をつけられた。このギャップは能力ではなく設定の問題であり、最適化されたプロンプト、後処理、出力構造の強制によって埋められるとしている。

  • Claude Opus 4.6の幻覚率(0.044)はパイプライン(0.043)にほぼ匹敵するが、再現率は最低(0.737)で約4分の1の内容を欠落。
  • 全モデルでテーブル抽出精度が最大23ポイント低く、構造的に誤ったデータのリスク。
サイト内本文

高度なRAG技術:よりスマートなLLMへの詳細ガイド | Unstructured

Unstructuredが公開した新しいガイドは、高度な検索拡張生成(RAG)技術を解説。スマートチャンキング、メタデータフィルタリング、GraphRAG、ハイブリッド検索、エージェンティックワークフローなどをカバーし、スケーラブルなエンタープライズAIパイプラインの構築を支援します。

  • ガイドは単純なRAGが失敗する理由と修正方法を説明
  • タイトルベース、類似性ベース、構造認識などのスマートチャンキング戦略を網羅
サイト内本文

より高速で強力なドキュメント変換:Unstructuredが新機能と生成リファインメントを発表

Unstructuredは、簡素化されたドラッグ&ドロップインターフェース、高忠実度出力を実現する生成リファインメント、および無料ティアを含む簡素化された価格設定を含む一連のアップデートを発表しました。新しいワークフローは、高解像度パーティショニングとVLMによる拡張を組み合わせ、精度と構造保存を向上させます。

  • 新しいスタートページでのドラッグ&ドロップにより、3クリックでドキュメントを処理し、視覚的プレビューを提供。
  • 生成リファインメントはVLM後処理を利用し、OCR、テーブル、画像を改善。
サイト内本文

全ソース