AI News HubLIVE
公开文章 8采集文章 11可信度 82刷新频率 120 分钟
健康状态 健康来源类型 官方原文权限 官方原文最近入库 2026-06-09ID unstructured-blog运行状态 已启用

Official document AI and RAG infrastructure blog; confirm reuse terms before full body display.

最新公开文章

您的湖仓擅长处理结构化数据。非结构化数据是下一个目标。

本文探讨了企业AI代理无法访问组织中约80%的非结构化数据(如PDF、合同、电子邮件等)的问题,并介绍了Unstructured平台如何将这些数据转化为Databricks湖仓中代理可用的知识。文章强调了单一管道处理多种文件类型、遵循奖章架构、以及通过Unity Catalog实现治理的优势。

  • 组织约80%的知识存储在非结构化数据中,AI代理无法直接访问。
  • Unstructured提供单一管道,支持65+文件类型,实现提取、分块、丰富和嵌入。
站内正文

Unstructured获得NAVSEA合同,为舰队AI数据访问提供支持

美国海军海上系统司令部授予Unstructured一份合同,旨在设计和演示AI驱动的解决方案,帮助作战人员更快获取关键信息,减少操作员负担,并加速反潜战和水面战决策。该方案结合Unstructured的数据处理和Elastic的企业搜索能力,将整合异构数据源,提供可解释的搜索结果,首先应用于AN/SQQ-34航母战术支持系统和AN/UYQ-100水下战决策支持系统,并计划未来扩展至联合全域指挥控制等领域。

  • Unstructured获NAVSEA合同,开发AI解决方案以整合碎片化数据,加速舰队决策。
  • 方案将结合Unstructured的数据摄取与Elastic的企业搜索,支持反潜战和水面战。
站内正文

Unstructured 推出 Extract:从文档中提取结构化数据

Unstructured 在其文档处理工作流中新增 Extract 节点,支持通过 LLM 或正则表达式从文档中提取结构化 JSON 数据,适用于智能文档处理、数据库记录生成等场景。

  • Extract 节点可定义 JSON Schema,将文档内容转换为结构化记录,支持 LLM 和正则表达式两种提取方式。
  • 与现有分区、分块、嵌入等节点协同工作,同一工作流可同时用于检索和提取,输出包含 DocumentData 元素。
站内正文

Webhooks:将Unstructured与后续所有流程连接起来

Unstructured推出webhooks功能,可根据任务生命周期事件自动触发下游操作,支持通过工作区或工作流范围与任何端点集成。

  • Webhooks在五个任务事件上触发:已安排、进行中、已停止、失败、已完成。
  • 两种范围:工作区范围(所有任务)和工作流范围(特定工作流)。
站内正文

我们如何教会AI智能体修复训练数据 | Unstructured

Unstructured发现,合并高质量但标注风格不一致的数据集反而降低了模型性能。他们构建了一个基于VLM的智能体标签统一流水线,在训练前协调标注差异,最终在14项指标上取得提升。

  • 训练数据中的标注不一致会导致模型性能下降,即使数据量增加。
  • Unstructured开发了智能体标签统一工作流,使用VLM在训练前解决标注冲突。
站内正文

前沿模型虽强,但文档解析更难 | Unstructured

Unstructured使用SCORE-Bench基准测试评估了五种前沿模型在企业文档解析上的表现,发现原始模型调用与优化管线之间存在显著差距。尽管模型在推理和幻觉控制(尤其Claude Opus 4.6)上表现强劲,但在表格提取、文档结构和输出一致性方面仍落后于专业管线,差距高达23个百分点。文章指出,差距并非能力问题,而是配置问题,通过优化提示、后处理和输出结构约束可以有效弥合。

  • Claude Opus 4.6的幻觉率(0.044)接近优化管线(0.043),但召回率最低(0.737),导致丢失约四分之一内容。
  • 所有模型在表格提取上准确率低至23个百分点,存在结构错位风险。
站内正文

高级RAG技术:构建更智能LLM的深度指南 | Unstructured

Unstructured发布新指南,深入讲解高级检索增强生成(RAG)技术,涵盖智能分块、元数据过滤、GraphRAG、混合搜索和代理工作流等,旨在帮助开发者构建可扩展的企业级AI管道。

  • 指南解释简单RAG为何失败并提供解决方案
  • 涵盖多种智能分块策略(基于标题、相似性和结构感知)
站内正文

更快速、更强大的文档转换:Unstructured 发布新功能和生成式精炼

Unstructured 宣布一系列更新,包括简化的拖放界面、生成式精炼技术以提高输出保真度,以及简化的定价方案。新工作流程结合高分辨率分区与视觉语言模型增强,实现更高精度和结构保存。

  • 新首页支持拖放文件,三分钟内即可完成处理,并提供可视化预览。
  • 生成式精炼利用VLM后处理,改进OCR、表格和图像内容。
站内正文

全部来源