AI News HubLIVE
站內改寫1 分鐘閱讀

更快速、更強大的文檔轉換:Unstructured 發佈新功能和生成式精煉

Unstructured 宣佈一系列更新,包括簡化的拖放界面、生成式精煉技術以提高輸出保真度,以及簡化的定價方案。新工作流程結合高分辨率分區與視覺語言模型增強,實現更高精度和結構保存。

Unstructured 始終專注於為下游AI系統提供清潔、高質量的數據。近日,該公司宣佈對其文檔轉換平台進行了一系列重大升級,旨在讓企業級數據預處理更簡單、更快速、更智能。

全新的“首頁”體驗:從登錄到處理完成僅需三次點擊。用户登錄後,可直接在首頁拖放文件,Unstructured 會自動採用最佳工作流進行處理。處理完成後,用户可以獲得高保真度輸出、並排預覽、邊界框可視化以及完整的JSON下載。這一體驗支持10MB以內的文件,非常適合快速評估。一旦驗證滿意,用户可一鍵切換到工作流構建器,而無需重新配置參數。

生成式精煉(Generative Refinement)是本次更新的核心技術。該技術通過高分辨率分區器(High Res Partitioner)先精確識別文本、表格、圖像等元素並鎖定其邊界框,然後利用視覺語言模型(VLM)對各類元素進行針對性精煉:新推出的生成式OCR文本提取、表格轉HTML以及圖像描述生成。相比傳統OCR或純VLM解析方法,該方案顯著降低了幻覺率,同時提升了表格結構和內容的保真度。Unstructured 表示,這一成果得益於其對傳統OCR評估侷限性的突破,並將在後續公佈更多基準測試結果。

在定價方面,Unstructured 進行了簡化,推出三個層級:免費層允許處理多達15,000頁,無時間限制,包含所有功能;按需付費層為$0.03/頁,無重複收費,涵蓋端到端數據轉換管線;企業層提供完全隔離的客户託管部署、自定義定價和服務等級協議。

Unstructured 強調,新的轉換流程將分區與生成式精煉相結合,是達成精確、結構完整且低幻覺輸出——即構建檢索增強生成(RAG)或智能體系統——的關鍵。用户現在即可註冊並親身體驗高保真文檔轉換,也可聯繫團隊獲取個性化演示。