你的AI沒問題,是你的資料有問題
企業在AI上投入數十億卻收效甚微,新創公司Clario指出問題根源在於資料中的冗餘、過時和瑣碎檔案(ROT),並推出了首個專門解決該問題的平臺。該公司從隱身模式中脫穎而出,獲得600萬美元種子輪融資。Clario透過掃描後設資料識別垃圾檔案,並透過Slack或Teams通知使用者處理,採用基於結果的收費模式。早期客戶分析顯示垃圾檔案比例高達60%,嚴重影響了AI專案的質量。
企業正將數十億美元投入AI專案,卻收穫糟糕結果。一家名為Clario的新創公司聲稱找到了原因,並構建了首個專門解決該問題的平臺。
週三,Clario從隱身模式中正式亮相,獲得了600萬美元的種子輪融資,旨在解決聯合創始人兼CEO Yousuf Khan所稱的資料ROT問題:即冗餘、過時和瑣碎的檔案,這些檔案不僅抬高了儲存成本,還在源頭上毒害了AI專案。
“ChatGPT問世四年後,企業在專案上花費了數十億美元,卻未能產生有意義的影響,”Khan在一份宣告中表示。“垃圾進垃圾出並非一句老生常談,而是一個代價高昂的錯誤。”
行業估計顯示,超過三分之一的企業儲存資料屬於垃圾類別。Gartner預測,到年底將有60%的AI專案因資料質量差而被放棄。Clario的早期客戶工作甚至將這個數字推得更高。Khan表示,在與設計合作伙伴的測試中,他們發現垃圾檔案比例高達60%。
Khan曾擔任Pure Storage和Moveworks的CIO,後成為Ridge Ventures的普通合夥人。他表示自己在每個崗位上都會遇到同樣的問題。“我試圖用所有大型檔案系統解決這個問題多次,但都無果而終,”他對The New Stack表示。隨著ChatGPT上線後AI生成內容湧入企業儲存庫,這個問題進一步加劇。
聯合創始人兼CTO Madhu Vohra帶來了基礎設施方面的經驗。她的職業生涯致力於構建這些資料最終儲存的系統——在NetApp設計叢集SAN,在Nutanix組建工程團隊,並在OCI領導Oracle的塊儲存和物件儲存。
“我構建了讓企業能夠積累資料的系統,”她對The New Stack說道。“所以我在這裡贖罪。”
工作原理
Clario直接連線到企業檔案系統,包括Google Drive、SharePoint、OneDrive、Box和Confluence,並透過掃描後設資料來識別垃圾檔案,而無需開啟檔案本身。Vohra表示,分類目前基於啟發式規則,利用檔案校驗和、命名模式、訪問時間戳和格式支援狀態等。AI和基於嵌入式的檢測已列入路線圖。
當Clario標記一個檔案時,它會透過Slack或Teams觸發工作流,通知建立或擁有該內容的人,要求他們保留、歸檔或刪除。系統從這些決策中學習,逐步構建一個越來越自主的清理引擎。Clario只有在客戶對標記檔案採取行動時才收費。這是一種基於結果的模型,使公司激勵與實際資料減少相一致。
ROT分為三類:冗餘檔案(重複和近似重複)、過時檔案(無人能開啟的舊格式、多年未碰的文件、離職員工的內容)以及瑣碎檔案(隱藏檔案、噪音)。早期客戶分析已經發現了數TB的垃圾,包括過時產品線的知識庫文章和前員工下載的全長故事片。
為避免誤報,Clario的模型在精度上優於召回率,只標記其確信為垃圾的檔案。
“任何我們認為難以判斷的內容,我們都希望提出來討論,”Khan說,並補充說目標是先解決低垂的果實,在進入更模糊的領域之前建立信心。
AI成本角度
這個時機的論證不僅關乎儲存賬單。隨著企業構建內部代理和基於RAG的系統,底層資料的質量直接決定這些系統能否正常工作。Vohra直言不諱:“我的AI產生了幻覺,還是因為你餵了它1500萬個檔案?”
Khan認為問題在於token經濟學:基於不乾淨知識庫的內部代理會迫使LLM篩選過時的策略、停產產品的文件以及過時的支援文章,在噪音上浪費計算預算。
“你簡直是在垃圾上處理token,”他指出。
一個早期客戶擁有550萬個檔案,發現超過20%是資料ROT——而且這些垃圾主要來自四名離職員工。
競爭格局
Khan承認這個領域很薄弱。備份供應商和歸檔公司觸及了資料清理的邊緣,但他說沒有一家公司建立了從分類到員工通知再到行動和學習的端到端工作流。“如果有的話,我早就用了,”他說。“我還沒見過有公司做到這一點。”
Vohra指出,壓縮和儲存效率工具解決了位元的成本,而不是位元的數量。“問題的核心仍然是,你擁有的1500萬個檔案仍然就是那1500萬個問題。”
投資者和客戶
“企業資料危機並不新鮮,但今天忽視它的成本越來越難以證明其合理性,”Preface Ventures的合夥人Saad Siddiqui在一份宣告中表示。“我們支援Clario,因為他們是唯一一家致力於從基礎層面幫助企業實現AI就緒的公司。”
Clario約有12家客戶處於早期分析和部署階段。該公司成立大約六個月,計劃將業務從檔案系統擴充套件到影像儲存庫、影片儲存庫以及ServiceNow和Salesforce Service Cloud等平臺中的知識庫。
Khan簡單描述了產品願景:“我們的目標是確保資料衛生在企業中是一個持續的過程。”