你的AI沒問題,是你的數據有問題
企業在AI上投入數十億卻收效甚微,新創公司Clario指出問題根源在於數據中的冗餘、過時和瑣碎文件(ROT),並推出了首個專門解決該問題的平台。該公司從隱身模式中脱穎而出,獲得600萬美元種子輪融資。Clario通過掃描元數據識別垃圾文件,並通過Slack或Teams通知用户處理,採用基於結果的收費模式。早期客户分析顯示垃圾文件比例高達60%,嚴重影響了AI項目的質量。
企業正將數十億美元投入AI項目,卻收穫糟糕結果。一家名為Clario的新創公司聲稱找到了原因,並構建了首個專門解決該問題的平台。
週三,Clario從隱身模式中正式亮相,獲得了600萬美元的種子輪融資,旨在解決聯合創始人兼CEO Yousuf Khan所稱的數據ROT問題:即冗餘、過時和瑣碎的文件,這些文件不僅抬高了存儲成本,還在源頭上毒害了AI項目。
“ChatGPT問世四年後,企業在項目上花費了數十億美元,卻未能產生有意義的影響,”Khan在一份聲明中表示。“垃圾進垃圾出並非一句老生常談,而是一個代價高昂的錯誤。”
行業估計顯示,超過三分之一的企業存儲數據屬於垃圾類別。Gartner預測,到年底將有60%的AI項目因數據質量差而被放棄。Clario的早期客户工作甚至將這個數字推得更高。Khan表示,在與設計合作伙伴的測試中,他們發現垃圾文件比例高達60%。
Khan曾擔任Pure Storage和Moveworks的CIO,後成為Ridge Ventures的普通合夥人。他表示自己在每個崗位上都會遇到同樣的問題。“我試圖用所有大型文件系統解決這個問題多次,但都無果而終,”他對The New Stack表示。隨着ChatGPT上線後AI生成內容湧入企業存儲庫,這個問題進一步加劇。
聯合創始人兼CTO Madhu Vohra帶來了基礎設施方面的經驗。她的職業生涯致力於構建這些數據最終存儲的系統——在NetApp設計集羣SAN,在Nutanix組建工程團隊,並在OCI領導Oracle的塊存儲和對象存儲。
“我構建了讓企業能夠積累數據的系統,”她對The New Stack説道。“所以我在這裏贖罪。”
工作原理
Clario直接連接到企業文件系統,包括Google Drive、SharePoint、OneDrive、Box和Confluence,並通過掃描元數據來識別垃圾文件,而無需打開文件本身。Vohra表示,分類目前基於啓發式規則,利用文件校驗和、命名模式、訪問時間戳和格式支持狀態等。AI和基於嵌入式的檢測已列入路線圖。
當Clario標記一個文件時,它會通過Slack或Teams觸發工作流,通知創建或擁有該內容的人,要求他們保留、歸檔或刪除。系統從這些決策中學習,逐步構建一個越來越自主的清理引擎。Clario只有在客户對標記文件採取行動時才收費。這是一種基於結果的模型,使公司激勵與實際數據減少相一致。
ROT分為三類:冗餘文件(重複和近似重複)、過時文件(無人能打開的舊格式、多年未碰的文檔、離職員工的內容)以及瑣碎文件(隱藏文件、噪音)。早期客户分析已經發現了數TB的垃圾,包括過時產品線的知識庫文章和前員工下載的全長故事片。
為避免誤報,Clario的模型在精度上優於召回率,只標記其確信為垃圾的文件。
“任何我們認為難以判斷的內容,我們都希望提出來討論,”Khan説,並補充説目標是先解決低垂的果實,在進入更模糊的領域之前建立信心。
AI成本角度
這個時機的論證不僅關乎存儲賬單。隨着企業構建內部代理和基於RAG的系統,底層數據的質量直接決定這些系統能否正常工作。Vohra直言不諱:“我的AI產生了幻覺,還是因為你餵了它1500萬個文件?”
Khan認為問題在於token經濟學:基於不乾淨知識庫的內部代理會迫使LLM篩選過時的策略、停產產品的文檔以及過時的支持文章,在噪音上浪費計算預算。
“你簡直是在垃圾上處理token,”他指出。
一個早期客户擁有550萬個文件,發現超過20%是數據ROT——而且這些垃圾主要來自四名離職員工。
競爭格局
Khan承認這個領域很薄弱。備份供應商和歸檔公司觸及了數據清理的邊緣,但他説沒有一家公司建立了從分類到員工通知再到行動和學習的端到端工作流。“如果有的話,我早就用了,”他説。“我還沒見過有公司做到這一點。”
Vohra指出,壓縮和存儲效率工具解決了比特的成本,而不是比特的數量。“問題的核心仍然是,你擁有的1500萬個文件仍然就是那1500萬個問題。”
投資者和客户
“企業數據危機並不新鮮,但今天忽視它的成本越來越難以證明其合理性,”Preface Ventures的合夥人Saad Siddiqui在一份聲明中表示。“我們支持Clario,因為他們是唯一一家致力於從基礎層面幫助企業實現AI就緒的公司。”
Clario約有12家客户處於早期分析和部署階段。該公司成立大約六個月,計劃將業務從文件系統擴展到圖像存儲庫、視頻存儲庫以及ServiceNow和Salesforce Service Cloud等平台中的知識庫。
Khan簡單描述了產品願景:“我們的目標是確保數據衞生在企業中是一個持續的過程。”