你的AI没问题,是你的数据有问题
企业在AI上投入数十亿却收效甚微,新创公司Clario指出问题根源在于数据中的冗余、过时和琐碎文件(ROT),并推出了首个专门解决该问题的平台。该公司从隐身模式中脱颖而出,获得600万美元种子轮融资。Clario通过扫描元数据识别垃圾文件,并通过Slack或Teams通知用户处理,采用基于结果的收费模式。早期客户分析显示垃圾文件比例高达60%,严重影响了AI项目的质量。
企业正将数十亿美元投入AI项目,却收获糟糕结果。一家名为Clario的新创公司声称找到了原因,并构建了首个专门解决该问题的平台。
周三,Clario从隐身模式中正式亮相,获得了600万美元的种子轮融资,旨在解决联合创始人兼CEO Yousuf Khan所称的数据ROT问题:即冗余、过时和琐碎的文件,这些文件不仅抬高了存储成本,还在源头上毒害了AI项目。
“ChatGPT问世四年后,企业在项目上花费了数十亿美元,却未能产生有意义的影响,”Khan在一份声明中表示。“垃圾进垃圾出并非一句老生常谈,而是一个代价高昂的错误。”
行业估计显示,超过三分之一的企业存储数据属于垃圾类别。Gartner预测,到年底将有60%的AI项目因数据质量差而被放弃。Clario的早期客户工作甚至将这个数字推得更高。Khan表示,在与设计合作伙伴的测试中,他们发现垃圾文件比例高达60%。
Khan曾担任Pure Storage和Moveworks的CIO,后成为Ridge Ventures的普通合伙人。他表示自己在每个岗位上都会遇到同样的问题。“我试图用所有大型文件系统解决这个问题多次,但都无果而终,”他对The New Stack表示。随着ChatGPT上线后AI生成内容涌入企业存储库,这个问题进一步加剧。
联合创始人兼CTO Madhu Vohra带来了基础设施方面的经验。她的职业生涯致力于构建这些数据最终存储的系统——在NetApp设计集群SAN,在Nutanix组建工程团队,并在OCI领导Oracle的块存储和对象存储。
“我构建了让企业能够积累数据的系统,”她对The New Stack说道。“所以我在这里赎罪。”
工作原理
Clario直接连接到企业文件系统,包括Google Drive、SharePoint、OneDrive、Box和Confluence,并通过扫描元数据来识别垃圾文件,而无需打开文件本身。Vohra表示,分类目前基于启发式规则,利用文件校验和、命名模式、访问时间戳和格式支持状态等。AI和基于嵌入式的检测已列入路线图。
当Clario标记一个文件时,它会通过Slack或Teams触发工作流,通知创建或拥有该内容的人,要求他们保留、归档或删除。系统从这些决策中学习,逐步构建一个越来越自主的清理引擎。Clario只有在客户对标记文件采取行动时才收费。这是一种基于结果的模型,使公司激励与实际数据减少相一致。
ROT分为三类:冗余文件(重复和近似重复)、过时文件(无人能打开的旧格式、多年未碰的文档、离职员工的内容)以及琐碎文件(隐藏文件、噪音)。早期客户分析已经发现了数TB的垃圾,包括过时产品线的知识库文章和前员工下载的全长故事片。
为避免误报,Clario的模型在精度上优于召回率,只标记其确信为垃圾的文件。
“任何我们认为难以判断的内容,我们都希望提出来讨论,”Khan说,并补充说目标是先解决低垂的果实,在进入更模糊的领域之前建立信心。
AI成本角度
这个时机的论证不仅关乎存储账单。随着企业构建内部代理和基于RAG的系统,底层数据的质量直接决定这些系统能否正常工作。Vohra直言不讳:“我的AI产生了幻觉,还是因为你喂了它1500万个文件?”
Khan认为问题在于token经济学:基于不干净知识库的内部代理会迫使LLM筛选过时的策略、停产产品的文档以及过时的支持文章,在噪音上浪费计算预算。
“你简直是在垃圾上处理token,”他指出。
一个早期客户拥有550万个文件,发现超过20%是数据ROT——而且这些垃圾主要来自四名离职员工。
竞争格局
Khan承认这个领域很薄弱。备份供应商和归档公司触及了数据清理的边缘,但他说没有一家公司建立了从分类到员工通知再到行动和学习的端到端工作流。“如果有的话,我早就用了,”他说。“我还没见过有公司做到这一点。”
Vohra指出,压缩和存储效率工具解决了比特的成本,而不是比特的数量。“问题的核心仍然是,你拥有的1500万个文件仍然就是那1500万个问题。”
投资者和客户
“企业数据危机并不新鲜,但今天忽视它的成本越来越难以证明其合理性,”Preface Ventures的合伙人Saad Siddiqui在一份声明中表示。“我们支持Clario,因为他们是唯一一家致力于从基础层面帮助企业实现AI就绪的公司。”
Clario约有12家客户处于早期分析和部署阶段。该公司成立大约六个月,计划将业务从文件系统扩展到图像存储库、视频存储库以及ServiceNow和Salesforce Service Cloud等平台中的知识库。
Khan简单描述了产品愿景:“我们的目标是确保数据卫生在企业中是一个持续的过程。”