AIは壊れていない。データが問題だ
企業はAIに数十億ドルを注ぎ込んでいるが、ゴミのような結果しか得られていない。新興企業Clarioはその理由を知っており、データのROT(冗長、旧式、些末なファイル)を修正する最初のプラットフォームを構築したと主張する。600万ドルのシード資金でステルスモードからローンチしたClarioは、エンタープライズファイルシステムに接続し、メタデータをスキャンしてジャンクを特定し、クリーンアップのワークフローをトリガーする。アクションが行われた場合のみ課金する。初期顧客では最大60%のガベージ率が見られ、AIプロジェクトの品質に影響を与えている。
企業はAIに数十億ドルを投じているが、得られる結果はゴミ同然だ。新興企業Clarioはその理由を突き止め、問題を修正する最初のプラットフォームを構築したと主張する。
Clarioは水曜日にステルスモードから姿を現し、600万ドルのシード資金を調達した。共同創業者兼CEOのYousuf KhanがデータROT(冗長、旧式、些末なファイル)と呼ぶものに取り組むためだ。これらのファイルはストレージコストを膨らませ、AIプロジェクトを根源から汚染する。
「ChatGPTから4年が経過した今、企業は有意義なインパクトを生み出せていないプロジェクトに数十億ドルを費やしてきた」とKhanは声明で述べている。「Garbage In, Garbage Out(ゴミを入れればゴミが出てくる)は決して決まり文句ではなく、非常に高くつく間違いだ。」
業界推定では、企業が保存するデータの3分の1以上がガベージカテゴリーに該当する。そしてGartnerは、データ品質の低さを理由に、今年末までにAIプロジェクトの60%が放棄されると予測している。Clarioの初期顧客との取り組みでは、この数字はさらに高くなっている。Khanによれば、設計パートナーとのテストで、ガベージ率が60%にも達したという。
KhanはPure StorageやMoveworksでCIOを務めた後、Ridge Venturesのゼネラルパートナーとなった5度のCIO経験者だ。彼はどこでも同じ壁にぶつかってきたと語る。「大きなファイルシステムで何度もこの問題を解決しようとしたが、できなかった」と彼はThe New Stackに語った。ChatGPTのローンチ後、AI生成コンテンツがエンタープライズリポジトリに殺到するようになり、問題はさらに悪化した。
共同創業者兼CTOのMadhu Vohraはインフラストラクチャ側の経験をもたらす。彼女はキャリアを通じて、このデータが最終的に格納されるシステムを構築してきた。NetAppでクラスター化SANを設計し、Nutanixでエンジニアリングチームを拡大し、OCIでOracleのブロックストレージとオブジェクトストレージを主導した。
「私はデータを蓄積できる主要なシステムを構築してきた」と彼女はThe New Stackに語る。「だからここで罪滅ぼしをしている。」
動作の仕組み
ClarioはGoogle Drive、SharePoint、OneDrive、Box、Confluenceなどのエンタープライズファイルシステムに直接接続し、ファイル自体を開かずにメタデータをスキャンしてガベージを表面化させる。分類は現在、ファイルチェックサム、命名パターン、アクセスタイムスタンプ、フォーマットサポート状況を使用したヒューリスティックベースだとVohraは言う。AIと埋め込みベースの検出はロードマップ上にあると彼女は付け加えた。
Clarioがファイルをフラグすると、SlackやTeamsを介してワークフローがトリガーされ、コンテンツを作成または所有している人に通知し、保存、アーカイブ、削除を依頼する。システムはそれらの決定から学習し、時間の経過とともに自律的なクリーンアップエンジンを構築する。Clarioは顧客がフラグされたファイルに対してアクションを起こした場合にのみ課金される。これは成果ベースのモデルであり、会社のインセンティブを実際のデータ削減と一致させる。
ROTは3つのバケットに分類される:冗長ファイル(重複および類似)、旧式ファイル(誰も開けないレガシーフォーマット、何年も触られていないドキュメント、退職者のコンテンツ)、そして些末ファイル(隠しファイル、ノイズ)。初期の顧客分析では、テラバイト単位のジャンクが明らかになった。Vohraによれば、廃止された製品ラインのナレッジベース記事や、元従業員がダウンロードした長編映画などが含まれるという。
誤検出を避けるため、Clarioのモデルは再現率よりも精度を重視して調整されており、ガベージであると確信できるものだけをフラグする。
「解読が難しいと思われるものは、すべて提起したい」とKhanは言い、まずは低い果実に取り組み、より曖昧な領域に進む前に信頼を築くことを目指していると付け加えた。
AIコストの観点
このタイミングの論拠は、保管コストだけにとどまらない。企業が内部エージェントやRAGベースのシステムを構築するにつれて、基礎となるデータの品質がそれらのシステムが機能するかどうかを直接決定する。Vohraは率直に言う:「AIが幻覚を見たのか、それとも1500万ものファイルを餌として与えたからなのか?」
Khanはトークンエコノミクスの問題を指摘する:不潔なナレッジベース上に構築された内部エージェントは、LLMに古いポリシー、廃止された製品のドキュメント、時代遅れのサポート記事をふるいにかけさせ、ノイズに計算予算を浪費させる。
「文字通りゴミに対してトークンを処理しているのです」と彼は指摘する。
ある初期顧客は550万ファイルのうち20%以上がデータROTであり、そのほとんどが4人の退職した従業員に起因することがわかった。
競合環境
Khanはこの分野が薄いことを認めている。バックアップベンダーやアーカイブ企業はデータクリーンアップの端に触れてきたが、分類から従業員への通知、行動、学習に至るエンドツーエンドのワークフローを構築した企業はないと彼は言う。「もし存在していたら、私が使っていただろう」と彼は言う。「これを行った企業をまだ見たことがない。」
Vohraは、圧縮やストレージ効率化ツールはビットのコストに対処するものであり、ビットの数に対処するものではないと指摘する。「問題の核心は、あなたが持っている1500万のファイルが、まさにその1500万の問題であり続けることです。」
投資家と顧客
「エンタープライズのデータ危機は新しいものではありませんが、今日それを無視するコストは正当化するのがますます難しくなっています」とPreface VenturesのパートナーSaad Siddiquiは声明で述べている。「私たちはClarioを支援しました。なぜなら彼らは基礎的なレベルでエンタープライズをAI対応にすることに取り組んでいる唯一の企業だからです。」
Clarioには現在約12社の顧客がおり、初期分析と導入が進んでいる。会社は設立から約6ヶ月で、ファイルシステムやコンテンツシステムから画像リポジトリ、ビデオストア、ServiceNowやSalesforce Service Cloudなどのプラットフォームのナレッジベースに拡大する計画だ。
Khanは製品ビジョンを単純にこう表現する:「私たちの目標は、データ衛生をエンタープライズにおける継続的なプロセスにすることです。」