2026-07-02 06:45 UTC+8站內改寫2 分鐘閱讀更新: 2026-07-02 07:33 UTC+8

在資料海洋中定位關鍵資訊：使用Daft查詢物理AI資料

本文介紹瞭如何使用Daft框架對Apple的EgoDex資料集進行高效查詢。透過結合幀級語義嵌入（如SigLIP）和幾何特徵，研究人員可以用自然語言搜尋影片片段，例如“找到所有手部呈寫字姿勢並舉起筷子的片段”。Daft使大規模、非結構化機器人資料集的可發現性成為可能。

來源Hacker News AI作者: sammysidhu

在機器人技術領域，傳統方法通常依賴於預設的任務選單——例如，亞馬遜的Kiva機器人只需知道如何移動貨架，而掃地機器人只需清潔地板。然而，當環境變得不可控時，這種方法便失效了。訓練摺疊衣物機器人時，無法列舉所有衣物配置；自動駕駛車隊每天上傳PB級資料，但研究人員難以從數萬小時影片中找出近碰撞或違規事件。這就是前沿機器人實驗室面臨的“資料理解問題”。

蘋果公司的EgoDex資料集為解決這一問題提供了絕佳場景。該資料集包含第一人稱視角的手部姿態標註和頭部攝像頭影片，涵蓋多種桌面任務。但EgoDex同樣面臨“選單問題”：任務描述如“坐在木桌上摺疊小T恤”無法揭示具體動作細節。研究人員需要知道訓練資料中是否缺少扭轉動作，或如何篩選出緊握錘子的片段。

Daft框架為此提供瞭解決方案。首先，它透過本機HDF5檔案型別直接讀取EgoDex資料集（HDF5格式），將每個片段（.hdf5檔案和對應.mp4影片）轉換為逐幀DataFrame。透過自定義UDF（使用者定義函式），可以批次讀取手部變換矩陣、骨架資料和外參，生成一個包含幀索引、狀態、骨架、動作等欄位的結構化表格。

為了理解視覺內容，Daft使用Google的SigLIP-2影像編碼器對幀進行子取樣（每秒1幀），生成768維歸一化嵌入向量。這些嵌入與文本查詢（如“筷子”）的編碼計算餘弦相似度，從而篩選相關幀。然而，視覺編碼無法識別手部幾何特徵，例如“寫字姿勢”或“錘式抓握”。為此，Daft利用感測器資料中的48維手腕姿態和204維關節骨架，計算手部開放度、抓握型別（精密抓握或力量抓握）以及動作（扭轉、伸手、舉起等）。這些幾何特徵透過NumPy和Daft UDF實現，並作為新列新增到DataFrame中。

最終，Daft將語義嵌入與幾何特徵結合，支援自然語言查詢。例如，“找到每個片段中手部呈寫字姿勢並舉起筷子的畫面”。研究人員可以像使用CTRL+F一樣搜尋整個資料集，實現快速的資料審計、失敗案例檢索和訓練集最佳化。這為機器人資料從“選單式”向“可發現式”轉變提供了強大工具。

此外，Daft的架構設計使其能夠高效處理大規模資料。透過將嵌入計算和幾何特徵提取並行化，Daft可以在幾分鐘內完成對整個EgoDex資料集的索引。一旦索引建立，查詢過程近乎即時。這種方法不僅適用於EgoDex，還可以推廣到其他類似的機器人資料集，如自動駕駛感測器資料或工業機器人運算元據。未來，Daft計劃支援更多感測器模態，如深度影像和觸覺資料，進一步擴充套件其應用範圍。總之，Daft有潛力成為機器人資料管理的基礎工具，推動物理AI的發展。