AI News HubLIVE
站內改寫2 分鐘閱讀

在資料海洋中定位關鍵資訊:使用Daft查詢物理AI資料

本文介紹瞭如何使用Daft框架對Apple的EgoDex資料集進行高效查詢。透過結合幀級語義嵌入(如SigLIP)和幾何特徵,研究人員可以用自然語言搜尋影片片段,例如“找到所有手部呈寫字姿勢並舉起筷子的片段”。Daft使大規模、非結構化機器人資料集的可發現性成為可能。

來源Hacker News AI作者: sammysidhu

在機器人技術領域,傳統方法通常依賴於預設的任務選單——例如,亞馬遜的Kiva機器人只需知道如何移動貨架,而掃地機器人只需清潔地板。然而,當環境變得不可控時,這種方法便失效了。訓練摺疊衣物機器人時,無法列舉所有衣物配置;自動駕駛車隊每天上傳PB級資料,但研究人員難以從數萬小時影片中找出近碰撞或違規事件。這就是前沿機器人實驗室面臨的“資料理解問題”。

蘋果公司的EgoDex資料集為解決這一問題提供了絕佳場景。該資料集包含第一人稱視角的手部姿態標註和頭部攝像頭影片,涵蓋多種桌面任務。但EgoDex同樣面臨“選單問題”:任務描述如“坐在木桌上摺疊小T恤”無法揭示具體動作細節。研究人員需要知道訓練資料中是否缺少扭轉動作,或如何篩選出緊握錘子的片段。

Daft框架為此提供瞭解決方案。首先,它透過本機HDF5檔案型別直接讀取EgoDex資料集(HDF5格式),將每個片段(.hdf5檔案和對應.mp4影片)轉換為逐幀DataFrame。透過自定義UDF(使用者定義函式),可以批次讀取手部變換矩陣、骨架資料和外參,生成一個包含幀索引、狀態、骨架、動作等欄位的結構化表格。

為了理解視覺內容,Daft使用Google的SigLIP-2影像編碼器對幀進行子取樣(每秒1幀),生成768維歸一化嵌入向量。這些嵌入與文本查詢(如“筷子”)的編碼計算餘弦相似度,從而篩選相關幀。然而,視覺編碼無法識別手部幾何特徵,例如“寫字姿勢”或“錘式抓握”。為此,Daft利用感測器資料中的48維手腕姿態和204維關節骨架,計算手部開放度、抓握型別(精密抓握或力量抓握)以及動作(扭轉、伸手、舉起等)。這些幾何特徵透過NumPy和Daft UDF實現,並作為新列新增到DataFrame中。

最終,Daft將語義嵌入與幾何特徵結合,支援自然語言查詢。例如,“找到每個片段中手部呈寫字姿勢並舉起筷子的畫面”。研究人員可以像使用CTRL+F一樣搜尋整個資料集,實現快速的資料審計、失敗案例檢索和訓練集最佳化。這為機器人資料從“選單式”向“可發現式”轉變提供了強大工具。

此外,Daft的架構設計使其能夠高效處理大規模資料。透過將嵌入計算和幾何特徵提取並行化,Daft可以在幾分鐘內完成對整個EgoDex資料集的索引。一旦索引建立,查詢過程近乎即時。這種方法不僅適用於EgoDex,還可以推廣到其他類似的機器人資料集,如自動駕駛感測器資料或工業機器人運算元據。未來,Daft計劃支援更多感測器模態,如深度影像和觸覺資料,進一步擴充套件其應用範圍。總之,Daft有潛力成為機器人資料管理的基礎工具,推動物理AI的發展。