讓AI系統更透明、更可信:專訪溫希明
在本期AAAI/SIGAI博士聯盟系列訪談中,我們採訪了正在研究透明可信AI系統的溫希明。她分享了關於原型可解釋模型、空間定位以及將可解釋性應用於醫療AI和大型語言模型的研究工作。
本期AAAI/SIGAI博士聯盟系列訪談聚焦於溫希明,一位致力於讓AI系統更加透明和可信的研究者。我們深入瞭解了她的研究、實習經歷以及投身AI領域的初衷。
關於博士研究
溫希明是費城德雷塞爾大學資訊科學專業的博士生。她的研究圍繞如何讓AI系統更透明、更可信展開。她指出,當前的語言模型能夠給出看似自信的答案,但人們很難驗證這些答案是否正確或源自何處。她致力於構建能夠展示推理過程並指出輸出依據的模型,尤其是在醫療和法律檔案審查等關鍵領域,讓使用者真正信任AI。
研究進展
她的博士研究始於一個問題:能否構建出效能足夠優秀、可實際應用的可解釋模型?以往的可解釋模型在準確性上總是落後於黑盒模型,難以被採用。她開發了一種基於原型的方法,成功縮小了這一差距——模型透過展示學習到的相似例項來解釋決策,而效能並未降低。隨後,她將該方法擴充套件到生成式模型,探索模型不僅能給出答案,還能精準指出答案來源的可能性。此外,她還將這些思想應用於醫療AI,開發出即使在訓練資料極少的情況下也能執行的、可解釋的診斷工具。
空間定位的突破
研究中最令她興奮的莫過於空間定位工作。當她重新設計模型學習空間座標的方式後,準確率從約65%躍升至85%以上。她解釋說,之前的損失函式實際上忽略了文件中的小區域,導致模型直接忽略它們。引入尺度感知損失函式後,一切發生了改變。這一經歷讓她深刻認識到,教學方式與模型本身同樣重要——這也是她整個論文的核心思想。
未來方向
溫希明計劃將原型可解釋性擴充套件到更大的生成式模型中。目前,基於原型的方法大多僅適用於分類任務,而將這種基於案例的推理擴充套件到生成式模型仍是一項開放挑戰。她正在探索的一個方向是分析模型不同層如何編碼不同型別知識,並利用這種結構構建更豐富、更精細的模型輸出解釋。另一個方向是將原型推理整合到獎勵模型中,使AI對齊過程本身更加透明——透過解釋獎勵模型為何偏好某一回答,可以構建更安全、更可信的AI系統。
行業研究經歷
在位於山景城的三星美國研究院,她作為NLP研究實習生,在語言智慧團隊解決了一個看似簡單卻極具挑戰的問題:AI能否閱讀複雜文件、回答問題並精準定位答案來源?她開發了新的訓練方法,教會模型理解文件中座標之間的空間關係,顯著提升了答案定位的準確性。該工作已被ACL 2025接收。
在亞馬遜的應用科學家實習期間,她構建了一個自動生成產品類別定義的系統。亞馬遜市場擁有數百萬商品和數千類別,每個類別都需要清晰的定義來準確涵蓋所有商品。此前,這些定義由人工編寫,耗時數週且難以跟上新品和新興類別的速度。她開發的系統自動生成定義,在準確性和清晰度上均超越了人工編寫的版本。她認為,當任務涉及綜合數百萬條資訊時,AI可以產生比人工更準確、更一致的結果——前提是輸出被設計得清晰可信。
兩個實習經歷都強化了一個教訓:僅構建強大的AI是不夠的。如果人們無法理解或驗證模型的輸出,技術就無法發揮全部潛力。
研究AI的初衷
溫希明對AI的興趣始於本科畢業設計,當時她用MNIST資料集訓練了一個簡單的神經網路,發現即使是小模型也能達到95%以上的準確率。這一瞬間激發了她:如果簡單網路能理解影像,能否理解人類語言?能否與人進行真實對話?她對這個問題充滿熱情。隨著GPT和大型語言模型的出現,許多曾經的科幻想象已成為現實。但系統越強大,她越思考一個新的問題:我們能否讓這些系統足夠安全、可信,讓人們真正依賴它們?她相信這是AI發揮全部潛力的關鍵,也是驅動她當前研究的動力。
工作之餘
溫希明喜歡親近自然。她喜歡在費城費爾蒙特公園的河邊散步,看日落;冬天在波科諾山滑雪;夏天劃皮艇或漂流。自然是最好的充電方式,讓她保持身心平衡。
關於溫希明
溫希明是德雷塞爾大學資訊科學博士生,研究聚焦於使語言模型更可解釋、更可信。她的工作涵蓋基於原型的可解釋文本分類模型和空間定位的文件問答架構。她在ACL、COLING、AAAI等頂級會議發表論文,並參與了NIH和DARPA資助的聯邦研究專案。她還在三星美國研究院、亞馬遜和平安科技積累了行業研究經驗。研究之外,她喜歡劃皮艇、滑雪和探索費城周邊的自然風光。