AI News HubLIVE
站內改寫1 分鐘閱讀

在2025年的安卓手機上生成圖像

Duration AI團隊在三星Galaxy S25+上成功運行了PrismML的Bonsai圖像模型,通過NPU實現了512×512圖像的生成,耗時約2分鐘。儘管過程充滿挑戰,但她們為安卓上的AI圖像生成提供了寶貴的經驗。

來源Hacker News AI作者: sudb

Duration AI團隊於2025年在三星Galaxy S25+上成功演示了完全在設備端生成圖像的能力,這是她們此前在2020年iPhone上實現類似功能後的安卓版本。該團隊使用PrismML的Bonsai圖像模型,這是一種1-bit擴散變壓器,在手機的Hexagon NPU上運行,成功生成了512×512像素的圖像,耗時約2分鐘。

然而,這一成果的實現過程遠比iOS版本艱難。iOS擁有成熟的核心ML和MLX框架,而安卓上的選擇有限:NNAPI已被LiteRT取代,但仍不成熟;不同手機家族擁有不同的硬件(CPU、GPU、NPU),各自需要專屬的工具鏈。團隊首先嚐試了CPU,使用stable-diffusion.cpp的改進版,但每步耗時約2分鐘,生成整張圖像需要8-9分鐘。隨後嘗試GPU,成功生成了256×256的圖像,但擴展到512×512時頻繁崩潰。最終,NPU成為唯一可行的路徑。

將模型部署到NPU面臨諸多挑戰:需要擴展權重以適應NPU、處理fp16溢出問題、應對高通SDK版本差異等。最終成果是一個通過數據線連接的生成管線,而非獨立的App。儘管圖像質量略低於iPhone版本(因NPU使用較低精度的整數運算),但耗時幾乎相同(約140秒)。值得注意的是,模型在NPU上不再保持1-bit特性,導致部署包大小達10.7 GB(iPhone版為3.7 GB),峯值內存接近5 GB。團隊還指出,連續生成時會出現熱節流,且文本編碼器和VAE仍運行在CPU上,未來有優化空間。

儘管未完成完整的安卓應用,Duration AI將代碼開源,並希望這項工作能為其他開發者提供有價值的起點。團隊也提到,如果有人能解決GPU端的崩潰問題,或許能進一步提升性能。總體而言,這個項目展示了安卓設備上AI圖像生成的潛力,也揭示了當前生態系統中的碎片化挑戰。