在2025年的安卓手機上生成影像
Duration AI團隊在三星Galaxy S25+上成功執行了PrismML的Bonsai影像模型,透過NPU實現了512×512影像的生成,耗時約2分鐘。儘管過程充滿挑戰,但她們為安卓上的AI影像生成提供了寶貴的經驗。
Duration AI團隊於2025年在三星Galaxy S25+上成功演示了完全在裝置端生成影像的能力,這是她們此前在2020年iPhone上實現類似功能後的安卓版本。該團隊使用PrismML的Bonsai影像模型,這是一種1-bit擴散變壓器,在手機的Hexagon NPU上執行,成功生成了512×512畫素的影像,耗時約2分鐘。
然而,這一成果的實現過程遠比iOS版本艱難。iOS擁有成熟的核心ML和MLX框架,而安卓上的選擇有限:NNAPI已被LiteRT取代,但仍不成熟;不同手機家族擁有不同的硬體(CPU、GPU、NPU),各自需要專屬的工具鏈。團隊首先嚐試了CPU,使用stable-diffusion.cpp的改進版,但每步耗時約2分鐘,生成整張影像需要8-9分鐘。隨後嘗試GPU,成功生成了256×256的影像,但擴充套件到512×512時頻繁崩潰。最終,NPU成為唯一可行的路徑。
將模型部署到NPU面臨諸多挑戰:需要擴充套件權重以適應NPU、處理fp16溢位問題、應對高通SDK版本差異等。最終成果是一個透過資料線連線的生成管線,而非獨立的App。儘管影像質量略低於iPhone版本(因NPU使用較低精度的整數運算),但耗時幾乎相同(約140秒)。值得注意的是,模型在NPU上不再保持1-bit特性,導致部署包大小達10.7 GB(iPhone版為3.7 GB),峰值記憶體接近5 GB。團隊還指出,連續生成時會出現熱節流,且文本編碼器和VAE仍執行在CPU上,未來有最佳化空間。
儘管未完成完整的安卓應用,Duration AI將程式碼開源,並希望這項工作能為其他開發者提供有價值的起點。團隊也提到,如果有人能解決GPU端的崩潰問題,或許能進一步提升效能。總體而言,這個專案展示了安卓裝置上AI影像生成的潛力,也揭示了當前生態系統中的碎片化挑戰。