2026-06-30 20:21 UTC+8站內改寫1 分鐘閱讀更新: 2026-06-30 21:03 UTC+8

在2025年的安卓手機上生成影像

Duration AI團隊在三星Galaxy S25+上成功執行了PrismML的Bonsai影像模型，透過NPU實現了512×512影像的生成，耗時約2分鐘。儘管過程充滿挑戰，但她們為安卓上的AI影像生成提供了寶貴的經驗。

Duration AI團隊於2025年在三星Galaxy S25+上成功演示了完全在裝置端生成影像的能力，這是她們此前在2020年iPhone上實現類似功能後的安卓版本。該團隊使用PrismML的Bonsai影像模型，這是一種1-bit擴散變壓器，在手機的Hexagon NPU上執行，成功生成了512×512畫素的影像，耗時約2分鐘。

然而，這一成果的實現過程遠比iOS版本艱難。iOS擁有成熟的核心ML和MLX框架，而安卓上的選擇有限：NNAPI已被LiteRT取代，但仍不成熟；不同手機家族擁有不同的硬體（CPU、GPU、NPU），各自需要專屬的工具鏈。團隊首先嚐試了CPU，使用stable-diffusion.cpp的改進版，但每步耗時約2分鐘，生成整張影像需要8-9分鐘。隨後嘗試GPU，成功生成了256×256的影像，但擴充套件到512×512時頻繁崩潰。最終，NPU成為唯一可行的路徑。

將模型部署到NPU面臨諸多挑戰：需要擴充套件權重以適應NPU、處理fp16溢位問題、應對高通SDK版本差異等。最終成果是一個透過資料線連線的生成管線，而非獨立的App。儘管影像質量略低於iPhone版本（因NPU使用較低精度的整數運算），但耗時幾乎相同（約140秒）。值得注意的是，模型在NPU上不再保持1-bit特性，導致部署包大小達10.7 GB（iPhone版為3.7 GB），峰值記憶體接近5 GB。團隊還指出，連續生成時會出現熱節流，且文本編碼器和VAE仍執行在CPU上，未來有最佳化空間。

儘管未完成完整的安卓應用，Duration AI將程式碼開源，並希望這項工作能為其他開發者提供有價值的起點。團隊也提到，如果有人能解決GPU端的崩潰問題，或許能進一步提升效能。總體而言，這個專案展示了安卓裝置上AI影像生成的潛力，也揭示了當前生態系統中的碎片化挑戰。