AI News HubLIVE
站内改写1 分钟阅读

在2025年的安卓手机上生成图像

Duration AI团队在三星Galaxy S25+上成功运行了PrismML的Bonsai图像模型,通过NPU实现了512×512图像的生成,耗时约2分钟。尽管过程充满挑战,但她们为安卓上的AI图像生成提供了宝贵的经验。

来源Hacker News AI作者: sudb

Duration AI团队于2025年在三星Galaxy S25+上成功演示了完全在设备端生成图像的能力,这是她们此前在2020年iPhone上实现类似功能后的安卓版本。该团队使用PrismML的Bonsai图像模型,这是一种1-bit扩散变压器,在手机的Hexagon NPU上运行,成功生成了512×512像素的图像,耗时约2分钟。

然而,这一成果的实现过程远比iOS版本艰难。iOS拥有成熟的核心ML和MLX框架,而安卓上的选择有限:NNAPI已被LiteRT取代,但仍不成熟;不同手机家族拥有不同的硬件(CPU、GPU、NPU),各自需要专属的工具链。团队首先尝试了CPU,使用stable-diffusion.cpp的改进版,但每步耗时约2分钟,生成整张图像需要8-9分钟。随后尝试GPU,成功生成了256×256的图像,但扩展到512×512时频繁崩溃。最终,NPU成为唯一可行的路径。

将模型部署到NPU面临诸多挑战:需要扩展权重以适应NPU、处理fp16溢出问题、应对高通SDK版本差异等。最终成果是一个通过数据线连接的生成管线,而非独立的App。尽管图像质量略低于iPhone版本(因NPU使用较低精度的整数运算),但耗时几乎相同(约140秒)。值得注意的是,模型在NPU上不再保持1-bit特性,导致部署包大小达10.7 GB(iPhone版为3.7 GB),峰值内存接近5 GB。团队还指出,连续生成时会出现热节流,且文本编码器和VAE仍运行在CPU上,未来有优化空间。

尽管未完成完整的安卓应用,Duration AI将代码开源,并希望这项工作能为其他开发者提供有价值的起点。团队也提到,如果有人能解决GPU端的崩溃问题,或许能进一步提升性能。总体而言,这个项目展示了安卓设备上AI图像生成的潜力,也揭示了当前生态系统中的碎片化挑战。