AI News HubLIVE
站内改写2 分钟阅读

面向科学数据高保真有损压缩的残差建模方法

针对科学模拟产生的海量时空数据,有损压缩至关重要。现有学习型压缩器在中精度目标下可实现高压缩比,但高保真场景(块级NRMSE 10^-6至10^-4)中,残差修正流会主导码率。本文提出以残差为中心的观点,设计两种残差编码器LBRC和NGLR。LBRC是免训练的自适应量化流水线,NGLR引入因果神经网络预测器。在E3SM、JHTDB和ERA5数据集上,LBRC相比GAE提升压缩比30-60%,NGLR进一步提升10-40%,超越SZ压缩器。

来源arXiv AI作者: Liangji Zhu, Sanjay Ranka, Anand Rangarajan

科学模拟产生的海量时空数据对压缩技术提出了严峻挑战。有损压缩因其高效率成为必要手段,而学习型压缩器(如自编码器)在中精度目标下表现出色,但在高保真度场景下,其逐块的重构损失无法保证精度。现有的保证自编码器(GAE)方法通过保留SVD/PCA风格的系数为每个块添加残差修正,直至达到目标精度。然而,当块级归一化均方根误差(NRMSE)目标低至10^-6到10^-4时,需要保留的系数数量迅速增长,导致修正流占据总码率的主导地位。

为克服这一局限,研究人员提出一种全新的残差中心视角:学习型压缩器产生的残差在结构上不同于原始科学场,应当采用专门针对残差设计的方法进行编码。基于这一思路,论文介绍了两种残差编码器:基于学习的残差编码器(LBRC)和神经引导的残差编码器(NGLR)。

LBRC是一种确定性、免训练的流水线。它首先自适应地将学习残差量化到目标NRMSE,然后将得到的整数残差通过三维Lorenzo差分、Z字形映射、位平面编码和熵编码进行无损压缩。这种方法无需额外训练,直接在推理时完成编码,避免了训练与推理之间的分布偏移问题。

NGLR在LBRC的基础上进一步扩展。它引入了一个因果神经网络预测器,该预测器在相同的确定性整数流水线中,对四舍五入后的Lorenzo预测结果输出归一化偏差。通过这种方式,NGLR降低了剩余残差码的熵,同时保持了确定性解码的特性。预测器的权重被序列化并计入比特流,确保解码端能够精确复现。

实验部分,研究者在E3SM(能源外尺度模拟模型)、JHTDB(湍流数据库)和ERA5(气候再分析数据)三个代表性科学数据集上进行了评估。块级NRMSE目标从10^-6到10^-4。结果显示,LBRC相较于GAE,压缩比提升了30%至60%,且与广泛使用的SZ压缩器相比具有竞争力。NGLR在LBRC基础上再提升10%至40%,在所评估的高保真度区间内全面超越SZ。

这些结果表明,为学习型压缩器残差量身定制的表示方法,可以在全局残差修正成为码率瓶颈时,有效保留学习型压缩的优势。该研究为高保真科学数据压缩提供了新的方向,有望在气候模拟、流体动力学等领域发挥重要作用。