2026-06-06 12:00 UTC+8站内改写2 分钟阅读更新: 2026-06-30 21:03 UTC+8

面向科学数据高保真有损压缩的残差建模方法

针对科学模拟产生的海量时空数据，有损压缩至关重要。现有学习型压缩器在中精度目标下可实现高压缩比，但高保真场景（块级NRMSE 10^-6至10^-4）中，残差修正流会主导码率。本文提出以残差为中心的观点，设计两种残差编码器LBRC和NGLR。LBRC是免训练的自适应量化流水线，NGLR引入因果神经网络预测器。在E3SM、JHTDB和ERA5数据集上，LBRC相比GAE提升压缩比30-60%，NGLR进一步提升10-40%，超越SZ压缩器。

来源arXiv AI作者: Liangji Zhu, Sanjay Ranka, Anand Rangarajan

科学模拟产生的海量时空数据对压缩技术提出了严峻挑战。有损压缩因其高效率成为必要手段，而学习型压缩器（如自编码器）在中精度目标下表现出色，但在高保真度场景下，其逐块的重构损失无法保证精度。现有的保证自编码器（GAE）方法通过保留SVD/PCA风格的系数为每个块添加残差修正，直至达到目标精度。然而，当块级归一化均方根误差（NRMSE）目标低至10^-6到10^-4时，需要保留的系数数量迅速增长，导致修正流占据总码率的主导地位。

为克服这一局限，研究人员提出一种全新的残差中心视角：学习型压缩器产生的残差在结构上不同于原始科学场，应当采用专门针对残差设计的方法进行编码。基于这一思路，论文介绍了两种残差编码器：基于学习的残差编码器（LBRC）和神经引导的残差编码器（NGLR）。

LBRC是一种确定性、免训练的流水线。它首先自适应地将学习残差量化到目标NRMSE，然后将得到的整数残差通过三维Lorenzo差分、Z字形映射、位平面编码和熵编码进行无损压缩。这种方法无需额外训练，直接在推理时完成编码，避免了训练与推理之间的分布偏移问题。

NGLR在LBRC的基础上进一步扩展。它引入了一个因果神经网络预测器，该预测器在相同的确定性整数流水线中，对四舍五入后的Lorenzo预测结果输出归一化偏差。通过这种方式，NGLR降低了剩余残差码的熵，同时保持了确定性解码的特性。预测器的权重被序列化并计入比特流，确保解码端能够精确复现。

实验部分，研究者在E3SM（能源外尺度模拟模型）、JHTDB（湍流数据库）和ERA5（气候再分析数据）三个代表性科学数据集上进行了评估。块级NRMSE目标从10^-6到10^-4。结果显示，LBRC相较于GAE，压缩比提升了30%至60%，且与广泛使用的SZ压缩器相比具有竞争力。NGLR在LBRC基础上再提升10%至40%，在所评估的高保真度区间内全面超越SZ。

这些结果表明，为学习型压缩器残差量身定制的表示方法，可以在全局残差修正成为码率瓶颈时，有效保留学习型压缩的优势。该研究为高保真科学数据压缩提供了新的方向，有望在气候模拟、流体动力学等领域发挥重要作用。