ITNet:一种可学习的积分变换,统一卷积、注意力与循环网络
本文提出积分变换网络(ITNet),通过一个可学习的积分核统一了卷积、自注意力和自回归循环三种架构。ITNet使用小型神经网络实现核函数,能够从数据中自适应行为,并在多个基准任务上达到或超越专用模型。
2026年6月17日,arXiv上发布了一篇题为《ITNet: A Learnable Integral Transform That Subsumes Convolution, Attention, and Recurrence》的论文,由Ashim Dhor及其合作者完成。该论文提出了一种名为积分变换网络(Integral Transform Network,简称ITNet)的新型统一架构,旨在从数学上统一卷积网络、循环网络和Transformer这三种长期以来被视为截然不同的神经网络架构。
长期以来,卷积网络、循环网络和Transformer各自编码了不同的归纳偏置:卷积网络强调局部性,循环网络擅长序列记忆,而Transformer则依赖内容相关的成对交互。这些差异使得它们被认为是数学上根本不同的架构。然而,ITNet的作者证明,这种分化并非源于信号处理方式的根本差异,而是对同一底层数学对象的不完整视角:一个可学习的积分变换。ITNet正是围绕这样一个可学习的核构建的,该核同时依赖于位置和特征,并通过一个小型神经网络(具体为多层感知机MLP)实现,用于建模成对交互,使模型能够从数据中自适应调整其行为。
论文展示了卷积、自注意力(包括多头注意力)以及自回归循环(包括LSTM、GRU、S4和Mamba)在适当参数化下均可作为ITNet的特例。此外,ITNet本身是连续算子的通用逼近器,这意味着它可以近似任意连续算子。为了实现实用性,作者开发了分块核融合、重要性加权蒙特卡洛积分和可学习的低秩分解技术,从而实现了高效且可扩展的计算。
实验结果表明,单一的ITNet架构,配备共享算子和轻量级模态特定编码器,在多个基准上达到或超越了专门的基线模型。这些基准包括图像分类(ImageNet-1K)、自然语言理解(GLUE)、3D点云分类(ModelNet40)、视觉问答(VQA v2)和自然语言视觉推理(NLVR2)。这证明了一个单一的可学习交互机制能够从数据中恢复所有三种架构族的行为。该论文被归类于人工智能和机器学习方向,arXiv编号为2606.19538。