2026-06-29 12:00 UTC+8站内改写1 分钟阅读更新: 2026-06-29 16:05 UTC+8

上下文就绪的Transformer

一种新的循环神经网络架构，通过在token进入D层Transformer模块之前对其进行预上下文化处理，实现了显著的速度提升，同时保持或超越标准Transformer的性能。

来源arXiv Computational Linguistics作者: Mahesh Godavarti

文章情报

工程师进阶

要点

上下文就绪Transformer使用校正网络缓存过去的上下文，在token进入模块前进行预上下文化。
训练时将校正过程展开K次，实现并行处理；预训练模型可通过添加校正FFN并微调进行转换。
D=5模型优于12层Transformer，生成速度提升1.7倍；单层模型（K=10）击败6层Transformer，推理速度提升2.6倍。
在指针追踪任务中，单层模型使用BPTT解决了所有10个组合层次，优于标准Transformer。

为什么重要

这条新闻值得关注，因为上下文就绪Transformer使用校正网络缓存过去的上下文，在token进入模块前进行预上下文化。

技术影响

可能影响模型选型、推理成本、产品能力和评测基准。

本面板由 AI 生成，经人工审核。

近日，一篇题为“上下文就绪Transformer”的论文被提交至arXiv，并提出了一种创新的循环神经网络架构。该架构由D层Transformer模块和一个校正网络组成。与传统Transformer不同，该架构在每个token进入模块之前，通过校正网络将之前位置的模块输出（即缓存的过去上下文摘要）与当前token嵌入结合，从而实现预上下文化。这使得token在进入模块时不再是原始嵌入，而是已经携带了上下文信息。这种设计灵感来源于递归神经网络，但通过并行训练解决了递归难以并行化的问题。

在训练过程中，研究者将校正过程在完整序列上展开K次，每一步并行处理所有位置，使得训练高效且可并行化。此外，任何预训练的Transformer模型都可以通过添加一个零初始化的校正前馈网络并进行微调，转换为上下文就绪模型。这意味着现有的预训练模型可以轻松升级，而无需从头训练。

实验表明，该架构在各种配置下均表现出色。在A100 GPU上，一个D=5的模型击败了12层的标准Transformer，生成速度提升1.7倍。更令人印象深刻的是，当K=10时，单层模型（D=1）以2.6倍的推理速度优势超越了6层Transformer，且序贯推理的困惑度与并行K=10的版本仅相差0.01。这表明该架构不仅在性能上有所提升，还在推理效率上实现了显著突破。

该架构特别受益于宽表示和长上下文。在指针追踪任务中，使用BPTT训练的D=1模型成功解决了所有10个组合层次，而标准Transformer则表现出阶梯式的深度依赖，即需要更多层次才能处理更深的组合。这一突破表明，通过预上下文化和校正机制，较浅的网络也能达到甚至超越深层网络的性能，为构建更高效的Transformer模型开辟了新方向。

相关论文已被NeurIPS接收，共22页，作者为Mahesh Godavarti。