谷歌发布具有无限注意力机制的高效无限上下文 Transformer——Infinite Context Transformers
Infini-attention是一种新型的注意力机制,它通过引入压缩记忆的方式优化了传统的注意力机制。这种压缩记忆的特点在于,它能够通过调整参数来存储和回忆信息,而不是随着输入序列的增长而增加内存需求。此外,Infini-attention还巧妙地将局部注意力与长期线性注意力结合在单个Transformer块内,进一步提升了模型的性能。
为了验证Infini-attention的有效性,研究者们在一系列长上下文语言建模任务上进行了测试,包括1M序列长度的passkey上下文块检索任务和500K长度的书籍摘要任务。这些实验使用了不同规模的大型语言模型(LLMs),具体为1B和8B两种。实验结果显示,Infini-attention在这些长序列任务上的表现超越了基线模型,特别是在内存使用方面,实现了114倍的理解比率提升。
此外,Infini-attention还显著减少了内存参数的需求,这使得大型语言模型能够在有限的内存资源下进行快速的流式推理,大大提高了模型的实用性和效率。在100K序列长度的训练条件下,模型甚至能够达到更低的困惑度,显示出更加出色的性能。总的来说,Infini-attention的出现为处理长序列数据提供了一种更加高效且内存友好的解决方案。