谷歌的 Infini-attention 为法律硕士提供 "infinite "内容

2024-04-16

Google 的研究人员开发了一种名为 "无限关注"(Infini-attention)的技术,它允许 LLM 处理无限长的文本,而不会增加计算和内存需求。


LLM 的 Transformer 架构使其能够关注提示符中的所有标记。它所执行的复杂点乘法和矩阵乘法的复杂度为二次方。


这意味着提示符数量增加一倍,所需的内存和处理能力就会增加四倍。这就是为什么要在不增加内存和计算需求的情况下制作具有大型上下文窗口的 LLM 如此具有挑战性。


在 "标准 "LLM 中,一旦提示内容大于上下文窗口,提示内容开头的信息就会丢失。谷歌的研究论文解释了 Infini-attention如何保留超出上下文窗口的数据。


Infini-attention 是如何工作的?

Infini-attention 结合了压缩记忆技术和改进的注意力机制,因此不会丢失相关的旧信息。


一旦输入提示超过了模型的上下文长度,压缩内存就会以压缩格式存储信息,而不是将其丢弃。


这样就可以存储较旧的、不那么即时相关的信息,而不会随着输入的增加而无限增加内存和计算需求。


Infini-attention 的压缩式内存不会试图保留所有较旧的输入信息,而是会权衡和总结被认为相关且值得保留的信息。


然后,Infini-attention 采用 "普通 "注意力机制,但会重新使用模型中每个后续片段的关键值(KV)状态,而不是丢弃它们。


下面的图表显示了 Infinii-attention 与另一种扩展上下文模型 Transformer XL 之间的区别。


结果是,LLM 不仅能对最近的输入数据给予局部关注,还能携带经过不断提炼的压缩历史数据,并对其进行长期关注。


论文指出:"对注意力层的这一微妙而关键的修改,使 LLM 能够在内存和计算资源受限的情况下处理无限长的上下文"。


效果如何?

谷歌使用较小的 1B 和 8B 参数 Infini-attention 模型进行了基准测试。这些模型与其他扩展上下文模型(如 Transformer-XL 和 Memorizing Transformers)进行了比较。


在处理长语境内容时,Infini-Transformer 的困惑度得分明显低于其他模型。较低的困惑度得分意味着模型对其输出预测更有把握。


在 "密钥检索 "测试中,Infini-attention 模型始终能找到隐藏在多达 100 万字节文本中的随机数。


其他模型通常能在输入的末尾检索到密码,但在长篇内容的中间或开头却很难找到。Infini-attention 在这项测试中没有遇到任何问题。


基准测试的技术含量很高,但简而言之,Infini-attention 在总结和处理长序列以及长时间保持上下文方面的表现优于基线模型。


值得注意的是,Infini-attention 保持了这种卓越的保留能力,但所需内存却减少了 114 倍。


这些基准测试结果让研究人员相信,Infini-attention 可以在内存和计算资源有限的情况下处理超长的输入序列。


Infini-attention 的即插即用特性意味着它可以用于对现有的 Transformer 模型进行持续的预训练和微调。这可以有效扩展模型的语境窗口,而无需对模型进行完全的重新训练。


上下文窗口会不断增长,但这种方法表明,高效内存可能是比大型库更好的解决方案。


相关标签