现有的架构,如Hopfield网络、LSTM和Transformer会带来了二次方的时间和内存复杂度,限制了模型处理长序列的能力。

人类的记忆不是单一的过程,而是由短期记忆、工作记忆和长期记忆等不同系统组成,每个系统都有不同的功能和神经结构。

基于此,Google提出一种新型的神经网络架构——Titans,它通过引入长期记忆模块来增强模型在处理长序列数据时的能力,并且能够扩展到超过200万的上下文窗口大小,超越GPT-4、Llama3.1-70B等模型。

在这里插入图片描述

受人类记忆中“违反预期的事件更难忘”这一观点的启发,定义了一个模型的惊讶度为其对输入的梯度。梯度越大,输入数据与过去数据的差异越大。提出了一个改进的惊讶度量,将过去惊讶度和瞬间惊讶度结合起来,以更好地处理有限记忆。

基于惊讶度量,提出了一个记忆更新规则,结合了过去惊讶度和瞬间惊讶度,通过这种方式,模型可以更好地管理有限的记忆资源。

遗忘机制

  • 适应性遗忘:为了管理大量序列数据中的过去信息,提出了一种适应性遗忘机制,允许模型在需要时忘记不再需要的信息。
  • 遗忘门控:遗忘机制通过一个门控机制实现,该机制可以灵活地控制记忆的更新,决定多少信息应该被遗忘。这种遗忘机制与现代循环模型中的遗忘门控机制有关。

记忆架构

  • 简单MLP:选择了简单的多层感知器(MLP)作为长期记忆的架构,希望专注于长期记忆的设计以及如何将其整合到架构中。这种选择也为未来设计更有效的记忆架构提供了新的研究方向。

如何整合记忆

提出了Titans架构,包括三种变体:Memory as a Context (MAC)、Memory as a Gate (MAG) 和 Memory as a Layer (MAL)。这些变体展示了如何将长期记忆模块有效地整合到深度学习架构中。

  • MAC架构:将记忆作为当前信息的上下文,通过注意力机制决定是否需要长期记忆信息,并帮助记忆存储有用的信息。

在这里插入图片描述

  • MAG架构:使用滑动窗口注意力作为短期记忆,长期记忆模块作为模型的渐忘记忆,通过门控机制结合两者。

  • MAL架构:将神经记忆模块作为深度神经网络的一层,负责压缩过去和当前上下文,然后通过注意力模块进行处理。

在这里插入图片描述

在语言建模、常识推理、基因组学和时间序列任务上评估了Titans架构及其变体的性能。结果表明,Titans在这些任务上比现代循环模型和线性Transformer更有效,并且能够扩展到超过200万的上下文窗口大小,同时在haystack 任务中比基线模型具有更高的准确性,比如:GPT4和Llama3.1 70B等。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

https://arxiv.org/pdf/2501.00663
Titans: Learning to Memorize at Test Time

如何系统学习掌握AI大模型?

AI大模型作为人工智能领域的重要技术突破,正成为推动各行各业创新和转型的关键力量。抓住AI大模型的风口,掌握AI大模型的知识和技能将变得越来越重要。

学习AI大模型是一个系统的过程,需要从基础开始,逐步深入到更高级的技术。

这里给大家精心整理了一份全面的AI大模型学习资源,包括:AI大模型全套学习路线图(从入门到实战)、精品AI大模型学习书籍手册、视频教程、实战学习、面试题等,资料免费分享

1. 成长路线图&学习规划

要学习一门新的技术,作为新手一定要先学习成长路线图方向不对,努力白费

这里,我们为新手和想要进一步提升的专业人士准备了一份详细的学习成长路线图和规划。可以说是最科学最系统的学习成长路线。
在这里插入图片描述

2. 大模型经典PDF书籍

书籍和学习文档资料是学习大模型过程中必不可少的,我们精选了一系列深入探讨大模型技术的书籍和学习文档,它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础(书籍含电子版PDF)

在这里插入图片描述

3. 大模型视频教程

对于很多自学或者没有基础的同学来说,书籍这些纯文字类的学习教材会觉得比较晦涩难以理解,因此,我们提供了丰富的大模型视频教程,以动态、形象的方式展示技术概念,帮助你更快、更轻松地掌握核心知识

在这里插入图片描述

4. 2024行业报告

行业分析主要包括对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

在这里插入图片描述

5. 大模型项目实战

学以致用 ,当你的理论知识积累到一定程度,就需要通过项目实战,在实际操作中检验和巩固你所学到的知识,同时为你找工作和职业发展打下坚实的基础。

在这里插入图片描述

6. 大模型面试题

面试不仅是技术的较量,更需要充分的准备。

在你已经掌握了大模型技术之后,就需要开始准备面试,我们将提供精心整理的大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

在这里插入图片描述

全套的AI大模型学习资源已经整理打包,有需要的小伙伴可以微信扫描下方CSDN官方认证二维码,免费领取【保证100%免费

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐