论文标题

D-LLM: A Token Adaptive Computing Resource Allocation Strategy for Large Language Models
D-LLM: 一种面向大型语言模型的令牌自适应计算资源分配策略

论文链接

D-LLM: A Token Adaptive Computing Resource Allocation Strategy for Large Language Models论文下载

论文作者

Yikun Jiang, Huanyu Wang, Lei Xie, Hanbin Zhao, Chao Zhang, Hui Qian, John C.S. Lui

内容简介

本文提出了一种名为D-LLM的新型动态推理机制,旨在为大型语言模型(LLMs)自适应地分配计算资源。当前,LLMs对每个词元的处理是等同的,但作者认为并非所有词语都同等重要,某些词语在简单问题中并不需要过多的计算资源。D-LLM通过为每个Transformer层设计动态决策模块,决定是否执行或跳过该层,从而提高推理速度。此外,本文还提出了一种有效的驱逐策略,以解决跳过层时KV缓存缺失的问题。实验结果表明,D-LLM在问答、摘要和数学解题任务中可减少高达45%的计算成本和KV存储,在常识推理任务中可减少50%,且性能未受影响。

在这里插入图片描述

分点关键点

  1. 动态推理机制

    • D-LLM通过动态决策模块为每个Transformer层分配计算资源,决定是否执行或跳过该层。此机制使得在处理可有可无的词元和简单任务时,使用更少的层,从而提高推理效率。
  2. 驱逐策略

    • 为了解决跳过层时KV缓存缺失的问题,D-LLM提出了一种驱逐策略,通过设计注意力矩阵的掩码来忽略未计算的特征,减少存储开销。这一策略确保了D-LLM与现有应用的兼容性。
  3. 实验结果

    • D-LLM在多个基准测试中表现出色,能够在不降低性能的情况下,显著减少计算成本和KV存储。具体而言,在问答、摘要和数学解题任务中,计算成本和KV存储可减少45%,在常识推理任务中可减少50%。
      在这里插入图片描述
  4. 与现有方法的比较

    • D-LLM与传统的静态推理网络相比,能够根据输入的不同动态调整计算资源分配,避免了静态方法中对所有词元分配相同资源的低效问题。
      在这里插入图片描述

论文代码

代码链接:https://github.com/Jyk-122/D-LLM

中文关键词

  1. 大型语言模型
  2. 动态推理
  3. 计算资源分配
  4. KV缓存
  5. 驱逐策略
  6. 计算成本

Neurlps2024论文合集:

Neurlps2024论文合集

希望这些论文能帮到你!如果觉得有用,记得点赞关注哦~ 后续还会更新更多论文合集!!

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐