为了满足人工智能工作负载日益增长的需求,内存解决方案必须在带宽、容量和效率方面满足要求。从大模型(LLM)的训练到边缘设备的高效推理,选择正确的内存技术对芯片设计师至关重要。本博客探讨了三种内存解决方案——HBM、LPDDR和GDDR——以及它们对人工智能加速器的适用性。

高带宽内存(HBM):人工智能训练的终极选择

生成式人工智能和LLM重新定义了计算要求,模型超过一万亿个参数,并且需要巨大的内存带宽进行训练。得益于其革命性的2.5D/3D封装的带宽,高带宽内存(HBM)已成为人工智能训练的首选解决方案。

HBM4是JEDEC标准的最新迭代,建立在HBM3和HBM3E的成功之上。通过将数据线增加一倍到2,048,并支持高达6.4 Gb/s(每秒千兆)的数据速率,HBM4可以实现每个设备1.6 TB/s的带宽。配备八个HBM4设备的加速器可以提供13 TB/s的总内存带宽,没有其他内存解决方案能媲美。

trade off是HBM的2.5D/3D封装架构带来了更大的复杂性和成本。2.5D是说使用硅中介TSV作为互连平台,远远超过HBM设备和加速器之间所需的PCB上可以实现的连接数量。HBM设备是3D DRAM芯片堆栈,提供极其紧凑和节能的解决方案。

LPDDR:边缘设备上人工智能的节能内存

随着Gen AI功能从数据中心扩展到边缘,并最终扩展到智能手机和笔记本电脑等终端设备,低功耗双数据速率(LPDDR)内存是推理的替代方案。LPDDR从DDR技术演变,强调在不影响带宽或容量的情况下低功耗,使其成为紧凑、电池受限设备的绝佳解决方案。

像HBM一样,LPDDR每个包都有多个DRAM颗粒。另一方面,LPDDR使用一堆线粘接DRAM设备,在多模封装中配置高达64GB的内存。为了获得最佳的推理性能,应将使用的整个模型加载到主内存中,这使得LPDDR的高容量功能非常有吸引力。

从带宽的角度来看,LPDDR5X提供高达8.533 Gb/s的数据速率,通过x64配置可以实现68 GB/s的总带宽。下一个演变,LPDDR5T(“turbo”),将数据速率提升到9.6 Gbps,提供76.8 GB/s的总带宽。凭借其紧凑的外形和能源效率,LPDDR5T使边缘人工智能解决方案能够在不牺牲电池寿命的情况下处理数据密集型任务。

GDDR:用于人工智能推理的高速内存

图形双数据速率(GDDR)内存传统上与GPU相关联,但其高带宽和低延迟使其成为人工智能推理工作负载的绝佳选择,特别是在边缘服务器和客户端PC中。2023年发布的最新一代GDDR7在性能方面树立了新的基准。

GDDR7的数据速率为32 GT/s,未来可扩展性高达48 GT/s,每台设备提供128 GB/s的带宽。通过采用新颖的PAM3信号方案,GDDR7比其前身GDDR6提高了50%的数据传输效率。这使得它成为需要快速处理文本、图像、视频等的实时推理任务的理想解决方案。

除了更高的速度外,GDDR7还引入了先进的RAS(Reliability, Availability, Serviceability)功能,包括on-die ECC、错误清除和命令地址奇偶校验。这些增强功能确保了数据的完整性,这是一个关键因素,因为人工智能加速器会突破性能极限。

人工智能工作负载范围的解决方案

对于芯片设计师来说,内存的选择取决于目标应用程序和性能要求。

  • HBM为人工智能训练提供无与伦比的带宽和容量。
  • LPDDR在边缘人工智能推理方面表现出色,特别是在功率效率和紧凑性是首要考虑因素的情况下。
  • GDDR是边缘服务器和PC中推理任务的多功能、可靠和高性能选择。
Logo

中国智能体开发者社区,聚焦智能体与大模型开发,提供前沿资讯、实用工具链、开源项目及行业案例。通过技术沙龙、开发者大赛等活动,促进经验交流与协作,助力开发者快速构建创新智能应用。

更多推荐