在这里插入图片描述

📖标题:HaLoRA: Hardware-aware Low-Rank Adaptation for Large Language Models Based on Hybrid Compute-in-Memory Architecture
🌐来源:arXiv, 2502.19747

🌟摘要

🔸低秩自适应(LoRA)是一种主要的参数高效微调方法,用于使大型语言模型(LLM)适应下游任务。
🔸在本文中,我们首先提出在混合内存计算(CIM)架构上部署LoRA微调LLM(即,在RRAM上预训练权重,在SRAM上预训练LoRA)。为了解决RRAM固有噪声导致的性能下降问题,我们设计了一种新的硬件感知低秩自适应(HaLoRA)方法,旨在通过在理想和噪声条件下对齐训练目标来训练一个鲁棒且准确的LoRA分支。
🔸微调LLaMA 3.2 1B和3B的实验证明了HaLoRA在多个推理任务中的有效性,平均得分提高了22.7,同时在各种噪声水平下保持了鲁棒性。

🛎️文章简介

🔸研究问题:如何在混合计算内存(CIM)架构中有效部署经过LoRA微调的大型语言模型(LLM),同时克服因硬件噪声导致的性能下降。
🔸主要贡献:论文提出了HaLoRA框架通过硬件感知的低秩适配方法,增强了在噪声环境下的模型性能,并实现了在RRAM-SRAM混合架构中高效部署LoRA微调的LLM。

📝重点思路

🔸提出了一种混合CIM架构,结合了RRAM的高能效和SRAM的高精度计算。
🔸在训练过程中,注入随机噪声到预训练权重中,以模拟硬件非理想性对模型性能的影响。
🔸使用块状线性映射策略来优化LoRA分支,使其在有噪声和无噪声的条件下都能有效对齐训练目标。
🔸通过对比实验评估HaLoRA与传统LoRA在不同噪声条件下的表现,使用多个基准数据集进行验证。

🔎分析总结

🔸HaLoRA在噪声水平为0.02时,平均得分为63.1,超越了传统LoRA 22.7分,显示出在噪声条件下的显著提升。
🔸HaLoRA在大型模型上表现出更好的稳定性和噪声鲁棒性,LLaMA 3B模型在噪声影响下的准确度下降显著低于LLaMA 1B。
🔸HaLoRA在多个基准测试中表现出较低的准确度方差,表明其在噪声环境中的一致性和可靠性。

💡个人观点

论文的核心是在训练过程中同时考虑有噪声和无噪声的优化目标。

🧩附录

在这里插入图片描述
在这里插入图片描述

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐