【论文精读(HybridRAG)】Hybrid Retrieval-Augmented Generation for Real-time Composition Assistance
HybridRAG为实时写作辅助提供了有效解决方案,但仍存在一些限制。客户端模型性能高度依赖内存,内存过时或不准确会导致模型性能下降,客户端模型还可能组合内存信息产生错误内容。未来可通过改进内存生成器、增强客户端模型推理能力等方式解决这些问题。此外,HybridRAG在数据传输过程中存在隐私和保密风险,需实施加密和访问控制等安全措施。
HybridRAG:打破实时写作辅助困境的 “救星”

该论文发表在 ICLR 2024 在自然语言处理领域,实时写作辅助工具的性能提升一直是研究热点。传统检索增强生成技术在处理实时任务时存在局限性,本文提出的HybridRAG框架为解决这一难题带来了全新思路,在多个方面实现了突破,具有重要的研究价值和应用前景。
相关链接:https://arxiv.org/abs/2308.04215v2
之前的问题:
检索增强方法虽能提升大语言模型性能,但检索增强的大语言模型在运行时速度慢、成本高,存在延迟问题,难以满足实时写作辅助这类对响应速度要求极高的任务(通常要求延迟在100ms或更短)。为降低与云端通信的延迟,模型常部署在用户边缘设备,但这又限制了模型大小和能力,导致写作辅助效果不佳。此外,将检索增强模块嵌入边缘设备也不理想,因为相关文档多存储在云端,检索过程会增加延迟。现有的混合计算模式,如模型路由和拆分计算,客户端和云模型通常同步通信,无法解决延迟和成本问题。
之前的方案:
在混合计算方面,边缘和云设备之间的混合计算起源于机器学习领域之外,旨在解决边缘设备计算能力有限的问题。但在机器学习模型的混合计算方面,相关文献较少。其中,拆分计算是将机器学习管道模块或神经网络模型层在边缘和云设备之间划分,以平衡计算成本和效率,但其通信是同步的;联邦学习则用于多个计算设备训练模型,较少用于推理。云服务提供商也开发了跨本地和云设备托管机器学习管道的模式,以及任务特定的模型路由方法,但这些方法在使用云模型时仍需等待。此外,还有提高边缘设备部署模型效率和减小大模型尺寸以便在小型设备上部署的方法,但与本文研究方向不同。在检索增强模型方面,已有多种方法将检索数据集成到语言模型中,如使用提示、交叉注意力模块、向量连接和解码时调整输出分布等,本文采用提示方法。
Proposed Method(提出方法):
提出HybridRAG框架,由增强协调器、内存增强客户端模型、检索器模型和基于大语言模型的内存生成器四个主要组件构成。
- 增强协调器:负责管理增强内存,通过监测写作上下文变化,计算当前上下文与上一步上下文的编辑距离,当距离超过预定阈值时,向云服务器请求新内存,并采用增量内存更新方法,避免冗余请求。
- 检索增强内存生成器:包括文档检索和内存生成两个步骤。文档检索使用Dense Passage Retrieval(DPR)方法从大型检索语料库中选择最相关的文档;内存生成则利用大语言模型从检索到的文档中提取关键要点,减少内存大小,降低通信和推理成本。
- 内存增强客户端模型:采用指令微调方法,利用大语言模型生成训练数据,对客户端模型进行微调,使其能有效利用云生成的内存,提升文本预测能力。
方法的优势:
HybridRAG框架具有多方面优势。它增强了客户端模型的实用性,使其能借助云端资源做出更好的建议;实现了低延迟,异步内存增强使客户端模型无需等待云端响应即可进行预测,减少网络延迟影响;减少了客户端与云端的通信,增强协调器仅在现有内存过时才请求增强内存,且大语言模型压缩的内存减少了数据传输量。
实验与结果:
在五个基准数据集上进行实验,评估指标包括困惑度、词汇和语义相似性指标等,并与多个基线模型对比。
- 实验设置:使用WikiText - 103等五个数据集,用大语言模型生成参考文本,采用困惑度、GLEU、BLEU、ROUGE、METEOR和BERTScore等指标评估模型实用性,测量文档检索、内存生成和文本预测的平均运行时间评估推理延迟。客户端模型采用OPT - 125M和OPT - 350M,云大语言模型使用GPT - 3.5,设置相关参数,采用贪心搜索解码。
- 实验结果:在实用性方面,HybridRAG在多个数据集上的各项指标均优于基线模型,指令微调的最终模型性能提升显著,且模型大小对性能有重要影响。在推理延迟方面,客户端模型大小影响推理时间,内存生成消耗大部分内存准备时间,异步HybridRAG方法比同步方法快138.3倍,且该方法可部署在无GPU的边缘设备上。在异步内存更新实验中,随着编辑距离阈值增加,模型实用性虽有下降,但仍显著优于基线模型。
最后的思考:
HybridRAG为实时写作辅助提供了有效解决方案,但仍存在一些限制。客户端模型性能高度依赖内存,内存过时或不准确会导致模型性能下降,客户端模型还可能组合内存信息产生错误内容。未来可通过改进内存生成器、增强客户端模型推理能力等方式解决这些问题。此外,HybridRAG在数据传输过程中存在隐私和保密风险,需实施加密和访问控制等安全措施。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)