LLM推荐系统综述A Survey on Large Language Models forRecommendation
大型语言模型(LLMs)已成为自然语言处理(NLP)领域的强大工具,并最近在推荐系统(RS)领域获得显著关注。这些通过自监督学习在海量数据上训练的模型,在学习通用表征方面展现出卓越成效,并有望通过微调、提示调优等有效迁移技术来提升推荐系统的多个维度。利用语言模型提升推荐质量的关键,在于发挥其文本特征的高质量表征能力与外部知识的广泛覆盖性,从而建立物品与用户间的关联。为系统梳理现有基于LLM的推荐系
摘要:
大型语言模型(LLMs)已成为自然语言处理(NLP)领域的强大工具,并最近在推荐系统(RS)领域获得显著关注。这些通过自监督学习在海量数据上训练的模型,在学习通用表征方面展现出卓越成效,并有望通过微调、提示调优等有效迁移技术来提升推荐系统的多个维度。利用语言模型提升推荐质量的关键,在于发挥其文本特征的高质量表征能力与外部知识的广泛覆盖性,从而建立物品与用户间的关联。为系统梳理现有基于LLM的推荐系统,本综述提出分类框架,将现有模型划分为两大范式——判别式推荐语言模型(DLLM4Rec)和生成式推荐语言模型(GLLM4Rec),其中后者系首次被系统梳理。我们进一步对现有基于语言模型的推荐系统进行范式化归类与深度解析,详细阐述其方法论、技术实现与性能表现。研究过程中,我们提炼出关键挑战与若干重要发现,旨在为学界与业界提供启发。

1. introduction
1. 推荐系统的重要性与LLMs的崛起 推荐系统在帮助用户发现个性化内容中至关重要。近年来,大型语言模型(LLMs)凭借其在自然语言处理中的强大能力,逐渐被引入推荐领域。LLMs通过海量数据的自监督学习,能够提取文本特征的高质量表示,并利用编码的外部知识建立用户与物品的关联,为推荐系统的优化提供了新方向。
2. LLMs在推荐系统中的核心优势 - 文本特征与外部知识建模:LLMs(如BERT、GPT系列)能有效捕捉用户查询、物品描述等文本数据的上下文信息,提升推荐的准确性和相关性。例如,通过理解用户阅读偏好中的“历史小说”语义,LLMs可精准匹配相关书籍。 - 缓解数据稀疏性:传统推荐系统常面临历史交互数据不足的问题,而LLMs的零/少样本推荐能力(如GPT-3的上下文学习)使其无需大量标注数据即可泛化到未见物品,适用于冷启动场景。 - 生成与解释能力:生成式LLMs(如ChatGPT)不仅能直接生成推荐结果,还能通过自然语言解释推荐理由(如“推荐《三体》是因为用户喜欢科幻小说”),提升用户信任度和交互体验。
3. 现有研究的不足与本文的定位 - 现有综述的局限性:早期研究主要聚焦于预训练语言模型的迁移学习策略(如微调、提示调优),但缺乏对LLMs本身能力(如生成式建模)的系统分析,且未全面覆盖生成式LLMs在推荐中的应用。 - 本文的创新点:首次系统分类,将LLM推荐模型分为判别式(DLLM4Rec)和生成式(GLLM4Rec)两大类,后者为首次系统性梳理;建模范式扩展,提出三种核心范式——LLM嵌入+推荐系统(如BERT提取用户/物品嵌入)、LLM标记+推荐系统(如生成语义标记辅助决策)、LLM直接作为推荐系统(如ChatGPT对话推荐);聚焦生成式模型,详细分析生成式LLMs在非调优范式(提示学习、上下文学习)和调优范式(微调、指令调优)中的应用,填补现有研究空白。


4. 研究目标与贡献
目标:全面综述LLM推荐系统的进展,分析方法论、技术细节与性能,识别关键挑战并提供未来研究方向。
核心贡献:系统分类框架,构建LLM推荐模型的taxonomy,清晰区分判别式与生成式范式的技术路径;深度技术分析,对各范式下的代表性方法(如BERT4Rec、GPTRec)进行方法论和实验结果的对比分析;挑战与洞见,指出模型偏差(位置偏差、流行度偏差)、提示设计限制(上下文长度、特征表示)、生成控制难题等关键问题,并提出解决方案(如滑动窗口提示、去偏模板);资源整合,创建GitHub仓库(LLM4Rec-Awesome-Papers),汇总相关论文与工具,推动领域研究。
本文的主要贡献包括:
1. 对基于LLM的推荐系统现状进行系统性综述,通过分析现有方法,提供相关进展和应用的系统概述;
2. 从建模范式的角度,将当前大型语言模型推荐研究分为三种不同类型,为这一新兴领域提供清晰有序的概述;
3. 批判性分析现有方法的优缺点和局限性,识别基于LLM的推荐系统面临的关键挑战,并提出有价值的发现,为该领域的进一步研究提供启发;
4. 创建GitHub存储库,为推荐领域的LLMs相关论文和资源建立索引。
2. 建模范式和分类法
Modeling Paradigms and Taxonomy部分提出的三种范式如下:

1. LLM嵌入+推荐系统:在这种范式中,LLM主要用于提取用户和物品的嵌入表示。例如,像BERT这样的LLM可以对用户查询、物品描述等文本数据进行编码,捕捉其中的上下文信息,生成高质量的文本语义表示。这些表示可以作为输入特征提供给传统的推荐系统模型,如协同过滤模型等,从而增强模型对用户偏好和物品特征的理解,提高推荐的准确性。此外,也可以通过联合训练LLM和传统推荐模型,使两者输出的偏好表示对齐,将LLM的语义建模能力迁移给较小的协同过滤模型,在提升推荐效果的同时,避免LLM带来的大量计算开销。
2. LLM token+推荐系统:LLM用于生成语义token来辅助推荐决策。例如,LLM可以根据用户的历史交互数据和物品的相关信息,生成一些描述性的token,这些标记能够概括用户的兴趣或物品的特点。然后,推荐系统可以利用这些token来进行推荐,比如根据token的相似度来匹配用户和物品。这种方式可以将LLM的生成能力与推荐系统的决策过程相结合,为推荐提供更丰富的信息。
3. LLM直接作为推荐系统:LLM直接承担推荐的任务。根据是否需要进行参数更新,可分为基于特定提示的方法和基于指令微调的方法。基于特定提示的方法通常采用提示学习与上下文学习,设计自然语言提示来完成推荐任务,结合任务描述构造个性化推荐指令,如“请基于该用户的历史交互物品向其推荐下一个合适的物品”,但简单提示难以让LLM在性能上与传统推荐模型竞争。基于指令微调的方法则通过微调LLM适配推荐系统,核心是构建适合推荐任务的指令数据,可基于用户与物品的交互数据及定制化提示模板构造,也可采用指令合成技术模拟真实场景中的个性化指令,帮助LLM理解用户意图和偏好。
3. 用于推荐的判别式大型语言模型
事实上,推荐领域所谓的判别式大语言模型主要指BERT系列模型[13]。由于判别式语言模型在自然语言理解任务中的专业性,它们常被视为各类下游任务的嵌入主干网络。这一特性同样适用于推荐系统。现有研究大多通过微调使BERT等预训练模型的表征与领域特定数据对齐。此外,部分研究探索了提示调优和适配器调优等训练策略。
3.1 Fine-tuning

U-Bert:一种创新的预训练与微调结合方法U-BERT,该方法通过利用内容丰富的领域数据,为行为数据不足的用户特征进行补充。研究设计了一个评论共匹配层,用于捕捉用户与物品评论间的隐含语义交互。
UserBert:在未标注行为数据上整合了两个自监督任务进行用户模型预训练,以增强用户建模能力。该模型采用中等难度对比学习、掩码行为预测和行为序列匹配三项技术,通过捕捉用户内在兴趣与关联性来训练精准的用户表征。
BECR:提出了一种轻量级复合重排序方案,该方案同时结合了深度上下文词元交互和传统词汇项匹配特征。通过新颖的复合词元编码技术,BECR基于预计算单字和跳跃n元组的词嵌入向量,有效近似查询表征,在临时排序相关性与效率之间实现了合理权衡
3.2 提示调优

提示调优[34]: 与通过设计特定目标函数使大语言模型适应不同下游推荐任务不同,旨在利用硬提示/软提示和标签词表述器,将推荐调优目标与预训练损失对齐。如图5(b)所示,由于DLLM普遍采用基于掩码的训练方式,所述表述器的作用就是在[MASK]位置建立DLLM预测词汇与实际标签之间的映射关系。这种关联机制实现了语言模型与任务之间的衔接,确保二者保持协同。
[35]: 利用BERT的掩码语言建模(MLM)头,通过完形填空式提示来揭示其对物品类型的理解。他们进一步运用BERT的下一句预测(NSP)头和表征相似度(SIM),对相关与非相关的搜索推荐查询-文档输入进行比较。实验表明,即使未经任何微调,BERT也能在排序过程中优先处理相关物品。
[36]: 开发了带提示的对话推荐系统,其中基于BERT的物品编码器直接将每个物品的元数据映射为嵌入表示。
Shen等[37]开发的对话推荐系统: 融合了用户-物品属性公平性分析,他们采用带有占位符的构建式提示模板(称为基于模板的结果生成)实现这一目标。这些模板包含姓名或关系等非偏好性信息,这些信息能隐式体现种族、性别、性取向、地域背景和宗教等特征。分析表明,通过结合训练端的8种掩码策略与测试端对非偏好实体的中性化处理,可以在不损害推荐性能的前提下消除观察到的偏差。
[38] 提出 Prompt4NR: 率先将提示学习范式应用于新闻推荐领域。该框架将预测用户对候选新闻点击率的目标重新定义为填空式掩码预测任务。实验发现,通过采用多提示集成策略,推荐系统性能得到显著提升,其效果超越了在离散和连续模板上使用单一提示所获得的结果。这凸显了提示集成技术在综合多个提示以做出更明智决策方面的有效性。
4. 生成式大型语言模型在推荐系统中的应用
与判别式模型相比,生成式模型具有更强的自然语言生成能力。因此,大多数基于生成式模型的工作不像基于判别式模型的方法那样将LLM学习到的表示与推荐领域对齐,而是将推荐任务转化为自然语言任务,然后应用上下文学习、提示调优和指令调优等技术,使LLM能够直接生成推荐结果。此外,随着ChatGPT展示出令人印象深刻的能力,这类工作最近受到了更多关注。根据是否调整参数,这些基于生成式LLM的方法可以进一步细分为两种范式:非调优范式和调优范式。这里的调优/非调优目标指的是以下方法中使用的LLM模块,以下两个小节将分别介绍它们的细节。
。。。。。。下班!下次一定
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)