推荐系统发展路径
特性传统推荐系统LLM辅助的推荐系统核心原理统计关联,矩阵计算语义理解,逻辑推理数据依赖用户-物品交互矩阵交互数据 + 文本描述 + 通用知识物品表示ID, 稀疏向量, 手工特征稠密语义向量, 自然语言描述用户表示历史交互ID列表, 画像向量自然语言描述的历史行为序列推荐逻辑“相似用户喜欢” 或 “类似物品”“基于你的历史和物品描述,推理得出”可解释性较弱,通常需要后处理生成理由极强,可直接生成自
推荐系统的发展经历了从传统算法到深度学习,再到结合大语言模型(LLM)和生成式技术的多阶段演进。以下是当前主流技术的核心思路和前沿方向,结合具体案例和技术细节展开说明:
一、传统推荐算法的演进与局限
早期推荐系统主要依赖协同过滤(如矩阵分解)和内容过滤。例如,亚马逊早期使用基于物品的协同过滤,通过用户购买历史推荐相似商品。这类方法的局限性在于数据稀疏性和冷启动问题 —— 新用户或长尾商品缺乏足够交互数据时推荐效果显著下降。矩阵分解技术(如 SVD)虽能降维,但难以捕捉非线性关系。
二、深度学习驱动的推荐革命
深度学习通过自动特征学习突破了传统方法的瓶颈:
- 深度兴趣网络(DIN):阿里巴巴提出的 DIN 模型引入注意力机制,根据当前候选商品动态调整用户兴趣的权重。例如,用户浏览手机时,模型会重点关注其历史交互中的电子产品行为。
- 图神经网络(GNN):将用户 - 物品交互建模为图结构,通过消息传递捕捉高阶关联。例如,在电商场景中,用户 A 购买了商品 B 和 C,而商品 B 的品牌与商品 D 相关联,GNN 能通过这种关系推荐 D 给 A。某短视频平台应用 GNN 后,用户留存率提升了 12%。
- 多模态融合:整合文本、图像等信息。例如,某课程推荐系统将课程标题(文本)、讲师头像(图像)和课程视频(视频)通过 ResNeXt-50 和 LSTM 分别处理,再用注意力机制融合,使推荐准确率提高了 8%。
三、大语言模型(LLM)的深度渗透
2025 年,LLM 已从辅助角色转变为推荐系统的核心组件:
- 语义理解与意图推断:LLM 可解析用户评论的情感倾向和潜在需求。例如,某电商平台的 LLM 分析用户评论 “这款手机续航不错,但拍照不够清晰”,能推断出用户对电池和摄像头的双重关注点,从而推荐兼顾这两点的机型。
- 冷启动解决方案:通过提示工程(Prompt Engineering)引导 LLM 生成推荐。例如,对新用户输入 “我是科技爱好者,最近想换手机”,LLM 可直接生成包含最新机型的候选列表,结合检索增强(RAG)技术进一步优化。
- 生成式推荐:谷歌在 NeurIPS 2023 提出的 TIGER 模型,将物品 ID 转换为语义符号序列(如 “电子产品 - 智能手机 - 旗舰机型”),通过 Transformer 直接预测用户下一步交互的符号序列,冷启动物品的推荐准确率提升了 15%。
四、生成式技术的范式突破
生成式模型正在重塑推荐系统的底层逻辑:
- 理想物品生成:腾讯提出的 DreamRec 模型利用条件扩散模型,直接生成用户理想物品的隐向量表示。例如,用户浏览过几款运动鞋后,DreamRec 能生成 “轻便透气、适合长跑的白色运动鞋” 这样的理想物品,再从候选集中匹配最接近的商品,使推荐多样性提升了 20%。
- 推荐解释生成:LLM 可自动生成自然语言解释。例如,推荐某本书时,生成 “因为你最近阅读了《人类简史》,这本书从基因角度探讨人类演化,与你的兴趣高度相关”,增强用户信任度。
五、实时性与效率优化
在毫秒级响应要求下,推荐系统采用多重优化策略:
- 模型压缩与加速:知识蒸馏将大模型知识迁移到轻量模型。例如,某智能客服中心将 LLM 蒸馏为 TinyBERT,推理速度提升 10 倍,仍保持 95% 的准确率。
- 联邦学习(FL):跨平台协作训练模型,保护数据隐私。例如,某银行与电商平台通过 FL 联合建模,在不共享用户数据的情况下,信贷产品推荐转化率提高了 9%。
六、未来趋势与挑战
- 多智能体协作:不同领域的推荐系统通过智能体交互实现跨域推荐。例如,旅游推荐系统与餐饮推荐系统的智能体协商,为用户规划包含景点和餐厅的完整行程。
- 具身智能推荐:结合 AR/VR 设备,根据用户实时环境调整推荐。例如,用户在商场中,推荐系统通过摄像头识别其位置,推送附近店铺的优惠信息。
- 伦理与公平性:开发偏见检测工具(如 Fairness Indicators),通过重新采样或正则化修正模型偏差。例如,某招聘平台通过公平性优化,减少了对女性求职者的算法歧视。
首先回顾传统方法(协同过滤、矩阵分解)和深度学习(Wide&Deep、DIN),但需确认最新进展。搜索显示 2025 年主要趋势包括:
-
LLM 深度整合:如电商中用 LLM 理解用户评论和商品描述,结合 RAG 处理冷启动,可能涉及实时性优化(如知识蒸馏)。但需要确认是否有实际应用案例。
-
图神经网络(GNN):构建用户 - 物品异构图,通过消息传递捕捉高阶关系,如电商中的品牌关联推荐。需补充具体行业案例。
-
多模态融合:整合文本、图像等数据,例如用 VGG 提取视觉特征,LSTM 处理文本,注意力机制融合。需验证是否有跨模态训练方法。
-
生成式推荐:如 NeurIPS 2023 的 DreamRec 模型,用条件扩散生成理想物品隐向量,摆脱负采样依赖。但需确认如何将隐向量映射到具体物品。
-
实时性优化:联邦学习解决数据孤岛,Transformer 并行化和量化压缩模型,实现 50ms 响应。需查证量化技术的实际精度损失。
-
AIGC 应用:生成推荐内容(如商品文案),但具体生成流程尚不明确,可能需要更多技术细节。
具体工作原理:
第一部分:传统推荐系统的工作原理
传统推荐系统的核心思想是利用用户和物品的历史交互数据(如点击、购买、评分),通过数学和统计模型,挖掘出用户偏好和物品属性,从而进行匹配。它们主要依赖“行为”信号,而非“内容”本身的理解。
其主要范式可以归纳为三类:
1. 协同过滤 - “物以类聚,人以群分”
这是最经典、最直观的推荐思想。它认为,用户会喜欢那些与他们兴趣相似的用户所喜欢的物品。
-
核心假设:用户的兴趣是持久且稳定的,具有相似兴趣的用户在过去喜欢的东西,在未来也会喜欢。
-
如何工作:
-
找到相似用户:根据所有用户对物品的评分矩阵,计算用户之间的相似度(如余弦相似度)。
-
生成推荐:对于目标用户,找出与他最相似的K个邻居(K-NN),然后将这些邻居喜欢、但目标用户未曾接触过的物品推荐给他。
-
-
典型例子:豆瓣电影推荐。“因为你和朋友A的观影口味相似度高达90%,而A给了《奥本海默》5星,所以系统推荐《奥本海默》给你。”
-
优缺点:
-
优点:不依赖物品的内容信息(如电影描述),只靠用户行为就能发现复杂的、隐含的兴趣关联。
-
缺点:
-
冷启动问题:新用户或新物品没有足够的历史交互数据,无法找到相似用户或物品,无法被推荐。
-
稀疏性问题:用户-物品评分矩阵通常非常稀疏(一个用户只评价过极少物品),难以准确计算相似度。
-
流行度偏差:容易推荐热门物品,导致长尾物品(小众物品)得不到曝光。
-
-
2. 基于内容的过滤 - “看你过去喜欢的,推荐相似的”
它关注物品本身的属性以及用户的历史喜好,为用户推荐与其过去喜欢的物品在内容上相似的物品。
-
核心假设:用户会持续喜欢具有某些特定属性的物品。
-
如何工作:
-
物品表示:将每个物品表示为一组特征向量。例如,一篇新闻可以被表示为
[科技, 人工智能, 0.8], [商业, 投资, 0.5]这样的关键词权重向量。 -
用户画像:将用户历史上喜欢的物品的特征向量聚合起来,构成一个用户画像(User Profile)。例如,一个经常看科幻片的用户,其画像中“科幻”这个特征的权重会很高。
-
匹配推荐:计算候选物品的特征向量与用户画像的相似度,将最相似的物品推荐给用户。
-
-
典型例子:音乐APP。“因为你收藏了多首‘周杰伦’的‘R&B’风格歌曲,所以系统为你推荐了另一首同歌手、同风格的《七里香》。”
-
优缺点:
-
优点:
-
解决了新物品的冷启动问题(只要新物品有内容特征,就可以被推荐)。
-
推荐结果直观,可解释性强(“因为你喜欢X,所以我们推荐了类似的Y”)。
-
-
缺点:
-
过度特化:容易把用户限制在信息茧房中,缺乏惊喜的发现。
-
依赖特征质量:特征工程的好坏直接决定推荐效果。难以处理多媒体(图片、视频)等非结构化内容。
-
-
3. 混合推荐
为了取长补短,工业界通常会将协同过滤和基于内容的方法结合起来,形成混合推荐系统。例如,使用协同过滤的结果作为 baseline,再用基于内容的方法进行微调或解决冷启动问题。
第二部分:大语言模型辅助的推荐系统的工作原理
LLM的出现,带来了一场范式转换。它不再仅仅依赖“行为”信号,而是利用其强大的通用知识、语义理解和逻辑推理能力,将推荐任务重新定义为一个基于上下文的“语言理解与生成”任务。
核心思想:推荐即对话
将用户、物品和上下文信息全部“翻译”成自然语言,构造一个“提示”,让LLM像人类专家一样去阅读、理解和推理,最终生成推荐。
具体工作流程与原理:
1. 信息编码与提示工程
这是最关键的一步。我们需要设计一个精心结构的提示,将推荐任务“喂”给LLM。一个典型的提示包含以下几个部分:
-
系统角色:定义LLM的角色,如“你是一个资深的电影推荐专家”。
-
任务指令:明确告诉LLM要做什么,如“根据用户的观影历史和候选电影列表,选出用户最可能喜欢的一部电影。”
-
用户画像/历史交互:将用户的历史行为序列以自然语言形式列出。
-
传统方法:
[UserA, Item1, 5], [UserA, Item3, 4](数字矩阵) -
LLM方法:
“用户观看过:《盗梦空间》(评分5),《星际穿越》(评分4)”
-
-
物品侧信息:充分利用物品的文本描述。
-
传统方法:依赖手动提取的标签或ID。
-
LLM方法:直接使用
“候选电影:A.《信条》(诺兰导演,科幻动作片), B.《阿凡达》(卡梅隆导演,科幻大片)...”
-
-
输出格式:规定LLM如何回答,如“只输出选项字母”。
示例提示:
text
你是一个电影推荐专家。请根据用户的观影历史,从候选列表中选出他最可能喜欢的一部电影。 用户观影历史: - 《盗梦空间》(评分:5星) - 《记忆碎片》(评分:4星) - 《蝙蝠侠:黑暗骑士》(评分:5星) 候选电影列表: A. 《信条》 - 导演:克里斯托弗·诺兰,类型:科幻、动作、悬疑 B. 《沙丘》 - 导演:丹尼斯·维伦纽瓦,类型:科幻、冒险 C. 《罗马假日》 - 导演:威廉·惠勒,类型:爱情、喜剧 请只输出选项字母(A, B 或 C)。
2. LLM的内部推理
接收到提示后,LLM会启动其庞大的参数进行推理:
-
语义理解:它理解“盗梦空间”、“诺兰”、“科幻”这些词语的深层含义和它们之间的关联。
-
模式识别:它发现用户历史中的电影都是“诺兰导演的、情节复杂的、黑暗风格的”影片。
-
逻辑推理:它比较候选电影:
-
A选项《信条》在导演、风格上与用户历史高度匹配。
-
B选项《沙丘》虽为科幻,但导演不同,风格更偏史诗。
-
C选项《罗马假日》类型完全不同。
-
-
生成决策:基于以上推理,LLM会生成最合理的答案:
A。
3. 输出与后处理
LLM输出结果后,系统将其解析为最终的推荐物品(如《信条》)。
LLM推荐的优势与面临的挑战(即论文开头提到的问题)
优势:
-
强大的语义理解:能理解物品描述的微妙差异,实现更精准的匹配。
-
自然融合多源信息:可以轻松地将用户画像、物品描述、当前上下文(如时间、地点)等信息统一在同一个提示中。
-
极强的泛化能力:即使遇到从未见过的物品或组合,只要它能用语言描述,LLM就能基于其通用知识进行处理。
-
可解释性:可以要求LLM“给出推荐理由”,生成自然语言的解释,用户体验更好。
-
统一多种任务:一个LLM可以同时完成评分预测、序列推荐、生成式推荐理由等多种任务,无需为每个任务单独训练模型。
面临的挑战(即论文试图解决的问题):
-
幻觉:LLM可能会推荐一个符合逻辑但事实上不存在或不在候选集中的物品。
-
知识过时:LLM的内部知识是静态的,无法推荐训练截止日期之后出现的新物品。
-
领域知识不足:对于非常垂直、小众的领域,LLM的训练数据覆盖不足,可能导致推荐不准。
-
计算成本高:庞大的LLM进行推理的速度远慢于传统模型,线上服务成本高昂。
总结对比
| 特性 | 传统推荐系统 | LLM辅助的推荐系统 |
|---|---|---|
| 核心原理 | 统计关联,矩阵计算 | 语义理解,逻辑推理 |
| 数据依赖 | 用户-物品交互矩阵 | 交互数据 + 文本描述 + 通用知识 |
| 物品表示 | ID, 稀疏向量, 手工特征 | 稠密语义向量, 自然语言描述 |
| 用户表示 | 历史交互ID列表, 画像向量 | 自然语言描述的历史行为序列 |
| 推荐逻辑 | “相似用户喜欢” 或 “类似物品” | “基于你的历史和物品描述,推理得出” |
| 可解释性 | 较弱,通常需要后处理生成理由 | 极强,可直接生成自然语言理由 |
| 冷启动 | 困难 | 相对容易(可利用物品文本描述) |
| 主要挑战 | 稀疏性,流行度偏差,特征工程 | 幻觉,知识过时,计算成本 |
希望这个从传统到现代、从原理到细节的梳理,能帮助你建立起对推荐系统领域的清晰认知。理解了LLM做推荐的这些固有缺陷,你就能更深刻地体会为什么论文要引入知识图谱来“增强”它了。
火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。
更多推荐
所有评论(0)