【推荐系统新范式】一文掌握OneSug，构建你的“端到端优化”知识体系！

电商查询推荐是搜索系统的核心模块，其核心价值是通过补充与用户输入前缀相关的精准查询，降低用户输入成本、明确搜索意图，进而提升转化效率。传统查询推荐系统普遍采用多阶段级联架构(MCA)，通过“召回→粗排→排序”的漏斗式流程筛选候选查询，但存在三大固有缺陷：

小马不会过河

1854人浏览 · 2025-11-30 09:15:00

小马不会过河 · 2025-11-30 09:15:00 发布

一、研究背景

性能上限受限：后一阶段的性能完全依赖前一阶段的输出质量，若高价值查询在召回/粗排阶段被过滤，后续阶段无法挽回；
目标冲突：各阶段采用异质模型，优化目标不一致(如召回追求全覆盖，排序追求精准转化)，导致整体性能次优；
长尾场景薄弱：对未见过的长尾前缀，传统方法难以生成有效推荐，无法满足小众需求。

生成式检索(GR)在推荐、广告等领域已展现潜力，但查询推荐属于开放词汇任务(输入前缀和输出查询均无固定词汇表)，与推荐(封闭词汇，输出为固定物品)、广告(半开放词汇)存在本质差异，现有GR框架无法直接适配。为此，OneSug作为首个针对电商查询推荐的端到端生成式框架被提出，旨在解决上述问题。

二、核心方法

OneSug以“统一生成式架构+精准语义增强+细粒度偏好对齐”为核心，设计三大模块，整体框架如图所示：

2.1 Prefix2Query表示增强(PRE)

针对短前缀语义模糊的问题，通过两步增强前缀表示，同时衔接内容与商业特征：

前缀-查询语义对齐

采用BGE模型作为基础表示模型，通过高质量前缀查询和查询查询对(从用户日志中筛选)进行对比学习，优化对齐损失，使模型同时捕捉语义相关性与商业转化特征。对于短前缀，通过平均池化其共现查询的嵌入，生成增强后的前缀嵌入：

，其中，为共现查询嵌入的均值。
层级量化语义ID生成

用RQ-VAE对对齐后的嵌入进行编码，生成层级语义ID，通过聚类搜索筛选与前缀最相关的top-k查询(先匹配语义ID，再匹配码字)，既减少推理阶段的计算量，又确保推荐查询的多样性与相关性。RQ-VAE的训练目标包含重构损失与残差损失：

，其中为输入输出重构损失，为残差与聚类中心的对齐损失。

2.2 统一编码器-解码器架构

摒弃多阶段流程，采用Transformer-based编码器-解码器架构，实现端到端查询生成：

输入构造：将 + 前缀 + + 相关查询 + + 用户历史查询 + + 用户画像拼接为统一输入序列；
生成机制：解码器以自回归方式生成推荐查询，训练时采用交叉熵损失优化下一个token预测任务，推理时用束搜索(束宽32)平衡生成质量与延迟；
模型选型：支持编码器-解码器模型(BART、mT5)与解码器-only模型(Qwen2.5)，工业部署选用BART-B以平衡性能与成本。

2.3 奖励加权排序(RWR)的用户偏好对齐

针对生成式模型的排序能力不足，设计基于用户行为层级的偏好对齐策略：

行为层级与奖励设计

将用户行为分为6个等级(从高到低：下单、点击商品、点击查询、展示、未展示、随机候选)，分配基础权重，并根据行为频次调整奖励分数，构建9类正负样本对(如<下单, 展示>)。
混合排序框架

结合点对级与列表级DPO优化：

点对级DPO：引入奖励边际，强化正负样本的区分度，动态权重放大硬负样本的优化优先级；
列表级DPO：将单个负样本扩展为多个负样本集合，采用Plackett-Luce偏好模型，充分利用用户对多个查询的偏好差异；
混合损失：融合DPO损失与SFT损失，避免模型过度迎合奖励而牺牲生成质量：

三、实验结果

实验基于快手电商的真实日志(1亿PV，32天数据)，从离线、消融、在线三个维度验证效果：

3.1 离线实验结果

整体性能领先：OneSug系列模型在点击和订单场景的HR@16、MRR均超越MCA、在线MCA和GRA模型。其中OneSug-Qwen2.5-3B的订单HR@16达95.13%，较在线MCA提升10.58%，MRR提升15.55%；
模型规模影响：编码器-解码器模型中BART与mT5性能接近，解码器-only模型(Qwen2.5)随参数增加(0.5B→3B)性能持续提升，验证了模型容量的重要性。

3.2 消融实验结果

核心模块必要性：移除PRE模块使点击HR@16下降3.68%，移除RWR模块下降5.13%；列表级DPO较点对级DPO的点击HR@16提升2.75%，证明细粒度偏好捕捉的价值；
超参数影响：相关查询序列长度并非越长越好，过长会引入噪声；束宽增加可提升性能，但超过32后延迟不可接受，需权衡质量与效率。

3.3 在线A/B测试结果

业务指标提升：OneSug列表级版本使用户点击位置提前9.33%，CTR提升2.01%，订单量增长2.04%，总收入提升1.69%，平均输入长度缩短1.82%；
效率优化：系统响应时间减少43.21%，显著优于传统MCA的多阶段推理；
用户体验改善：全召回率提升8.48%，页面优质率提升11.02%，查询优质率提升22.51%，验证了推荐质量的提升。

3.4 进一步分析

行业与前缀适配：30个行业中有27个实现CTR提升，平均增幅2.12%；长尾前缀(日PV<100)的CTR提升3.59%，远超头部前缀(1.15%)，解决了长尾痛点；
模型更新：不定期更新时，OneSug的CTR下降幅度(-0.6%)小于在线MCA(-1.1%)，采用近3天数据更新偏好对齐阶段可维持性能。

四、优缺点及改进方向

4.1 优点

创新性：首个工业级部署的端到端电商查询推荐框架，打破了MCA的固有局限，为开放词汇生成式检索提供了可行方案；
语义增强有效：PRE模块解决了短前缀语义模糊的关键问题，RQ-VAE的语义ID设计平衡了计算效率与相关性；
偏好捕捉精准：RWR模块通过行为层级划分与列表级DPO，精准捕捉用户细粒度偏好，提升推荐的个性化程度；
实用性强：在线性能与系统效率双提升，兼顾业务价值与用户体验，已在快手全流量部署验证。

4.2 缺点

计算成本差异：大模型版本(如Qwen2.5-3B)性能优异，但推理成本高，难以适配高并发场景；
特征适配局限：ID 类特征(用户ID、类别ID)引入后会干扰语义建模，即使采用语义ID也仅能与非ID模型持平，开放词汇任务的特征融合仍需优化；
长序列噪声：过长的相关查询序列会引入冗余信息，影响模型对用户真实意图的捕捉；
实时更新策略：虽验证了定期更新的必要性，但尚未形成动态、低开销的更新机制，难以适配突发热点查询。

4.3 改进方向

效率优化：采用模型压缩或蒸馏技术，降低大模型的推理成本，适配高并发场景；
特征融合创新：设计专门的prompt策略或特征编码方式，使ID类特征能有效融入语义生成，同时避免干扰；
动态序列长度：引入自适应机制，根据前缀语义复杂度动态调整相关查询序列长度，减少噪声；
热点适配：结合实时热点词库，优化模型的突发查询响应能力，设计增量更新策略降低维护成本；
多模态扩展：融合商品图像、视频等多模态信息，丰富查询推荐的语义依据，提升跨模态场景的适配能力。

五、总结

OneSug作为首个工业部署的端到端生成式电商查询推荐框架，通过Prefix2Query表示增强、统一编码器-解码器架构、奖励加权排序的偏好对齐三大核心创新，有效解决了传统MCA的性能上限受限、目标冲突、长尾薄弱等问题。离线与在线实验均验证了其在推荐质量(CTR、订单、收入)与系统效率(响应时间)上的显著优势，尤其在长尾前缀场景表现突出。该研究的核心贡献在于：

填补了生成式检索在开放词汇查询推荐领域的空白，提供了从语义增强到偏好对齐的完整解决方案；
其工业部署经验为后续生成式检索在电商搜索的应用奠定了基础。

未来通过效率优化、特征融合创新等方向的迭代，有望进一步提升框架的实用性与泛化能力，推动电商查询推荐向更智能、更高效的方向发展。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

OpenClaw 本地部署完整指南（Windows + Ollama）

本文档基于实际部署经验编写，旨在帮助你在 Windows 系统上从零开始搭建 OpenClaw，并连接本地 Ollama 模型（如 Qwen2.5 或 Qwen3），使其具备完整的智能体能力。文档包含了所有关键步骤以及常见问题的解决方案。

火山引擎 ADG 社区

OpenClaw 小白安装指南（Windows版）

（类似一个能自动执行任务的AI机器人），不是游戏。API Key只保存在你本地电脑的加密文件里，不会上传到任何地方。访问：https://github.com/miaoxworld/openclaw-manager/releases。: 一键安装脚本会自动安装Node.js 22+，如果失败，手动下载安装：https://nodejs.org/：在PowerShell中，鼠标右键就是粘贴，不需要按

火山引擎 ADG 社区

飞书 × OpenClaw 接入指南：不用服务器，用长连接把机器人跑起来

这个项目存在的意义，就是把“飞书接 OpenClaw”这件事，整理成一套的配置入口，并把官方文档没覆盖到的坑集中写成排查清单。先说清楚它的角色：OpenClaw 现在已经内置官方飞书插件 @openclaw/feishu，功能更完整、维护也更及时。，说明飞书 + AI 的接入已经走通。另外，仓库也推荐了一个新项目：把 OpenClaw 变成“多 Agent 团队”，用多个 Agent 分工，Sla