目录

一、实验

RQ1:与现有推荐系统相比,所提方法表现如何?在多任务和多场景下的性能如何?

RQ2:该方法中的PPNet和EPNet能否分别解决多任务和多领域推荐中的不完美双跷跷板问题?

RQ3:所提方法中不同组件与实现方式的影响如何?

RQ4:PEPNet在实际在线场景中的表现如何?

实验设置

数据集与评估指标

基线方法与实现

超参数设置

整体性能(RQ1)

消融实验(RQ2)

超参数研究(RQ3)

在线A/B测试(RQ4)

二、相关工作

点击率预测

深度学习模型的演进

多领域学习

多任务学习

推荐系统中的应用

推荐系统中的门控机制

特征动态捕捉技术

现有方法的局限性

三、结论


上一篇文章:推荐系统分享系列-PEPNet(Parameter and Embedding Personalized Network)(二)

一、实验

在本章节中,通过大量实验评估PEP-Net的性能,旨在回答以下研究问题:

RQ1:与现有推荐系统相比,所提方法表现如何?在多任务和多场景下的性能如何?

RQ2:该方法中的PPNet和EPNet能否分别解决多任务和多领域推荐中的不完美双跷跷板问题?

RQ3:所提方法中不同组件与实现方式的影响如何?

RQ4:PEPNet在实际在线场景中的表现如何?

实验设置

数据集与评估指标

为评估PEPNet在现实场景中应对不完美双跷板问题的效果,从快手平台采集了一个涵盖丰富领域和任务的工业级数据集。实验选取2022年9月11日至9月22日共12天的日志子集,涉及三个领域:双列发现页(标注为领域A)、精选视频页(领域B)及单列滑动页(领域C)。

六个用户交互行为被预测为多任务的二元目标,包括点赞、关注、转发、厌恶、点击及有效观看(EffView)。在单列标签页中,点击定义为观看时长超过3秒,以模拟沉浸式标签页中不存在的点击行为;有效观看则定义为观看时长达到所有样本中前50%分位数时标记为1,否则为0。

数据划分上,前10天作为训练集,第11天为验证集,最后一天为测试集。过滤交互少于10次的用户及被少于10名用户交互的内容。模型评估采用AUC和GAUC两项广泛使用的准确性指标。

表1汇总了数据集统计信息,包括基础数据、各领域内任务的稀疏性以及跨领域的用户与曝光内容重叠情况。尽管各领域共享相同内容池且存在大量用户重叠,但不同领域的内容曝光和用户行为存在显著差异,表明用户在多领域中存在不同行为意图,并处于差异化的消费生态中。

基线方法与实现

为验证PEPNet的有效性,将其与多种前沿方法进行对比。基线方法分为三类:仅处理单领域单任务的通用推荐模型、忽略多领域影响的多任务推荐模型,以及综合考虑多任务多领域的推荐模型。

通用推荐模型
在单一领域内独立训练各任务,以呈现多任务多领域结果:

  • DeepFM[8]:广泛使用的通用推荐模型,用因子分解机替代WDL[5]的线性部分。
  • DCN[30]:将DeepFM的因子分解机替换为交叉网络,以建模线性交叉特征。
  • xDeepFM[14]:在DCN的交叉部分引入向量级思想,高效学习特征交叉。
  • DCNv2[31]:结合低秩DCN,平衡性能与延迟,达到当前最优效果。

多任务推荐模型
在单一领域内独立训练多任务,以呈现多任务多领域结果:

  • DCNv2-MT:将DCNv2扩展至多任务场景,共享主干模型并采用不同DNN层生成偏好分数。
  • SharedBottom:最常见的多任务模型,共享底部DNN层参数,通过特定任务塔生成分数。
  • MMoE[18]:共享多个专家子模型及门控网络,隐式建模不同标签空间任务间的关系。
  • PLE[27]:当前最优方法,为各任务设置独立专家,在保留MMoE共享专家的基础上考虑专家间交互。

多任务多领域推荐模型
当前鲜有同时解决多任务多领域推荐的研究,为此提出以下变体:

  • PLE-MD:将PLE扩展至多领域场景,跨领域共享输入嵌入层。
  • SharedTop:类似PLE-MD共享输入嵌入层,但跨领域共享顶部DNN任务塔(与SharedBottom的底部共享相反)。
  • SpecificTop:与SharedTop不同,同一任务在不同领域采用不同任务塔,底部嵌入层仍跨领域共享。
  • SpecificAll:与SpecificTop不同,该模型不仅针对不同领域区分不同的顶级DNN任务塔结构,还采用了特定的底层嵌入层。

超参数设置

在离线实验中,所有模型均基于TensorFlow[1]实现。优化器采用Adam[12],初始学习率设为0.001。批处理大小固定为1024,所有模型的嵌入维度统一设置为40。参数初始化采用Xavier方法[7]。所有方法均使用双层前馈神经网络进行交互估计,隐藏层尺寸为[100, 64]。为确保公平对比,EPNet和PPNet中使用的先验信息作为额外输入添加到所有基线模型的嵌入层中。通过细致的网格搜索确定最佳超参数:MMoE、PLE及其变体中专家数量在[4, 6, 8]范围内搜索,正则化系数在[1𝑒−7, 1𝑒−5, 1𝑒−3]范围内搜索。

整体性能(RQ1)

表2展示了三个领域中六项任务的实验结果。通过结果可得出以下观察结论:

• 所提出的方法始终取得最佳性能。模型PEPNet在三个领域的所有六项任务指标上均显著优于基线方法。具体而言,模型在领域A的GAUC平均提升约0.01,领域B提升0.02,领域C提升0.02(p值<0.05)。对于三项领域中各任务的平均性能,Like提升0.01,Follow提升0.02,Forward提升0.02,Hate提升0.03,Click提升0.002,EffView提升0.005。在数据更稀疏的领域和任务上改进更为显著,验证了该方法能更有效平衡多任务与多领域推荐问题,显著降低了以跨领域、跨任务方式建模稀疏领域和稀疏任务的难度。

• 通用推荐器无法平衡任务间性能差异。通用推荐器在密集领域(领域B)的密集任务(Click)上表现良好,但在稀疏领域(领域A)的稀疏任务(Forward)上表现较差。简单将通用推荐器(DCNv2)扩展为多任务版本(DCNv2-ML)会导致部分任务(Like)性能提升而其他任务(Hate)性能下降。这表明集中式通用模型面对多任务预估时存在跷跷板效应,导致任务间性能不均衡。相比之下,采用共享参数层与专用任务塔的SharedBottom在某些领域(领域C)的所有指标上取得了均衡提升,证明专门设计的多任务推荐器可缓解任务跷跷板现象。且模型共享部分与专用部分的设计越复杂(如MMoE和PLE),性能提升越显著,但它们在稀疏领域(领域A)上仍表现不佳。

• 多任务推荐器无法平衡领域间性能差异。即便最强大的多任务推荐器(PLE)扩展为多领域版本(PLE-MD)后,仍会出现某些领域(领域A)性能提升而其他领域(领域C)性能下降的领域跷跷板现象。原因是顶层标签空间与底层嵌入空间存在不一致性。单独建模各领域的多任务方法无法同时考虑跨领域与跨任务信息。基于早期多任务学习框架SharedBottom构建的多任务多领域变体SharedTop能一定程度上缓解双重跷跷板效应。当任务塔按领域细分后,SpecificTop仅在部分领域(领域A)表现更好,同时参数量倍增。而SpecificAll进一步分割底层嵌入空间,忽略了领域间共享知识,导致推荐效果下降。

该方法基于共享底层嵌入层与共享顶层DNN任务塔插入门控网络,捕获用户跨领域、跨任务的个性化偏好,以较少参数量实现了最佳性能。

消融实验(RQ2)

为验证PEPNet模型中各子模块的有效性,对比了不含PPNet模块、不含EPNet模块、同时不含两个模块的模型与完整模型的离线性能,结果如图4(a)所示。

进一步研究PEPNet作为即插即用模块在非多任务多领域推荐场景中的泛化能力。具体地:

  • 对比PPNet在多任务单领域推荐中的效果(图4(b))
  • 对比EPNet在单任务多领域推荐中的效果(图4(c))
  • 分析PPNet在单任务单领域模型中的增益效果(图4(d))

图4(a)(b)(c)结果表明,通过EPNet和PPNet捕获跨领域、跨任务信息具有显著效果。EPNet的嵌入个性化和PPNet的参数个性化分别能带来额外性能提升。
图4(d)显示,即使对单任务单领域模型,纯参数个性化机制仍能提升通用推荐效果,印证了建模个性化偏置在推荐系统中的重要性。

超参数研究(RQ3)

为探究所提模型中不同设置与实现方式的影响,开展了超参数实验。通过图5(a)比较了EPNet在不同特征嵌入维度下的性能表现,图5(b)分析了结合PPNet的DNN层数对效果的影响。进一步地,针对Gate NU中Sigmoid函数引入缩放因子以放大或压缩维度间差异的设计,图5(c)评估了不同系数对推荐性能的影响。最后,通过图5(d)对比了EPNet与PPNet中额外输入的三种处理方式(移除输入、仅添加输入但不反向传播、同时添加输入与反向传播)对性能的作用。

实验结果表明:EPNet在不同嵌入维度下均表现稳定,即使维度低至16仍能保持优异性能;增加DNN层数可提升PPNet效果,但层数过深会导致过拟合;Gate NU中Sigmoid系数为2时效果最佳,因其输出范围(0,2)以1为中心,能更好地平衡缩放效应;在EPNet与PPNet中添加通用输入并禁用反向传播(BP)优于其他设置,说明该方式既能充分利用输入信息建模个性化,又避免对主干网络造成干扰。

在线A/B测试(RQ4)

为评估PEPNet的在线性能,进行了严格的在线A/B测试。表3展示了三个典型模块的提升效果:双列发现页、精选视频页和单列滑动页。与电商场景中的点击率(CTR)和成交总额(GMV)不同,短视频场景重点关注以下指标:点赞、关注、转发和观看时长。观看时长衡量每位用户对视频的平均观看时间。可见所有指标均较之前的SOTA方法有显著提升。需注意,在快手平台中,观看时长0.1%的增长即被视为有效提升,因此PEPNet实现了显著的商业效益。目前PEPNet已部署至在线服务,每日为超过3亿用户提供支持。

二、相关工作

我们的研究基于传统点击率预测(CTR)方法,并通过门控机制将其扩展到多领域和多任务场景。本节将讨论与点击率预测、多领域学习、多任务学习以及推荐系统中门控机制相关的文献。

点击率预测

点击率(CTR)预测是电商和流媒体互联网公司最重要的增长引擎,能够提升用户体验并增加公司收入。传统的浅层CTR模型(如逻辑回归LR、因子分解机FM、梯度提升决策树GBDT)因其强可解释性和轻量级训练部署需求,早期被广泛采用。

深度学习模型的演进

深度学习因捕捉高阶特征交叉的强大能力,现代深度方法实现了显著提升:

  • FNN[32]:使用FM预训练嵌入层,后将处理后的稠密特征输入DNN。
  • PNN[23]:将预训练中的向量内积/外积直接迁移到神经网络中。
  • WDL[5]:联合训练宽线性模型和深度神经网络,结合记忆性与泛化优势。
  • DeepFM[8]:用FM替代WDL的宽部分,不再依赖人工特征工程。
  • DCN[30,31]:将DeepFM中的FM替换为交叉网络(Cross Network)。
  • xDeepFM[14]:在DCN的交叉部分进一步引入向量级(vector-wise)思想。
  • DCNv2[31]:采用低秩DCN混合方案,在性能与延迟间取得更优平衡,达到SOTA水平。

多领域学习

多领域学习是领域适应的扩展,属于直推式迁移学习的范畴。迁移学习能够利用带有充足标签数据的源领域,辅助标签数据稀缺的目标领域。当源领域与目标领域的数据分布不同但任务相同时,这类特殊的迁移学习被称为领域适应。直接基于源领域训练的模型通常因不满足独立同分布假设而在目标领域表现不佳,这种现象称为负迁移。

领域适应的核心思想是将不同分布的源领域和目标领域数据对齐到统一空间,从而获取领域不变的特征。与一般领域适应问题不同,多源领域适应涉及多个分布各异的源领域,多目标领域适应则旨在向多个目标领域进行迁移。解决此类问题的关键在于多领域对齐策略。

传统的点击率预测主要关注单一目标在单一领域的预估。随着现实场景的持续扩展,需要考虑跨领域数据的联合训练。因此与先前工作不同,推荐场景中的多领域学习弱化了源领域与目标领域的概念,更强调通过多领域数据共同提升推荐效果。

多任务学习

多任务学习旨在同时学习多个相关任务,通过挖掘共享信息促进每个具体任务的学习。早期线性模型[2]采用共享稀疏表示进行多任务学习。在深度学习时代,硬参数共享方法可能因任务差异导致负迁移。为获得更好性能,一些研究采用软参数共享方法进行优化。交叉缝合网络[20]和闸门网络[24]提出学习任务特定隐藏层的线性组合。其他方法使用门控机制和注意力机制进行信息融合。MOE[11]通过门结构组合底部共享的多个专家模块,MTAN[15]则由共享网络和多个任务特定注意力模块构成。

推荐系统中的应用

基于协同过滤和矩阵分解的早期推荐模型[16,28,29]表达能力较弱且忽略任务间关联。由于简洁高效等不可替代的优势,底部硬参数共享(ShareBottom)被广泛应用于推荐系统。MMoE[18]进一步共享所有专家模块至不同任务,并为每任务分配独立门控扩展MOE。ESSM[19]基于软参数共享结构,通过序列模式同步优化两个关联任务以缓解预测目标稀疏性。PLE[27]在保留MMoE共享专家基础上,为每任务设置独立专家模块并考虑专家间交互作用。

推荐系统中的门控机制

门控机制因其能够自适应地增强重要信息并抑制无关信息,在推荐系统中得到广泛应用。近期研究中,Ma等人提出的分层门控网络(HGN)通过特征级门控和实例级门控模块,自动建模用户对不同特征物品实例的选择行为。

特征动态捕捉技术

Huang团队将计算机视觉领域的压缩激励网络(SENET)引入推荐系统,动态捕捉特征重要性,并采用双线性函数学习特征组合。另一项研究中,该团队提出特征嵌入门控和隐藏门控机制,以特征自身作为门控输入,自适应选择传递至网络更深层的特征及特征交互。

现有方法的局限性

当前方法虽侧重信息选择,但缺乏个性化建模能力。由于未充分考虑领域间差异(domain seesaw)和任务间平衡(task seesaw),这些技术难以适配多任务、多场景的推荐需求。

三、结论

本文研究了不完美双重跷跷板问题,其中部分领域数据量远少于其他领域,部分任务面临标签稀疏的挑战。针对多领域多任务间的异构关系,提出了一种参数与嵌入个性化网络(PEPNet)。在快手推荐场景中,充分结合嵌入个性化与参数个性化设计,显著提升了用户消费体验。针对短视频推荐特性,在训练和线上推理阶段制定了工程优化策略。

该模型已部署于快手应用,多领域多任务的离线与在线实验均取得显著效果提升,用户应用使用时长与参与度均大幅增长。


本篇论文已经描述完成,之后会出一篇实战篇~。

 

Logo

火山引擎开发者社区是火山引擎打造的AI技术生态平台,聚焦Agent与大模型开发,提供豆包系列模型(图像/视频/视觉)、智能分析与会话工具,并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长,新用户可领50万Tokens权益,助力构建智能应用。

更多推荐