重排利器：行列式点过程（DPP）在推荐系统中的应用

摘要：推荐系统重排阶段常面临结果同质化问题。行列式点过程（DPP）通过建模相关性与多样性的平衡，利用核矩阵的行列式计算子集概率，几何上对应向量集的多样性。核矩阵构造结合物料质量分与相似度（如高斯核），并通过贪婪算法（Fast Greedy MAP）高效求解。工程实现中优化核矩阵正定性、个性化加权（如华为pDPP）及增量计算（Cholesky分解）。实际应用需结合特征工程（如双塔Embedding

Jay Kay

962人浏览 · 2025-06-29 13:45:13

Jay Kay · 2025-06-29 13:45:13 发布

在推荐系统的重排阶段，我们常面临结果同质化问题——精排结果相似物料扎堆，导致用户体验单调。行列式点过程（Determinantal Point Processes, DPP）通过数学建模相关性与多样性的平衡，成为解决该问题的经典方案。

一、DPP的核心思想

DPP将推荐列表视为一个点过程，其核心是计算子集出现的概率。给定候选集 ( Z )（精排输出的Top-N物料），DPP定义子集 ( Y \subseteq Z ) 出现的概率为：
$\propto \det(L_Y)$
其中 ( L ) 是核矩阵（Kernel Matrix），( L_Y ) 是 ( L ) 的 ( Y ) 对应的子矩阵。行列式 (\det(L_Y)) 的几何意义是向量集合构成的超平行多面体体积：

体积越大 → 向量差异性越大 → 推荐多样性越强
对角线元素 $L_{ii}$ 表示物料 $i$ 的质量（如CTR得分）
非对角线元素 $L_{ij}$ 表示物料 $i$ 与 $j$ 的相似度

关键公式（核矩阵构造）：
$\text{Diag}(\mathbf{r}) \cdot S \cdot \text{Diag}(\mathbf{r})$

$r\mathbf{r}$ ：物料质量分向量（如精排得分）

$S$ ：物料相似度矩阵， $Sij=cos(embi,embj)S_{ij} = \text{cos}(\text{emb}_i, \text{emb}_j)$

二、核矩阵 ( L ) 的工程实现

1. 基础构造法

# 输入：精排结果物料集合 Z，包含每个物料的embedding和得分
def build_kernel_matrix(Z):
    r = [item.score for item in Z]  # 质量分向量
    S = cosine_similarity([item.embedding for item in Z])  # 相似度矩阵
    L = np.diag(r) @ S @ np.diag(r)  # Diag(r) * S * Diag(r)
    return L

缺陷：( S ) 的余弦相似度可能为负，导致 ( L ) 非正定。

2. 改进方案（文档式6-29）

高斯核保证正定性
$S_{ij} = \exp\left(-\frac{\text{dist}(i,j)^2}{2\sigma^2}\right)$

3. 个性化加权（华为pDPP）

$L_{ij} = r_i \cdot r_j \cdot S_{ij} \cdot \color{red}{\phi_u}$
$ϕu\phi_u$ 为用户个性化权重

三、贪婪求解：Fast Greedy MAP

直接枚举所有子集计算 (\det(L_Y)) 是指数级复杂度。Fast Greedy MAP算法（复杂度 (O(N^2 K))）是工业界首选：

def fast_greedy_map(L, K):
    Y = []          # 已选集合
    for _ in range(K):
        max_gain = -np.inf
        best_item = None
        for j in range(len(L)):
            if j in Y: continue
            gain = compute_marginal_gain(L, Y, j)  # 计算边际增益
            if gain > max_gain:
                max_gain = gain
                best_item = j
        Y.append(best_item)
        update_cached_vectors(L, Y)  # 更新中间变量（避免重复计算）
    return Y

关键优化：利用Cholesky分解的增量更新（见文档公式6-47, 6-48）：
$\begin{align*} \mathbf{c}_j &= \frac{1}{\sqrt{L_{jj} - \|\mathbf{v}_j\|^2}} \left( L_{Y,j} - V^T \mathbf{v}_j \right) \\ d_j &= \sqrt{L_{jj} - \|\mathbf{v}_j\|^2} \end{align*}$

其中 ( V ) 是Cholesky分解的三角矩阵，(\mathbf{v}_j) 是中间向量。

DPP 算法流程
在这里插入图片描述

四、实际应用技巧

特征工程：
- 质量分 ( $r_i$ )：精排CTR得分 × 时长增益系数
- Embedding：双塔模型输出的物料向量
负样本策略：
- 曝光未点击物料作为Hard Negative
- 随机采样物料作为Easy Negative（比例100:1）
在线服务：
- Faiss加速相似矩阵计算
- 核矩阵 ( L ) 的增量更新（新物料动态插入）

五、效果对比（Hulu案例）

算法	多样性↑	点击率↑	时长↑
精排基线	0.82	0.125	45s
DPP重排	0.93	0.127	51s

多样性指标：物料类别熵（Entropy），值越大越多样

六、总结

DPP的数学美感与工程实用性使其成为重排阶段的核心算法：

优势：严格建模相关性与多样性的trade-off
挑战：核矩阵构造的合理性、大规模计算的优化
趋势：与强化学习（如RNN重排）、多任务学习的结合

火山引擎 ADG 社区

火山引擎开发者社区是火山引擎打造的AI技术生态平台，聚焦Agent与大模型开发，提供豆包系列模型（图像/视频/视觉）、智能分析与会话工具，并配套评测集、动手实验室及行业案例库。社区通过技术沙龙、挑战赛等活动促进开发者成长，新用户可领50万Tokens权益，助力构建智能应用。

更多推荐

Chess用户界面设计：Tailwind CSS样式系统和组件库

GitHub推荐项目精选中的ch/chess是一个类似chess.com的多人在线象棋平台，它采用现代化的前端技术栈构建，尤其在用户界面设计上通过Tailwind CSS样式系统和组件库实现了优雅且功能丰富的交互体验。本文将深入探讨该项目如何利用Tailwind CSS打造一致的设计语言和高效的组件系统，为象棋爱好者提供沉浸式的游戏界面。## 🎨 Tailwind CSS样式系统：构建统一视

火山引擎 ADG 社区

终极指南：GPT-Engineer如何通过AI自动发现代码问题并提升质量

GPT-Engineer是一款强大的AI驱动代码工具，它能帮助开发者自动检测潜在代码问题、优化代码质量，让编程效率提升3倍以上。无论是新手还是资深开发者，都能通过这款工具轻松发现代码中的隐藏缺陷，减少调试时间，释放更多精力在创造性工作上。## 一键发现代码问题：GPT-Engineer的AI审查魔力GPT-Engineer的核心能力在于其内置的智能代码分析系统。通过集成Python代码格式

火山引擎 ADG 社区

SatDump中的纠错编码技术：从RS码到Turbo码的完整实现指南

在卫星数据传输过程中，信号往往会受到各种干扰，导致数据错误。SatDump作为一款通用卫星数据处理软件，集成了多种先进的纠错编码技术，确保从卫星接收到的数据能够准确解码。本文将深入解析SatDump中从Reed-Solomon（RS）码到Turbo码的实现细节，帮助读者理解这些技术如何保障卫星通信的可靠性。## 为什么纠错编码对卫星数据至关重要？卫星与地面站之间的通信链路面临着空间辐射、大