2025年多场景建模：快手参数及Embedding个性化网络PEPNet

大家好，我是讯享网，很高兴认识大家。

Parameter and Embedding Personalized Network (PEPNet)

背景

在这里插入图片描述
讯享网

user及item在不同场景有交叉重叠，场景之间存在共性；任务之间也存在相互关系，单独为每个场景训练单独的模型既耗费人力也无法利用全量的数据，忽略了场景之间的共性，因此需要多场景多任务建模。

业务挑战&难点：

双跷跷板效应

所有样本混合在一起训练，不同场景有不同的数据分布，容易出现场景跷跷板效应（domain seesaw）
不同的目标有不同的稀疏性，而且目标之间有相关性，会相互影响，容易出现任务跷跷板效应（task seesaw）

在这里插入图片描述

解决方案

点评：通过输入的个性化先验信息通过gate机制动态缩放底层的Embedding参数以及上层的DNN隐层参数
在这里插入图片描述

方案详情：

EPNet和PPNet的基本单元都是Gate NU（Gate Neural Unit），详解下Gate NU，这个结构受语音识别领域的LHUC结构启发而来的，目的是将个性化的先验信息注入到网站中。LHUC是通过speaker的先验信息来缩放模型的隐层单元达到语音识别的个性化。但是LHUC仅仅是用userID来作为个性化的先验信息，并没有用到用户的年龄、性别等其他画像信息，而这些信息在推荐系统非常重要，包括itemID，item的类别、作者等等先验信息，当然也包括场景ID等先验。Gate NU就是将这些信息都当做先验信息输入来个性化调节DNN网络隐层，达到场景、任务的个性化。
在这里插入图片描述

Gate NU是由两层网络结构实现，第一层目的是交叉输入的先验信息 $\mathbf x$ ,通过非线性函数relu进行激活，第二层通过sigmoid函数产生gate缩放分数，用 $\gamma$ 来调节缩放的程度
$\mathbf x^{'} = Relu(\mathbf x \mathbf W + \mathbf b)$

$\mathbf \delta = \gamma * Sigmoid(\mathbf x^{'} \mathbf W + \mathbf b^{'})$

Embedding Personalized Network(EPNet)

sparse特征和dense特征合拼接起来，经过Embedding层，作为主体网络的输入
$\mathbf E = E(F_S) \oplus E(F_D)$
场景特征像场景ID、场景的统计特征（用户曝光量和点击量）等表示为 $F_d$

经过GateNU后，GateNU的输出为
$\mathbf \delta_{domain} = GateNU( E(F_d) \oplus (\oslash (\mathbf E)) )$

这里 $\oslash$ 表示GateNU不对原来的Embedding层做梯度回传，也就是说虽然GateNU会缩放改变Embedding，但是不对Embedding进行梯度回传，避免和主体网络的梯度回传冲突混乱。GateNU这种参数缩放的方式，其实是一种注入的方式，还是尽量减少对原始Embedding的影响。

EPNet的输出如下，这样就实现了对Embedding输入的场景个性化
$\mathbf \delta_{domain} \otimes \mathbf E$

Parameter Personalized Network(PPNet)

user、item、author的相关特征表示为 $F_u$ / $F_i$ / $F_a$ ，这部分先验输入拼接起来再和底层经过场景先验注入的Embedding拼接在一起作为PPNet的网络输入

经过GateNU后，GateNU的输出为
$\mathbf \delta_{task} = GateNU( (E(F_u) \oplus E(F_i) \oplus E(F_a) ) \oplus ( \oslash (\mathbf \delta_{domain}) ) )$
这里GateNu也是不对DNN网络进行回传梯度，减少对主网络的影响

这里 $\mathbf H$ 表示DNN的隐层 $\mathbf H=[H_1,H_2,...,H_T]$ ，其中 $H_t \in R^h$ 表示任务 $t$ 任务塔的隐层单元数量， $\mathbf \delta_{task} \in R^{h*T}$ 需要split拆分成 $T$ 个 $h$ 维度的向量，这样好乘到任务的隐层单元上面，达到改变任务塔隐层的目的。

PPNet的输出如下，这样就实现了对DNN塔参数的任务个性化
$\mathbf \delta_{task} \otimes \mathbf H$

对DNN每一层进行这样的处理，假设有 $L$ 层
$\mathbf O^l = \mathbf \delta_{task}^l \otimes \mathbf H^l$
$\mathbf H^{l+1} = f( \mathbf O^l \mathbf W + \mathbf b^l ) \ \ \ l \in \{1,2,...,L\}$