解读：全民K歌直播推荐算法

科技前沿 • 2025-03-20 15:45 • 阅读 59

大家好，我是讯享网，很高兴认识大家。

重磅推荐专栏：《大模型AIGC》；《课程大纲》
本专栏致力于探索和讨论当今最前沿的技术趋势和应用领域，包括但不限于ChatGPT和Stable Diffusion等。我们将深入研究大型模型的开发和应用，以及与之相关的人工智能生成内容（AIGC）技术。通过深入的技术解析和实践经验分享，旨在帮助读者更好地理解和应用这些领域的最新进展

1. 业务背景

直播推荐与内容推荐的异同，K歌直播与其他直播（如虎牙）的区别：
在这里插入图片描述
讯享网

2. 推荐系统架构及挑战

推荐系统架构
在这里插入图片描述

3 召回模型算法设计

召回模型迭代
在这里插入图片描述

3.1 双塔模型（DSSM）

在这里插入图片描述

3.2 召回多模态模型实践

在这里插入图片描述
对item侧性多模态的embedding：

Live Streaming View：我理解就是直播间表格特征，如主播id等
Song View：K歌直播业务中，很多直播间会绑定一个Song ID，基于Song ID做embedding。我理解可能是主播在唱的歌或者背景音乐吧
Multi-media View：这部分就是直播间的内容理解——直播间视频、音频的embedding。我理解线上服务这部分特征应该是异步计算出来的，但是直播间的视频、音频特征具有实时性。如何异步的截取？这是一个问题。此外，我认为相比视频、音频特征，其实对直播间头像图片、房间title的内容理解应该来的会更加直接。毕竟推荐直接展示给user的是直播间的头像图片和房间title，比如某些男性user就偏好某些女性主播直播间头像。

另外还有一个多模态融合的问题。看上图示意，应该是每个模态embedding单独与user embedding进行相似度训练。这样做的话，每个item就会存在3个embedding。线上服务召回TopK时需要去重。但这种方案就忽略了不同模态之间的权重。我想到的另外一种方案是，将各模态的embedding concat起来，全连接映射到user embedding 相同维度（即 item embedding），再做相似度训练。但这会出现的问题是：有些直播间可能不存在Song ID，需要做特征缺失处理。