2025年用户AppList 特征提取

科技前沿 • 2025-03-29 13:32 • 阅读 66

大家好，我是讯享网，很高兴认识大家。

用户AppList 特征提取

问题描述

App与用户之间存在着密不可分的联系，用户在频繁使用这些App过程中也积累了大量的个人历史数据。这些App数据能帮助我们更好地去理解用户，推测用户的性别、职业、收入、兴趣、偏好等属性。
AppList 也是一种比较容易获取的数据信息，大部分的Android设备和部分IOS设备都能比较容易获取。很多公司能利用的数据中都有用户安装的applist。

因此如何合理的使用Applist，提高用户理解程度，刻画用户画像就非常重要。

App数据长啥样

当前手机获取的App数据主要包括：App安装包名称、App中文名、App安装列表、App安装时间。

几种AppList处理方案

方案1：直接对应用分类

通过爬虫获取应用商店的分类。
常用的应用商店有：小米百度
对用户的app进行分类，统计每个类的个数作为特征，参与模型训练。

方案2: 对app聚簇

方案3: 使用word2vec 对app Embedding

这个方案是目前成本最低，同时使用效果最好的方案，相比之前的app分类，AUC从0.6 提升到了0.61，效果提升明显。

讯享网

把一个用户的 applist理解为一个sentense，把每一个app当成一个词，调用gensim算法包中的word2vec，训练App的词向量。

过滤掉全民应用，也就是安装率大于50%的应用：‘微信’, ‘’, ‘拼多多’, ‘抖音短视频’, ‘支付宝’, ‘手机淘宝’, ‘百度’, ‘浏览器’, ‘腾讯视频’, ‘钉钉’。
过滤掉用户被动安装应用，也就是系统预安装应用，根据手机厂商统计，安装率大于80%的。
考虑到applist是无序的，并且word2vec也是无序的，因此只需要将window 设置足够大 window = 50 (实际情况中applist不可能大于100)，就可以保证学习到所有的app关系。
设置 min_count =100 ，过滤掉低频应用。
考虑到app词库不会太多，根据公式size > 8.33logn (n 为词表长度) 设置size = 100
得到所有app的一个向量表 n 100 维的。

使用时，获取一个用户安装所有app列表，比如这个用户安装了20个app，取出这20个 app的向量表 20* 128。对这个向量做平均池化处理，得到1 * 128的一个特征表。就可以直接在自己的模型里面使用了。

方案4: 使用app2vec 对app Embedding

参考文档：

app使用的几种方式：
https://zhuanlan.zhihu.com/p/
word2vec入门方法：
https://rare-technologies.com/word2vec-tutorial
word2vec深入说明：
https://www.jianshu.com/p/d6a0aec6e9a1