2025年用户AppList 特征提取

用户AppList 特征提取用户 AppList 特征提取 问题描述 App 与用户之间存在着密不可分的联系 用户在频繁使用这些 App 过程中也积累了大量的个人历史数据 这些 App 数据能帮助我们更好地去理解用户 推测用户的性别 职业 收入 兴趣 偏好等属性 AppList 也是一种比较容易获取的数据信息 大部分的 Android 设备和部分 IOS 设备都能比较容易获取

大家好,我是讯享网,很高兴认识大家。

用户AppList 特征提取

问题描述

  1. App与用户之间存在着密不可分的联系,用户在频繁使用这些App过程中也积累了大量的个人历史数据。这些App数据能帮助我们更好地去理解用户,推测用户的性别、职业、收入、兴趣、偏好等属性。
  2. AppList 也是一种比较容易获取的数据信息,大部分的Android设备和部分IOS设备都能比较容易获取。很多公司能利用的数据中都有用户安装的applist。

因此如何合理的使用Applist,提高用户理解程度,刻画用户画像就非常重要。

App数据长啥样

当前手机获取的App数据主要包括:App安装包名称、App中文名、App安装列表、App安装时间。

几种AppList处理方案

方案1:直接对应用分类

  1. 通过爬虫获取 应用商店的分类。
    常用的应用商店有: 小米 百度
  2. 对用户的app进行分类,统计每个类的个数作为特征,参与模型训练。

方案2: 对app聚簇

方案3: 使用word2vec 对app Embedding

这个方案是目前成本最低,同时使用效果最好的方案,相比之前的app分类,AUC从0.6 提升到了0.61,效果提升明显。


讯享网

把一个用户的 applist理解为一个sentense,把每一个app当成一个词, 调用gensim算法包中的word2vec,训练App的词向量。

  1. 过滤掉全民应用,也就是安装率大于50%的应用:‘微信’, ‘’, ‘拼多多’, ‘抖音短视频’, ‘支付宝’, ‘手机淘宝’, ‘百度’, ‘浏览器’, ‘腾讯视频’, ‘钉钉’。
  2. 过滤掉用户被动安装应用,也就是系统预安装应用,根据手机厂商统计,安装率大于80%的。
  3. 考虑到applist是无序的,并且word2vec也是无序的,因此只需要将window 设置足够大 window = 50 (实际情况中applist不可能大于100),就可以保证学习到所有的app关系。
  4. 设置 min_count =100 ,过滤掉低频应用。
  5. 考虑到app词库不会太多,根据公式size > 8.33logn (n 为词表长度) 设置size = 100
    得到所有app的一个向量表 n
    100 维的。

使用时,获取一个用户安装所有app列表,比如这个用户安装了20个app,取出这20个 app的向量表 20* 128。对这个向量做平均池化处理,得到1 * 128的一个特征表。就可以直接在自己的模型里面使用了。

方案4: 使用app2vec 对app Embedding

参考文档:

app使用的几种方式:
https://zhuanlan.zhihu.com/p/
word2vec入门方法:
https://rare-technologies.com/word2vec-tutorial
word2vec深入说明:
https://www.jianshu.com/p/d6a0aec6e9a1

小讯
上一篇 2025-01-29 14:31
下一篇 2025-01-06 16:15

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/59100.html