一淘网站 淘宝1

一淘网站 淘宝1导语:Yitao.com是阿里巴巴集团旗下的推广导购平台,成立于2010年。基于阿里巴巴集团丰富的商品基础,如淘宝、天猫、朱非等,Amoy.com通过返利、红包、优惠券等丰富的促销福利为用户提供高性…

大家好,我是讯享网,大家多多关注。

导语:Yitao.com是阿里巴巴集团旗下的推广导购平台,成立于2010年。基于阿里巴巴集团丰富的商品基础,如淘宝、天猫、朱非等,Amoy.com通过返利、红包、优惠券等丰富的促销福利为用户提供高性价比的购物体验。是用户不可或缺的网购工具。

本文来自陶艺产品和技术的原创分享内容,是内容梳理+自己的一些评论。(评论为紫)本文在分析商品品类预测难点的基础上,推导出一系列商品品类预测的框架和实现,同时提出了商品品类预测推进的设想。适合做搜索,搜索优化,想了解一些商品品类预测的同学。

背景

1.淘宝商品类目预测:是指计算机利用算法将外网上的商品归类到淘宝后台类目结构中相应类目的过程。

在Taobao.com,品类预测业务的应用点,外网上的产品(淘宝以外的电商网站,如苏宁、当当等。)都是通过蜘蛛/饲料获得的。在获得这些商品的基本信息(标题、面包屑、属性描述)后,每个商品都需要链接到淘宝后台类目,作为搜索中商品类目导航、各维度统计、产品库建设的基础。

Ps:面包屑的意思是“衣服-男装-裤子”,和这几类的意思差不多。底部会有一些具体的术语和名词。

干货

(1)预测淘货品类的困难

淘品类预测的难点主要体现在以下几个方面:

(1)大量的类别

淘宝的产品品类是现有电商中最全的(阿里的电商产品库是目前国内最全的,一个都没有)。基本涵盖了各种产品,从大家熟知的彩电、冰箱,到一个小群体需要的蚊拍,应有尽有,品类繁多,大大增加了分类空,增加了分类问题的复杂程度。

不同的类别有不同的类别级别。有的类目只有一个类目,比如手机,有的类目有多层次的类目结构,比如“书籍/杂志/报纸->:计算机/网络->:编程->: C”,层次越深,需要分类的计算量越大。

(2)分类空不同。

不同类别的叶类数量不同。

有些类目的叶子类目数目较少,如“箱包皮具/女包/男包”只有3个叶子类目;有些类目的叶子类目数目很多,如“运动/瑜伽/健身/球迷用品”有800+叶子类目,叶子类目越多,这些叶子类目之间区分度越小,分类越难。(可以理解是空间越窄,越难摆放商品,从而越难“寻找定位”搜索)

(3)不同的类别有不同的分类难度。

比如包包皮具/热销女包/男包类,只包括包包、钱包卡套、行李箱。这三个品类非常好区分,但是像电视机这种品类有五叶品类:LCD液晶电视、等离子电视、LED电视、3D电视等等。

(不同类别商品的“固有属性”存在天然的分类差异)

(4)商品名称的内容多样。

有些商品标题非常容易归类,比如“2012时尚雪纺连衣裙”,包含唯一的产品词“连衣裙”;有的包含多个产品词或品类词,如“飞利浦电视47PFL3609/93儿童锁+家长控制/睡眠定时器”,还有更复杂的标题,如标题包含易混淆的品类词或赠品等产品词,如“正品美系儿童休闲裙4T包含短裤”,既包含“短裙”,也包含“短裤”,这两种产品是不同的。

这些情况需要不同的算法策略。淘宝基本上包含了现实世界的各种商品。从语言上看,这些商品包括中文、英文、繁体,有些标题包含明显的类别特征,如类别词、产品词等。也有商品的品类基本不能通过标题和商品描述来判断。我们对不同语言和不同类型的商品采用不同的分类算法。(根据类别采用不同的分类算法,可以结合开发一起研究下面类别的特点来制定。这些算法后面会提到。)

(2)实现淘货品类的方法

主要分类算法和策略:

表示向量法、最大熵、SVM二叉分类法、直接关键词匹配等。

但首先需要处理的是语言识别,识别商品的语言,确定海外购商品(英文)、繁体(繁体转简体)、简体商品,针对不同的语言采取不同的处理策略。

(1)SVM分类法

主要商品是书吗?

这种书很特别。从这类商品的标题来看,书籍的内容包罗万象,标题包罗万象。甚至人们如果仅仅从标题来判断也无法正确区分,比如《毛衣编织方法大全》、《洗衣机维修手册》。这些都是标题,但是很有可能仅仅通过标题就归类为“毛衣”和“洗衣机”。好在每本书都有“图书批号ISBN”、“出版社”、“出版时间”等明显的信息。使用SVM二分法将首先确定一件商品是否是一本书。(该信息是该算法的特征因子)

(2)表示向量分类

该方法描述了一个特征对一个类别的表示能力。

假设A是一个范畴,B是这个范畴的下一个范畴,特征F表示B范畴的能力定义为F在B中的密度与B补的密度之差(A-B)。

b中特征f密度Pb(f )= b中包含特征f的样本数/b中样本总数,

A-B PA-B中的密度F(F)=(A-B)包括F的样本数/B总样本数。F表征B WB(f)=1-PA-B(f)/PB(f)的能力对于取值范围小于0的部分取0。越接近1,F代表b的能力越强,用表示向量的方法预测商品类别是S(i)=Sum(Wi(f)),F是从商品中提取的特征,可以使词unigran和Bigram特征。特征可以来自商品标题,也可以来自商品面包屑和一些属性区文本(如描述等。).

简单理解,就是可以在不同的“层次和路径类别”下判断商品的符合性。

(3)最大熵方法

表示向量法类似于最大似然估计法。其训练和分类过程简单快速。这个表示知识你可以从淘宝的所有商品中学习。

但这是一种经验直观的分类方法,缺乏计算特征对类别的表示能力的必要理论基础(这和AI、搜索的知识图谱是一样的,可以从业务能力和专业的角度来构建。),而且很难解决来自多个不同来源的知识融合问题。

为了进一步提高分类效果,引入了最大熵方法。

最大熵方法不仅有完整的理论基础,而且可以整合不同来源的知识。对于面向业务的问题是很好的应用场景(业务问题往往会积累各种知识)。

在最大熵模型中,以下特征有助于分类:

常用词汇:词语往往描述商品的类别和属性。

类别词/产品词:这些词基本可以直接判断商品的类别。

年龄词:对性别相关的类目(男装、女装、男鞋、女鞋)和年龄相关的类目(童装、童装、孕妇装)很有帮助。

品牌词、型号词、系列词、货号词:有助于一些著名品牌的3C分类和商品分类。

停用词:去掉一些无用的标点符号、服务词、推广词等。

这些特征有的直接从商品的标题和面包屑中提取,有的则需要从商品的属性或描述中提取。

以上特征是直接从商品中获得的,有些知识可以从其他渠道获得。

比如商品聚类知识:商品分类是有指导的机器学习和预测过程。

商品集群是一个无指导的过程。通过聚类,可以将类别相似的商品聚集在一起。每种商品所处的聚类可以作为外部知识源,倾向于将具有相同聚类的商品归属于同一类别。

(聚类是一种非常常见和有用的方法,在推荐、数据挖掘、AI等方面都有使用。)

例如,查询的类别知识也可以作为外部知识源。

在搜索系统中,查询类别的知识往往可以通过统计用户对查询召回的产品的点击数据来获得。通过计算产品是否包含一些查询或与这些查询的相似度,有助于预测产品的类别,尤其是对于那些标题较短的产品。

(即根据搜索关键词进行预测)

与表示向量法相比,最大熵法的优势不言而喻,分类效果大大提高。与表示向量法相比,一等品类往往提高10个百分点以上。但是,模特训练往往需要很长时间。训练一个50级的分类器和一台计算能力非常强的机器(24G)往往需要24小时。

另外,最大的问题是不能充分利用淘宝内网数据的力量。目前,我们主要采用全局采样的策略来解决这个问题。抽样得到的训练样本的分布合理性直接决定了分类效果。

(4)直接关键词匹配

对于某些品类的商品,淘宝历史上很少有的产品,比如针对海外卖家的英文产品,医药产品等。前者是去年开始抓取的产品数据,后者是2012年国家才允许电商卖药的产品,所以产品很少,无法简单用模型进行统计学习。为此,我们采用关键词直击的方法来解决这些小众产品的叶类分类问题。(货少仓储少的时候,可以考虑用这个策略)

(5)高级类别预测

1.在模型中引入先验知识,将类别的品牌、货号、型号、系列等先验知识融入预测模型,改善训练样本分布不合理带来的问题;

(即如果有正确的训练集,最好有更全面的数据训练集,训练出来的模型会更容易使用)

2.基于误差驱动采样技术解决训练样本分布不合理的问题;

3.查询品类预测知识辅助商品品类预测。有些商品用短标题,用;

4.基于模型的预测效果较差,而使用查询类别来预测知识会有较好的效果。通过计算标题和查询之间的相似度,使用相似的查询类别来拟合商品的类别。

5.利用商品的聚类特性来提高品类预测。

PS:名词解释

面包屑:网上对商品的品类等级描述,如“服装鞋帽->:男装->: Polo衫”

类别:淘宝后台类别结构中的最后一个类别,如“书籍/杂志/报纸->:计算机/网络->:编程->: C”,“C语言”是“书籍/杂志/报纸”类别下的一个叶子类别。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。
本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://51itzy.com/17809.html
(0)
上一篇 2022年 11月 16日 17:51
下一篇 2022年 11月 16日 18:15

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注