基于品友数据集的实时竞价(RTB)基准系统

基于品友数据集的实时竞价(RTB)基准系统摘要 作为视觉广告的新宠 实时竞价系统 RTB Real Time Bidding 从广告内容到用户偏好等方面来优化实时计算广告的竞价策略 因此数据挖掘的工作 尤其是竞价策略的改进对这类由效果驱动的业务非常关键 但是一直以来 广告计算领域的研究人员都缺少公开的基准数据集 因此无法对不同的系统和算法进行比较 值得庆幸的是 作为中国广告计算领域的 Top 公司 品友

大家好,我是讯享网,很高兴认识大家。

摘要

作为视觉广告的新宠, 实时竞价系统(RTB Real-Time Bidding)从广告内容到用户偏好等方面来优化实时计算广告的竞价策略.因此数据挖掘的工作,尤其是竞价策略的改进对这类由效果驱动的业务非常关键. 但是一直以来, 广告计算领域的研究人员都缺少公开的基准数据集, 因此无法对不同的系统和算法进行比较. 值得庆幸的是, 作为中国广告计算领域的Top公司—品友, 决定公开其在2013年RTB算法竞赛的数据集. 该数据集由广告拍卖、竞价、曝光、点击和最后的转化日志组成.这些日志反映了市场的环境, 同时从广告主的角度对用户进行了全链路的反馈. 这份数据集可直接用于一些重要的研究课题的实验, 例如竞价优化和CTR预估.据我们所知, 这是视觉广告领域首次公开的数据集. 因此其对于复现研究过程和理解RTB生态系统都非常的有价值.在本篇文章中, 我们首先对这份数据集进行详细分析. 然后我们引入竞价优化的研究问题以及简单但全面的评估框架.此外,我们展开了一系列的基准测试, 包括点击率(CTR)预估和竞价优化.

关键词

基准数据集, 实时竞价, CTR预估, DSP(Demand-Side Platform)

1. 背景介绍

自2009年起, RTB成为了视觉广告行业的新宠.例如, eMarketer 预估美国2013年在RTB的花费增长了73%,占整个视觉广告行业的19%.与传统的针对每场广告活动或关键词进行协商和预设竞价的方式不同,RTB允许广告主对每次独立的广告曝光机会进行竞价.图1简要的展示了RTB生态中主要部分的交互过程.当用户访问嵌入了广告的平台时,每次广告的投放都会触发一次竞拍.竞标请求会通过广告交换系统传递到广告主的购买系统,通常指需求侧系统(DSP).根据接收到的竞标请求,DSP系统会在对内部所有竞标进行评估后计算一个竞价作为回应.一次拍卖将在每个中介(广告网络、广告交易平台等)进行,最后在发布商的系统中进行。最后,赢家的广告将随着网站的常规内容一同展示给访问用户.众所周知,较长的页面加载会极大的减少用户的体验满意度,因此,DSP系统通常被要求在非常短的时间窗口(如 100ms)返回竞价.
和传统的渠道相比,接入DSP系统的算法预计会带来更高的投资回报(ROI).对于这些算法来说, 在给定广告内容和用户维度的行为数据的情况下, 快速为一次广告曝光给出是否竞价和竞价价格的决策能力变得非常重要.考虑到DSP系统通常需要日均接受亿级的竞标请求,DSP系统的实时性保障很明显也成为了一项工程挑战.
图1
讯享网
尽管RTB系统很流行,但是迄今为止广告科技公司之间主要的研究活动仍然有限.对于学术界的研究人员而言,获取这些敏感且高度保护几乎不可能.幸运的是品友在2013年举办了一场分为3个赛季的RTB算法竞赛.正如3.1部分将要讨论的,这个比赛的任务聚焦于DSP系统的竞价策略:在有限的预算和时间内开发竞价策略以实现竞标者KPI的最大化.我们称这种任务为DSP竞标优化问题.在2014年3月,用于这项为期3个赛季竞赛的数据集(约35G)作为研究的目的被公开.就我们所知,这是RTB领域的第一个大规模真实数据集.我们相信它将激起RTB研究界的兴趣并推动整个数据科学社区有关DSP竞价优化算法的发展,并进一步的加速RTB可视化广告行业的发展.
本文我们首先对这份数据集进行详细的统计学分析.然后我们规范的阐述了DSP竞价优化问题和与它有关的简单却全面的评估框架.最后我们展示了与竞价策略和点击率(CTR)优化模型有关的基准实验结果.

2. iPinYou RTB数据集

2.1 iPinYou DSP平台

iPinYou信息科技公司成立于2008年并且目前是中国最大的DSP服务商, 总部在北京并且在上海,广州和硅谷设有办公地点.iPinYou建设了世界级的RTB技术和算法,私有云计算平台和专利保护的用户画像技术.它为IT,金融服务,自动化,快销品,运输,电子商务,游戏和其他行业的1000+品牌提供了服务.它还显著的提高了广告效果并增强了国内主流媒体和私人交易所的合作伙伴关系.它是基于用户的编程广告技术的领先供应商.

2.2 数据格式

在iPinYou数据集中包含四种不同形式的日志:竞价,曝光,点击和转化.这些日志被整理为按行存储的格式.
表1展示了广告日志中每行的特点描述和数据样例.总体来说,每个记录包含3种信息:(i)拍卖和广告特征(除了第3, 20和21列之外的所有列).这些特征被发送到竞价引擎以获得一个竞价反馈.(ii)拍卖中标价(第21列),例如,竞标者之间的最高出价.如果竞价引擎反馈了一个竞价高于拍卖的中标价,这个DSP系统将赢得这次拍卖并且得到广告的曝光.(iii)用户在广告曝光之后点击和转化的反馈(第3列),如果DSP赢得了拍卖,用户对这次广告曝光的反馈可以被查到以更新DSP的表现.
需要注意的是所有和金额有关的数字(例如, 竞价,支付价格和最低价)使用人民币为货币并且以分*1000为单位,应用于主流的展现成本(CPM cost-per-mille)价格模型.但是在我们分析中计算的数字(如 成本,平均CPM 和 有效的单次点击成本)并没有乘1000.
表1
在表1中我们想要给出某些列更详细的描述如下:
(c01)竞标ID作为所有日志事件的唯一标示并且可以用来join出价,曝光,点击和转化的日志数据.
(c02)此列数据的格式为yyyyMMddHHmmssSSS.
(c03)可能的取值包括:1(曝光),2(点击)和3(转化).
(c04)iPinYou内部用户id.
(c05)此列描述设备,操作系统和用户浏览器.
(c10)广告位在托管网页的领域,取值已被hash.
(c11)广告位在托管网页的URL,取值已被hash.
(c12)当URL不能直接被DSP获取(如 被广告私人交易所加密)时该列会被使用.其取值由广告私人交易所提供.对于一条记录,URL或者匿名URL ID是有意义的.
(c16)此列表述广告位是否是第一屏(“FirstView”)或不是(第二屏到第10屏 (“SecondView” to “TenthView”)), 或未知(“Na”).
(c17)可能的取值包括“Fixed”(固定尺寸和位置),“Pop”(顶屏),“Background”,“Float”和“Na”来表示位置情况.
(c18)广告位的最低价或保留价,比最低价还低的竞标不会赢得拍卖.此列进行了线性的标准化.
(c20)iPinYou对于本次拍卖的竞价.
(c21)支付价格是所有竞拍者中的最高竞价,也被称为市场价和拍卖中标价.如果竞价比拍卖中标价还高,这条记录将在曝光日志中出现.
(c24)用户标签来源于iPinYou的私有化用户数据库.本数据集中仅包含部分用户标签.

2.3 基本统计数据

广告主和他们的商业目录于表2中进行了总结.注意在第一赛季中广告主的ID没有给出.广告主的多样性使这份数据集更加有趣.正如我们稍后将在文章中展示的,不同领域的广告在用户反馈行为上有着明显的差异.
表2
基础的统计信息列举如表3.需要特别注意的是,“Win Ratio”列是相对于iPinYou的默认竞价策略的广告拍卖胜率.转化率(CVR)是相对于广告的点击而不是曝光.注意在原始的记录中,对于单次曝光会有多次点击.但是我们的分析将重复的点击进行了去重以便聚焦于事件本身(用户是否会点击或转化, 或者什么都没有).
表3

从表3中我们可以看到(i)除了广告主1997的CTR为0.444%外, 所有的广告主CTR都小于0.1%.注意0.1%通常为实践中桌面广告的平均CTR水平.广告主1997的高CTR确认了移动环境下的点击率差异,在移动端的环境里更有可能产生通常所说的误触发效应;(ii)虽然9个广告主有着相似的CPM,但是他们的单次有效点击成本(eCPC), 例如 单词广告点击的期望成本, 有着很大的不同.这个可能是由目标规则(如 目标群体的人口统计信息, 位置和时间)的设定和单个广告主的市场导致的;(iii)一些广告主没有记录转化情况.即使是哪些报告里转化的广告主,他们的CVR也有很大差异,这也可能是由不同的市场和转化设定导致的.在测试数据的表中,每个广告主有一个转化权重系数,用N表示.它表示对于每个广告主一次转化相对于一次点击的相对重要程度.例如,广告主3476的转化权重系数(tire, N=10)比广告主2259(milk powder, N=1)要高出很多.

2.4 用户反馈

图2表明了用户对广告主1458和3358的某些反馈统计数据,需要特别注意的是, 这里使用CTR的平均值和标准差对应其余的特征,如时间,地理位置,用户代理,平台方广告位尺寸,广告交易平台和用户标签.
图2
从图2中我们可以看到对于不同的广告主,相同的特征可以对CTR有不同的影响:
(I)广告主1458在周一和周末有着最高的CTR,但是广告主3358是在周二和周三.
(II)移动端用户(Android或iOS设备)更可能点击1458广告主的广告,PC用户(Mac和Windows设备)更倾向于点击广告主3358的广告.
(III)两个广告主广告的CTR都随着地区的不同而变化,并且他们的趋势是不同的.
(IV)广告位的尺寸和广告位在网页的位置和设计有关.我们可以看到banner(10090)和标准广告位(300250)对于两位广告主通常都有着更高的CTR.
(V)广告交易平台要求出价并主持拍卖.不同的出版商(或他们的供给侧平台,如SSP)连接不同的交易平台,因此这些交易平台的CTR也不同.
(VI)CTR对不同用户标签的分布在对数坐标系下表现出来,因为他们之间的差异很大.例如,垂直电子商务广告主1458可以在用户标签为38(相关市场/服装,鞋&包)的用户上取得30%的CTR但是对于其余用户CTR仅为0.1%.同样的变化在广告主3358也有体现.这体现了用户细分标签对于预测他们对具体的广告活动响应的作用.因此,广告主可以结合不同细分标签用户对广告的表现来完善他们的目标规则和竞价策略.这种用户细分数据也可由第三方数据管理平台(DMP)或DSP提供.
小结,上述分析表明用户的响应模型需要结合每个广告主单独的训练.这需要一些关键的工作来参考其余相似广告主的数据以便提高预测效果.此外,广告主也可能不允许DSP使用他们的数据来帮助其余广告主.

2.5 竞价行为

在第二次价格拍卖中,第二高的竞价被定义为赢家的市场价格.如果他的竞价比市场价还高,此广告主赢得这次拍卖并且支付市场价.市场价常常使用随机变量来模拟因为分析数以千计的拍卖参与者的每一个策略是不可行的.更高的市场价反映了更具竞争力的市场环境.
这里我们从DSP的角度对1458和3358广澳主的市场价进行了调查.市场价的均值和标准差与不同特征的关系表现在图3中,我们可以看到就像CTR情况,两个广告主对于同一个特征的市场价有着不同的趋势.例如,广告主1458在上午的竞价相比下午和晚上更具竞争力, 而广告主3358的情况刚好相反.此外,对于广告主1458在交易平台1的竞价比在交易平台2和3的竞价更有竞争力, 然而对于广告主3358,交易平台2是最有竞争力的一个.
比较单个特征下市场价和CTR的分布我们发现市场价的方差和均值的比例较CTR更低,这主要是由于点击数据是二进制值而市场价是整数值.
图3

2.6 eCPC

小讯
上一篇 2025-03-05 23:10
下一篇 2025-02-15 18:31

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/56120.html