2025年数据监控和自动化数据测试工具beeper

数据监控和自动化数据测试工具beeper数据部数据质量预警与自动化数据测试工具 github https github com gangly beeper 一 Beeper 产生原因 Beeper 就是当年的 BP 机 能发出哔哔的声音 也有通知 报警器的意思 这里用来作为数据质量预警工具的别名 作为数据开发

大家好,我是讯享网,很高兴认识大家。

数据部数据质量预警与自动化数据测试工具

github: https://github.com/gangly/beeper

一、Beeper产生原因

Beeper就是当年的BP机,能发出哔哔的声音,也有通知、报警器的意思,这里用来作为数据质量预警工具的别名。作为数据开发,多数情况下需要每天自动检查数据质量是否有问题,有以下几方面需要关注:

  • 每天是否有数据,在检查时间点是否按时产出了数据
  • 数据是否完整,例如流量的各个渠道是否都有数据
  • 是否有脏数据,数据加工错误导致产出了脏数据
  • 数据波动是否正常,某些维度上的指标相对前段时间是否在合理范围内
    针对上面几种情况,Beeper能满足预警功能。

二、Beeper工作原理

Beeper是用python2.7开发,因为要监控大数据平台上的hive数据,需要用azkaban进行任务调度。
Beeper是基于即时查询hive实现,这就要工程师预先写好hql并配置好预警规则。
目前beeper支持mysql, hive, presto查询

架构图
讯享网

  1. Beeper读取jobconfs目录下文件,一个配置文件代表一个预警任务
  2. 配置解析器对配置进行解析,清洗出hql,预警检查规则等
  3. 数据查询收集器将hql通过hive客户端执行,将执行后的数据进行收集,清洗
  4. 将每条数据通过检查器进行检查判断,将风险数据进行打标(邮件显示为红色)
  5. 构造报警邮件内容,发送邮件

三、Beeper使用方法

3.1Beeper
3.2配置文件

用户只需要在jobconfs目录下按照一定格式编写配置文件,一个配置文件代表一个检查任务,
采用python风格,格式如下:
配置文件示例

{ 'author': 'ligangc', 'title': '流量异常检测报告', 'receivers': ['ligangc','tanjiquan'], 'head': ''' 昨日:$yesterday 差值:昨日uv-环比上周同日uv 波动百分比:差值/环比上周同日uv 数据变化报警阈值:uv差值绝对值大于5000并且波动变化绝对值大于10% ''', 'jobs': [ { 'desc': 'presto test', 'source': 'presto', 'sql': ''' select t1.pv, t2.pv from ( SELECT count(1) as pv FROM hive.bdc_dm.res_coreboard_employment) t1 join ( select count(1) as pv from mysql1.market.mk_task where createymd = date('2017-09-10') ) t2 on 1=1 ''', 'headers': ['pv量1', 'pv量2'], 'check': 'pv量1 != pv量2', }, { 'desc': 'market test', 'source': 'mysql:market', 'sql': ''' select count(1) as pv from market.mk_task where createymd ='2017-09-10' ''', 'headers': ['pv量'], 'check': 'pv量 >= 5', }, { 'desc': 'clickweb流量异常检查', 'source': 'hive', 'hql': ''' SELECT t1.channel1 as channel, t1.uv as t1uv, t2.uv as t2uv, (t2.uv-t1.uv) as diff, (1.00*(t2.uv-t1.uv)/t1.uv) as cent from ( SELECT channel1,count(distinct uniqid) as uv from bdc_dwd.dw_fact_galog_pv_daily where acct_day='$lastweekyesday' group by channel1 )t1 join ( SELECT channel1,count(distinct uniqid) as uv from bdc_dwd.dw_fact_galog_pv_daily where acct_day='$yesterday' group by channel1 ) t2 on t1.channel1=t2.channel1; ''', 'headers': ['渠道', '环比上周同日uv', '昨日uv', 'uv差值', '波动百分比'], 'percent': ['波动百分比'], 'check': 'uv差值 >= 5000 and 波动百分比 >= 0.1', }, ] } 

讯享网

发出的报警邮件内容如下:

邮件内容

下面依次解析配置文件内容:

字段名 是否必须 描述 备注
author 任务编写者 可不写
title 报警邮件标题
receivers 邮件接收者列表 不需要填邮箱后缀,beeper会自动添加后缀
head 邮件前置描述信息
jobs 查询表配置信息列表 每个查询会在邮件中形成一个表格,可添加多个查询
desc 查询描述
hql sql表达式 会替换掉里面的日期标志
headers 表头信息,在邮件中展示 必须与hql中查询出来的字段一一对应
percent 需要显示为百分比 值必须为headers中的值,百分比保留两位小数
check 预警检测表达式 必须为headers中的值,关联逻辑目前支持 and, or
source 数据源类型 目前只支持hive/mysql/presto; mysql格式, mysl:数据库名

其中日期标记,Beeper计算出具体日期后将其自自动替换掉,其中支持的日期类型有:

日期标记 描述 示例
$today 今日日期 2017-09-08
$yesterday 昨日日期 2017-09-07
$beforeyesday 前日日期 2017-08-06
$lastweekday 今日上周同日日期 2017-08-31
$lastweekyesday 昨日上周同日日期 2017-09-30
$day_today 今日日期(天) 08
$day_yesterday 昨日日期(天) 07
$day_beforeyesday 前日日期(天) 06
$day_lastweekday 今日上周同日日期(天) 31
$day_lastweekyesday 昨日上周同日日期(天) 30
3.3 使用方法

2)自动化测试:将要测试的sql放在lib/autotests目录下,运行autotest.job

小讯
上一篇 2025-03-31 11:40
下一篇 2025-04-05 21:52

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/60149.html