发布于 

埋点管理平台

如何从源头上把控数据质量?最核心的一个点,我们遇到的埋点问题大概率不是技术问题,而是管理和规范问题,so,如何从规范出发,来解决数据获取的准确性和合理性问题?

一、数据来源

首先是数据来源,常规而言,互联网行业的数据采集主要包括3个方面的数据:

  • 前端埋点
  • 后端日志
  • 业务库数据

埋点不仅仅要包含前端的用户行为埋点,也要包含后端的日志埋点,前后端日志经由埋点框架统一收口,定义数据格式及类型。

二、数据格式

埋点采集的基本都是用户的行为,业界主要采用事件模型进行数据的采集及分析。

通过事件模型,我们可以这样来描述用户的一次行为:

那么在埋点的数据格式设计时,也应当遵循4W1H框架,主要设计字段如下:

who:uuid、userid,uuid是设备id,userid是登陆用户id

when:time,当前发生的事件

where:url,当前页面路径

what:event,代表当前的用户事件,比如访问、加购物车

How:ext,将一些与事件关联的其他属性统一放置在这个字段里,下游使用时依据埋点文档选择指定参数使用。

比如用户访问商品详情页的埋点的埋点数据应当就是以下类型:

1
2
3
4
5
6
7
8
9
10
11
{
"uuid":"xxxxx",
"userid":1234567,
"time":1500000000,
"url":"www.baidu.com",
"event":"visit",
"ext":{
"itemid":10987663,
"item_type":"cat"
}
}

三、埋点顺序

正常的埋点顺序:改版需求,数据需求,根据数据需求推埋点,埋点校验,数据产出。

四、埋点平台设计

一个合理的埋点管理平台应当分为4个部分,

  • 事件设计
  • 埋点录入
  • 埋点校验
  • 埋点监测

1.事件设计

2.埋点录入

3.埋点校验

设计上遵循事件模型的设计,校验上通过json schema和json path来进行埋点的校验,全站监测通过自定义的校验规则对全平台的日志进行校验。从三个方面来进行数据质量的把控。

4.埋点监测

针对全站的埋点进行全部的监测,主要为了解决线上埋点质量的监控

五、总结