发布于 

页面停留时长的处理

埋点日志中对于页面停留时长的处理。

页面访问时长为右偏分布(均值在高峰的右侧),对这种分布来说,总是有均值 > 中位数 > 众数,从这个角度上来讲,如果想用一个数字来了解这种偏态分布的大体状况,中位数可能比均值具有更大的参考价值。

使用时不能简单的看均值,应当参考中位数和众数。且由于埋点方案的固有缺陷,会产生一定比例的异常值,所以需要通过一定的统计学方式进行处理。

为计算更加合理的均值,这里提供2种方案:

1.采用Q3+1.5(Q3-Q1)排除异常大值

2.将异常大值使用中位数替换

3.凭经验,将大于1000s的单次访问行为替换为中位数,进行计算

4.类比于去除最小值,去除最大值,计算平均值的方法,去除前10%,后10%时长的pv行为,再计算平均值,即取截尾平均值,改计算方法能够很好的消除极端值对算术平均数的影响,建议用该种方式。