pandas基础操作笔记

记录下常用的pandas的操作代码。

发布于 python

数学之美读书笔记

大学时代读了吴军的浪潮之巅,我第一次了解了互联网行业的发展,硅谷传奇公司的发展,唤起了我对互联网行业的兴趣,此后经历了移动互联网的快速发展,并最终投身于大数据行业,此时读数学之美,希望这本书能重新唤起我对数学的兴趣,能让我在数据挖掘方向走的更远一些。

发布于 读书笔记

流程图及架构图画法

流程图是符号化的图形语言,有自己的规范,这里转载processon关于流程图规范画法的文章。

发布于 skill

K-means进行用户分层

RFM作为经典的用户分层模型,做用户分层确实非常合适,但是我看到大部分的文章仅仅只是介绍如何使用RFM做用户分层,却没有介绍最重要的一点,如何划分分界点,这里使用聚类算法对RFM指标进行分类。

发布于 机器学习

机器学习之KNN算法

简单的机器学习算法K-近邻算法,即KNN算法。

发布于 机器学习

阿里巴巴大数据实践读书笔记

说是读书笔记,其实就是拆书,这本书全是干货,这里把一些重点的内容单独摘取出来,既是学习,也是对整个数据知识体系的梳理。

发布于 数据驱动

维度建模

在数据驱动四步骤中,数据采集之后的步骤便是数据建模,值得注意的是,这里的数据建模我个人理解便是数仓建设理论中的维度建模,通过维度建模来组织数据流,即这一步就是搭建数仓的过程。

发布于 数据驱动

构建数据指标体系

为什么要构建数据指标体系?因为我们希望时间能花在解决问题而不是寻找问题上。 指标体系衡量效果:当战略指标出现问题之后能否一眼找到问题点。

发布于 数据驱动

机器学习的结果评价

机器学习中的结果评价。

发布于 机器学习

oneid构建

仅凭userid并不能准确地标识所有的用户,再加上埋点框架的固有缺陷,无法做到统一用户身份识别,故需要构建oneid体系,对同一用户赋予相同的oneid。这也是在构建数仓之时的第一步,由于自身数据埋点框架的特点,我们并不能像第三方sdk一样一开始就对同一个用户做到oneid标识,目前阶段需要在已有埋点日志的基础上通过一定的逻辑构建出oneid。

发布于 数据驱动