项目技术点总结之：用户消费行为分析

一、数据载入

　　1. 如果原始数据中不包含表头，可以在数据载入的时候定义好赋值；

　　2. txt/csv文件中既有空格又有制表符('\t')，sep参数可以用 '\s+'，用于匹配任意空白符。

二、数据清洗

　　1. pd.to_datetime(df['order_dt'],format='%Y%m%d')：对某个属性做日期类型转换时，用参数指定格式：format='%Y%m%d'；

　　2. 线型图一般用于观测某种趋势；

　　3. nunique()：返回唯一值的个数，n代表number；

　　4. 透视表（pivot_table）:当只观察一个属性的趋势时，可以单独统计，如果需要观察多个属性的趋势，则可以使用透视表统一操作，用得到的数据绘图。

三、用户个体消费数据分析

　　1. 散点图（kind=scatter）:通常能观察到某两个属性间的关系（如线性关系），离散程度等；

　　2. 直方图（kind=hist）：直方图可以配合面元化数据，观察某个属性在各个区间之间出现的频率；

　　3. cumsum() ：滚动累加求和。

四、用户消费行为分析

　　1. 首购（用户第一次消费）：首购在很多行业中是非常重要的一个维度，它和渠道信息息息相关，尤其针对客单价比较高而留存率却比较低的行业，

　　　　　　　　　　　　　　通过分析客户第一次消费从哪里来，可以拓展出很多运营方式；

　　2. DataFrame.agg()：聚合函数，默认在行上对属性聚合；

　　3. -(rfm.order_dt - rfm.order_dt.max())时间类型数据运算结果为时间类型，将时间格式转化为整数或者浮点数的形式可以如下操作：

　　　　-(rfm['order_dt'] - rfm['order_dt'].max()) / np.timedelta64(1,'D')；

　　4. np.shift()函数：下一行减上一行的值；

　　5. DataFrame.applymap()：对每个单元格执行指定函数的操作，一般使用lambda匿名函数；

　　6. 对数据进行聚合函数操作时（如sum、count等），计算时都会忽略掉NaN。

posted @ 2020-08-30 21:02 安和桥的鸽子阅读(271) 评论(0) 收藏举报

刷新页面返回顶部