项目技术点总结之:用户消费行为分析
一、数据载入
1. 如果原始数据中不包含表头,可以在数据载入的时候定义好赋值;
2. txt/csv文件中既有空格又有制表符('\t'),sep参数可以用 '\s+',用于匹配任意空白符。
二、数据清洗
1. pd.to_datetime(df['order_dt'],format='%Y%m%d'):对某个属性做日期类型转换时,用参数指定格式:format='%Y%m%d';
2. 线型图一般用于观测某种趋势;
3. nunique():返回唯一值的个数,n代表number;
4. 透视表(pivot_table):当只观察一个属性的趋势时,可以单独统计,如果需要观察多个属性的趋势,则可以使用透视表统一操作,用得到的数据绘图。
三、用户个体消费数据分析
1. 散点图(kind=scatter):通常能观察到某两个属性间的关系(如线性关系),离散程度等;
2. 直方图(kind=hist):直方图可以配合面元化数据,观察某个属性在各个区间之间出现的频率;
3. cumsum() :滚动累加求和。
四、用户消费行为分析
1. 首购(用户第一次消费):首购在很多行业中是非常重要的一个维度,它和渠道信息息息相关,尤其针对客单价比较高而留存率却比较低的行业,
通过分析客户第一次消费从哪里来,可以拓展出很多运营方式;
2. DataFrame.agg():聚合函数,默认在行上对属性聚合;
3. -(rfm.order_dt - rfm.order_dt.max())时间类型数据运算结果为时间类型,将时间格式转化为整数或者浮点数的形式可以如下操作:
-(rfm['order_dt'] - rfm['order_dt'].max()) / np.timedelta64(1,'D');
4. np.shift()函数:下一行减上一行的值;
5. DataFrame.applymap():对每个单元格执行指定函数的操作,一般使用lambda匿名函数;
6. 对数据进行聚合函数操作时(如sum、count等),计算时都会忽略掉NaN。