项目技术点总结之:用户消费行为分析

一、数据载入

  1. 如果原始数据中不包含表头,可以在数据载入的时候定义好赋值;

  2. txt/csv文件中既有空格又有制表符('\t'),sep参数可以用 '\s+',用于匹配任意空白符。

 

二、数据清洗

  1. pd.to_datetime(df['order_dt'],format='%Y%m%d'):对某个属性做日期类型转换时,用参数指定格式:format='%Y%m%d'

  2. 线型图一般用于观测某种趋势;

  3. nunique():返回唯一值的个数,n代表number;

  4. 透视表(pivot_table):当只观察一个属性的趋势时,可以单独统计,如果需要观察多个属性的趋势,则可以使用透视表统一操作,用得到的数据绘图。

 

三、用户个体消费数据分析

  1. 散点图(kind=scatter):通常能观察到某两个属性间的关系(如线性关系),离散程度等;

  2. 直方图(kind=hist):直方图可以配合面元化数据,观察某个属性在各个区间之间出现的频率;

  3. cumsum() :滚动累加求和。

 

四、用户消费行为分析

  1. 首购(用户第一次消费):首购在很多行业中是非常重要的一个维度,它和渠道信息息息相关,尤其针对客单价比较高而留存率却比较低的行业,

                 通过分析客户第一次消费从哪里来,可以拓展出很多运营方式;

  2. DataFrame.agg():聚合函数,默认在行上对属性聚合;

  3. -(rfm.order_dt - rfm.order_dt.max())时间类型数据运算结果为时间类型,将时间格式转化为整数或者浮点数的形式可以如下操作:

    -(rfm['order_dt'] - rfm['order_dt'].max()) / np.timedelta64(1,'D');


  4. np.shift()函数:下一行减上一行的值;

  5. DataFrame.applymap():对每个单元格执行指定函数的操作,一般使用lambda匿名函数;

  6. 对数据进行聚合函数操作时(如sum、count等),计算时都会忽略掉NaN。

posted @ 2020-08-30 21:02  安和桥的鸽子  阅读(218)  评论(0编辑  收藏  举报