随笔分类 -  Python数据分析

摘要:第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 在源数据中添 阅读全文
posted @ 2020-07-18 13:56 闲酒肆中听风吟 阅读(1355) 评论(0) 推荐(0)
摘要:用户对于购买商品的行为分析案例 import pandas as pd from pandas import DataFrame,Series import numpy as np import matplotlib.pyplot as plt %matplotlib inline #数据量级达到一 阅读全文
posted @ 2020-07-18 11:38 闲酒肆中听风吟 阅读(709) 评论(0) 推荐(0)
摘要:加载购买商品表的数据 购买商品表字段信息: 用户ID 商品ID 商品二级分类 商品一级分类 商品属性 购买数量 购买日期 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import Se 阅读全文
posted @ 2020-07-16 22:03 闲酒肆中听风吟 阅读(852) 评论(0) 推荐(0)
摘要:plt.plot()绘制线性图 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格( 阅读全文
posted @ 2020-07-15 22:08 闲酒肆中听风吟 阅读(203) 评论(0) 推荐(0)
摘要:替换操作 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to_replace=[] 阅读全文
posted @ 2020-07-15 21:49 闲酒肆中听风吟 阅读(487) 评论(0) 推荐(0)
摘要:人口分析案例 需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从 阅读全文
posted @ 2020-07-15 21:01 闲酒肆中听风吟 阅读(494) 评论(0) 推荐(0)
摘要:级联操作 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: objs axis=0 keys join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配 阅读全文
posted @ 2020-07-14 21:13 闲酒肆中听风吟 阅读(886) 评论(0) 推荐(0)
摘要:处理丢失数据 有两种丢失数据: None np.nan(NaN) 两种丢失数据的区别 type(None) NoneType type(np.nan) float 为什么在数据分析中需要用到的是浮点类型的空而不是对象类型? 数据分析中会常常使用某些形式的运算来处理原始数据,如果原数数据中的空值为NA 阅读全文
posted @ 2020-07-14 20:37 闲酒肆中听风吟 阅读(638) 评论(1) 推荐(0)
摘要:数据分析三剑客 numpy pandas(重点) matplotlib 重点: numpy数组的创建 numpy索引和切片 级联 变形 矩阵的乘法和转置 常见的聚合函数+统计 numpy的创建 使用np.array()创建 使用plt创建 使用np的routines函数创建 使用array()创建一 阅读全文
posted @ 2020-07-13 22:41 闲酒肆中听风吟 阅读(1109) 评论(0) 推荐(0)