随笔分类 - Python数据分析
摘要:第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 在源数据中添
阅读全文
摘要:用户对于购买商品的行为分析案例 import pandas as pd from pandas import DataFrame,Series import numpy as np import matplotlib.pyplot as plt %matplotlib inline #数据量级达到一
阅读全文
摘要:加载购买商品表的数据 购买商品表字段信息: 用户ID 商品ID 商品二级分类 商品一级分类 商品属性 购买数量 购买日期 import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom pandas import Se
阅读全文
摘要:plt.plot()绘制线性图 绘制单条线形图 绘制多条线形图 设置坐标系的比例plt.figure(figsize=(a,b)) 设置图例legend() 设置轴的标识 图例保存 fig = plt.figure() plt.plot(x,y) figure.savefig() 曲线的样式和风格(
阅读全文
摘要:替换操作 替换操作可以同步作用于Series和DataFrame中 单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e' 按列指定单值替换: to_replace={列标签:替换值} value='value' 多值替换 列表替换: to_replace=[]
阅读全文
摘要:人口分析案例 需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从
阅读全文
摘要:级联操作 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: objs axis=0 keys join='outer' / 'inner':表示的是级联的方式,outer会将所有的项进行级联(忽略匹配和不匹配
阅读全文
摘要:处理丢失数据 有两种丢失数据: None np.nan(NaN) 两种丢失数据的区别 type(None) NoneType type(np.nan) float 为什么在数据分析中需要用到的是浮点类型的空而不是对象类型? 数据分析中会常常使用某些形式的运算来处理原始数据,如果原数数据中的空值为NA
阅读全文
摘要:数据分析三剑客 numpy pandas(重点) matplotlib 重点: numpy数组的创建 numpy索引和切片 级联 变形 矩阵的乘法和转置 常见的聚合函数+统计 numpy的创建 使用np.array()创建 使用plt创建 使用np的routines函数创建 使用array()创建一
阅读全文
浙公网安备 33010602011771号