随笔分类 - Python 数据分析
摘要:第一部分:数据类型处理 数据加载 字段含义: user_id:用户ID order_dt:购买日期 order_product:购买产品的数量 order_amount:购买金额 观察数据 查看数据的数据类型 数据中是否存储在缺失值 将order_dt转换成时间类型 查看数据的统计描述 计算所有用户
阅读全文
摘要:需求 1.加载数据 2.查看数据的基本信息 3.指定数据截取,将如下字段的数据进行提取,其他数据舍弃 cand_nm :候选人姓名 contbr_nm : 捐赠人姓名 contbr_st :捐赠人所在州 contbr_employer : 捐赠人所在公司 contbr_occupation : 捐赠
阅读全文
摘要:第一章 Matplotlib 简介 Matplotlib 能够创建多数类型的图表,如条形图,散点图,条形图,饼图,堆叠图,3D 图和地图图表。 首先,为了实际使用 Matplotlib,我们需要安装它。 pip install matplotlib 一旦你安装了 Python,你就做好了准备,你可以
阅读全文
摘要:1、替换操作replace() 替换操作可以同步作用于Series和DataFrame中 df = DataFrame(data=np.random.randint(0,20,size=(5,6))) 1.1、单值替换 普通替换: 替换所有符合要求的元素:to_replace=15,value='e
阅读全文
摘要:需求: 1.导入文件,查看原始数据 2.将人口数据和各州简称数据进行合并 3.将合并的数据中重复的abbreviation列进行删除 4.查看存在缺失数据的列 5.找到有哪些state/region使得state的值为NaN,进行去重操作 6.为找到的这些state/region的state项补上正
阅读全文
摘要:1、级联操作concat()函数 pd.concat, pd.append pandas使用pd.concat函数,与np.concatenate函数类似,只是多了一些参数: **objs:**series,dataframe或者是panel构成的序列lsit **axis:**需要合并链接的轴,0
阅读全文
摘要:1、 处理重复数据drop_duplicates函数 #设定一些重复行数据 df.iloc[1] = [0,0,0,0,0,0,0,0] df.iloc[3] = [0,0,0,0,0,0,0,0] df.iloc[5] = [0,0,0,0,0,0,0,0] df.iloc[7] = [0,0,0
阅读全文
摘要:1、处理丢失数据 有两种丢失数据: None np.nan(NaN) 2、两种丢失数据的区别 2.1、None是Python自带的,其类型为Python object。因此,None不能参与到任何计算中。 object类型的运算要比int类型的运算慢得多 计算不同数据类型求和时间 type(None
阅读全文
摘要:需求:股票分析 使用tushare包获取某股票的历史行情数据。 tushare财经数据接口包,基于该模块可以获取任意股票的历史交易数据 pip install tushare 输出该股票所有收盘比开盘上涨3%以上的日期。 输出该股票所有开盘比前日收盘跌幅超过2%的日期。 假如我从2010年1月1日开
阅读全文
摘要:2、Python 数据分析-Pandas 1、简介 Pandas最初被作为金融数据分析工具而开发出来,因此,pandas为时间序列分析提供了很好的支持。 Pandas的名称来自于面板数据(panel data)和python数据分析(data analysis)。panel data是经济学中关于多
阅读全文
摘要:1、简介: 1.1、什么是数据分析 把隐藏在一些看似杂乱无章的数据背后的信息提炼出来,总结出所研究对象的内在规律,它在生活中处处都能遇到,形影不离。 使得数据的价值最大化 分析用户的消费行为 制定促销活动的方案 制定促销时间和粒度 计算用户的活跃度 分析产品的回购力度 分析广告点击率 决定投放时间
阅读全文
摘要:国内下载地址可选其他版本:https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ Anaconda3官网:https://www.anaconda.com/products/individual Anaconda3:是一个基于数据分析+机器学习的
阅读全文

浙公网安备 33010602011771号