随笔分类 - 数据分析
摘要:一、Matplotlib基础知识 Matplotlib中的基本图表包括的元素 x轴和y轴 axis水平和垂直的轴线 x轴和y轴刻度 tick刻度标示坐标轴的分隔,包括最小刻度和最大刻度 x轴和y轴刻度标签 tick label表示特定坐标轴的值 绘图区域(坐标系) axes实际绘图的区域 坐标系标题
阅读全文
摘要:方便大家操作,将月份和参选人以及所在政党进行定义: months = {'JAN': 1, 'FEB': 2, 'MAR': 3, 'APR': 4, 'MAY': 5, 'JUN': 6, 'JUL': 7, 'AUG': 8, 'SEP': 9, 'OCT': 10, 'NOV': 11, 'D
阅读全文
摘要:在数据处理时,有时需要对数据的结构进行重排,也称作是重塑(Reshape)或者轴向旋转(Pivot)。而运用层次化索引可为 DataFrame 的数据重排提供良好的一致性。在 pandas 中提供了实现重塑的两个函数,即 stack() 函数和 unstack() 函数。常见的数据层次化结构有两种,
阅读全文
摘要:随机排列 利用 numpy.random.permutation() 函数,可以返回一个序列的随机排列。将此随机排列作为 take() 函数的参数,通过应用 take() 函数就可实现按此随机排列来调整 Series 对象或 DataFrame 对象各行的顺序。其示例代码 example1.py 如
阅读全文
摘要:1)指定行索引和列索引标签 index 属性可以指定 DataFrame 结构中的索引数组, columns 属性可以指定包含列名称的行, 而使用 name 属性,通过对一个 DataFrame 实例进行 df 设置( df.index.name 和 df.columns.name)就可以为 Dat
阅读全文
摘要:在 pandas 中提供了利用映射关系来实现某些操作的函数,具体如下: replace() 函数:替换元素; map() 函数:新建一列; rename() 函数:替换索引。 一、replace() 用映射替换元素 在数据处理时,经常会遇到需要将数据结构中原来的元素根据实际需求替换成新元素的情况。要
阅读全文
摘要:需求: 导入文件,查看原始数据 将人口数据和各州简称数据进行合并 将合并的数据中重复的abbreviation列进行删除 查看存在缺失数据的列 找到有哪些state/region使得state的值为NaN,进行去重操作 为找到的这些state/region的state项补上正确的值,从而去除掉sta
阅读全文
摘要:针对空值的处理,首先要来了解一下空值的类型: 一、pandas中的None 和 NaN 有什么区别? type(None) --类型是 NoneType 空的对象类型 type(NaN) --类型是 float 浮点型 注意:Pandas中None 和 NaN 都视作np.nan 二、Pandas
阅读全文
摘要:1.导入数据 df = pd.read_csv( # 该参数为数据在电脑中的路径,可以不填写 filepath_or_buffer='/Users/Weidu/Desktop/sz000002.csv', # 该参数代表数据的分隔符,csv文件默认是逗号。其他常见的是'\t' sep=',', #
阅读全文
摘要:1、数据分组 分组基本操作案例:在水果列表里增加一列放入每种水果的平均值: #进行数据分组,不显示分组情况 df.groupby(by=['item'],axis =0).group # axis =0表示列 #例如:求每组水果的价格和平均值(mean()) df.groupby(by=['item
阅读全文
摘要:本文主要讲Pandas 的Series和DataFrame 的相关属性和操作 1、Series的相关属性和操作# --Series是一种类似于一维数组的对象,只能存放一维数组!由以下两部分组成:# value:一组数据 ndarray类型# index:相关数据的索引标签## --Series 的创
阅读全文
摘要:目标: 使用tushare包获取股票的历史行情数据 输出该股票所有收盘比开盘上涨3%以上的日期 输出该股票所有开盘比前日收盘跌幅超过2%以上的日期 假如为我们从2010年1月1日开始,每月第一个交易日买入一手股票,每年最后一个交易日卖出,到现在收益如何? 类似的股票数据平台: 聚宽(JoinQuan
阅读全文

浙公网安备 33010602011771号