python数据分析 - 随笔分类 - 时间带着假象流淌

安装pandas时出现环境错误

摘要：在安装pandas时出现Could not install packages due to an EnvironmentErrorConsider using the `--user` option or check the permissions 此时在install后面加--user即可pip 阅读全文

posted @ 2018-11-08 22:20 时间带着假象流淌阅读(1089) 评论(0) 推荐(0)

pandas删除某一列的方法

摘要：方法一：直接del df['column-name'] 删除sub_grade_列，输入del df['sub_grade_x'] 方法二：采用drop方法，有下面三种等价的表达式： 1. df= df.drop('column_name', 1) 输入:df,drop('num',axix=1) 阅读全文

posted @ 2018-11-01 15:12 时间带着假象流淌阅读(94387) 评论(3) 推荐(2)

pandas数据的分组与分列

摘要：读入数据：数据分组：我们可以看到num这列它的数字在0-20之间变化，我们可以对其增加一列，用来对其分组 df['新增一列的名称']=pd.cut(df['要分组的列']，要分组的区间，新增一列后对应区间分组的名称) 数据的分列：可以分析数据grade这一列，可以用split函数就行分列分列以阅读全文

posted @ 2018-11-01 14:30 时间带着假象流淌阅读(3112) 评论(0) 推荐(1)

pandas数据清洗策略2

摘要：首先，我们先要读入数据：然后检查数据出现的问题： 1.没有表头，增加表头 2.去除重复值： df.duplicate()使用布尔数据查看数据表中是否有重复值,df.drop_duplicates(),删去重复的值这里有两点需要说明：第一，数据表中两个条目间所有列的内容都相等时duplicated 阅读全文

posted @ 2018-10-31 15:45 时间带着假象流淌阅读(1005) 评论(0) 推荐(0)

pandas数据清洗策略1

摘要：Pandas常用的数据清洗5大策略如下： 1.删除 DataFrame 中的不必要 columns 2.改变 DataFrame 的 index 3.使用 .str() 方法来清洗 columns 4.DataFrame.applymap() 函数按元素的清洗整个数据集 5.重命名 columns 阅读全文

posted @ 2018-10-29 22:03 时间带着假象流淌阅读(481) 评论(0) 推荐(0)

R和python语言如何求平均值，中位数和众数

摘要：均值是通过取数值的总和并除以数据序列中的值的数量来计算。 R语言平均值公式： > x<-c(-22,-13,2,45,56,73,21,44,NA)> result.mean<-mean(x,rim=0.2,na.rm=TRUE)#rim=0.2就是对x其中的向量排序，然后去掉左边和右边的各2个值，阅读全文

posted @ 2018-10-19 17:24 时间带着假象流淌阅读(5838) 评论(0) 推荐(0)

pandas（DataFrame）

摘要：DataFrame是二维数据结构，即数据以行和列的表格方式排列！特点：潜在的列是不同的类型，大小可变，标记行和列，可以对列和行执行算数运算。其中Name,Age即为对应的Columns,序号0,1,2,3,即为index pandas中的DataFrame构建函数格式：pandas.DataFra 阅读全文

posted @ 2018-10-09 15:52 时间带着假象流淌阅读(910) 评论(0) 推荐(0)

利用tushare进行对兴业银行股价的爬取，并使用numpy进行分析

摘要：import sysimport tushare as tsimport numpy as npdata=ts.get_h_data('601066')print(data)#读出兴业银行7列数据date open high close low volume amount data.to_csv(' 阅读全文

posted @ 2018-09-18 10:29 时间带着假象流淌阅读(435) 评论(0) 推荐(0)

随机生成60位同学成绩，并求他们的平均数，中位数，众数等

摘要：[ 0 0 0 2 3 3 3 4 5 7 9 9 12 13 13 13 14 14 15 16 17 19 22 27 27 29 31 34 34 38 40 42 45 52 55 58 61 65 66 68 69 69 70 73 78 78 80 81 87 90 90 91 92 9 阅读全文

posted @ 2018-09-17 13:40 时间带着假象流淌阅读(635) 评论(0) 推荐(0)

numpy中random的使用

摘要：import numpy as npa=np.random.random()#用于生成一个0到1的随机浮点数: 0 <= n < 1.0print(a)0.7720009033229526a=np.random.uniform(60,80)#用于生成一个指定范围内的随机符点数，两个参数其中一个是上限阅读全文

posted @ 2018-09-14 15:28 时间带着假象流淌阅读(1570) 评论(0) 推荐(0)

matplotlib中subplot的使用

摘要：#plt.subplot的使用 #使用figure中subplot的使用阅读全文

posted @ 2018-09-14 10:17 时间带着假象流淌阅读(2103) 评论(0) 推荐(0)

使用matplotlib画饼图

摘要：import matplotlib.pyplot as pltx = [4, 9, 21, 55, 30, 18]labels = ['math', 'history', 'chemistry', 'physics', 'biology','Enrlish']explode = [0, 0.01, 阅读全文

posted @ 2018-09-14 08:55 时间带着假象流淌阅读(1320) 评论(0) 推荐(0)

时间带着假象流淌

随笔分类 - python数据分析

公告