随笔分类 - python数据分析
摘要:在安装pandas时出现Could not install packages due to an EnvironmentErrorConsider using the `--user` option or check the permissions 此时在install后面加--user即可pip
阅读全文
摘要:方法一:直接del df['column-name'] 删除sub_grade_列, 输入del df['sub_grade_x'] 方法二:采用drop方法,有下面三种等价的表达式: 1. df= df.drop('column_name', 1) 输入:df,drop('num',axix=1)
阅读全文
摘要:读入数据: 数据分组:我们可以看到num这列它的数字在0-20之间变化,我们可以对其增加一列,用来对其分组 df['新增一列的名称']=pd.cut(df['要分组的列'],要分组的区间,新增一列后对应区间分组的名称) 数据的分列: 可以分析数据grade这一列,可以用split函数就行分列 分列以
阅读全文
摘要:首先,我们先要读入数据: 然后检查数据出现的问题: 1.没有表头,增加表头 2.去除重复值: df.duplicate()使用布尔数据查看数据表中是否有重复值,df.drop_duplicates(),删去重复的值 这里有两点需要说明:第一,数据表中两个条目间所有列的内容都相等时duplicated
阅读全文
摘要:Pandas常用的数据清洗5大策略如下: 1.删除 DataFrame 中的不必要 columns 2.改变 DataFrame 的 index 3.使用 .str() 方法来清洗 columns 4.DataFrame.applymap() 函数按元素的清洗整个数据集 5.重命名 columns
阅读全文
摘要:均值是通过取数值的总和并除以数据序列中的值的数量来计算。 R语言平均值公式: > x<-c(-22,-13,2,45,56,73,21,44,NA)> result.mean<-mean(x,rim=0.2,na.rm=TRUE)#rim=0.2就是对x其中的向量排序,然后去掉左边和右边的各2个值,
阅读全文
摘要:DataFrame是二维数据结构,即数据以行和列的表格方式排列!特点:潜在的列是不同的类型,大小可变,标记行和列,可以对列和行执行算数运算。 其中Name,Age即为对应的Columns,序号0,1,2,3,即为index pandas中的DataFrame构建函数格式:pandas.DataFra
阅读全文
摘要:import sysimport tushare as tsimport numpy as npdata=ts.get_h_data('601066')print(data)#读出兴业银行7列数据date open high close low volume amount data.to_csv('
阅读全文
摘要:[ 0 0 0 2 3 3 3 4 5 7 9 9 12 13 13 13 14 14 15 16 17 19 22 27 27 29 31 34 34 38 40 42 45 52 55 58 61 65 66 68 69 69 70 73 78 78 80 81 87 90 90 91 92 9
阅读全文
摘要:import numpy as npa=np.random.random()#用于生成一个0到1的随机浮点数: 0 <= n < 1.0print(a)0.7720009033229526a=np.random.uniform(60,80)#用于生成一个指定范围内的随机符点数,两个参数其中一个是上限
阅读全文
摘要:#plt.subplot的使用 #使用figure中subplot的使用
阅读全文
摘要:import matplotlib.pyplot as pltx = [4, 9, 21, 55, 30, 18]labels = ['math', 'history', 'chemistry', 'physics', 'biology','Enrlish']explode = [0, 0.01,
阅读全文

浙公网安备 33010602011771号