随笔分类 - Python-Pandas
摘要:相关系数是最早由统计学家卡尔·皮尔逊设计的统计指标,是研究变量之间线性相关程度的量,一般用字母 r 表示。三个相关性系数(pearson, spearman, kendall)反应的都是两个变量之间变化趋势的方向以及程度,其值范围为-1到+1,0表示两个变量不相关,正值表示正相关,负值表示负相关,值
阅读全文
摘要:当数据库中缺失某些数据(类型为deciaml)时, 用sql语句sum() ... groupby ... 求和时,查询出来的dataframe 这一列数据的类型为object,而object类型是无法再在dataframe中groupby 以后进行聚合计算的。 此时,如果先将数据查出来,在data
阅读全文
摘要:->删除第1、2列有空值的行 datapd.dropna(axis='index', subset=[1,2])
阅读全文
摘要:警告分析 这个警告常常在对一个dataframe进行切片的操作上。 SettingWithCopyWarning 告诉你,你的操作可能没有按预期运行,需要检查结果以确保没有出错。 如果代码确实按预期工作,那么我们会很容易忽略该警告,但是 SettingWithCopyWarning 不应该被忽略。
阅读全文
摘要:-> dataframe 求每一天的累加值cum系列函数是作为DataFrame或Series对象的方法出现的,因此命令格式为D.cumsum()D=pd.Series(range(0,20))D.cumsum() # 依次给出前1、2、… 、n个数的和 请参考cum累积计算和rolling滚动计算
阅读全文
摘要:->替换空值 df.dropna() 删除空值 df.fillna() 填充空值 df.isna() 筛选空值
阅读全文
摘要:->重置索引 df.set_index() ->把列转换为索引 data.set_index("B") 把data的B列的值变成行索引
阅读全文
摘要:-> to_html()的几个常用参数1.float_format 参数可以定义应用在所有浮点数上的函数2.formatters 参数可以定义应用在指定列上的函数3.index 参数可以控制转换出来的表格是否显示索引4.justify 参数控制表头的对齐方式,默认右对齐
阅读全文
摘要:步骤1:安装python 的pip 包管理工具pip是随着python一起安装的,在cmd命令行下使用时,一定要进入pip.exe文件所在路径执行pip命令。步骤2:安装numpy官网地址:https://pypi.python.org/pypi/numpy也可以在pip目录下执行如下命令,pip
阅读全文
摘要:触发这个警告的代码:df["cc"] = "cc1" 问题起因:假设你要选取B列的数据,要求其关联的A列数据大于5方法1:df[df.A > 5]['B']方法2:df.loc[df.A > 5, 'B'] = 4 以上两种方法操作返回的结果是一样的,如果你只是看这些值得话,返回的结果没有任何区别。
阅读全文
摘要:在Python中循环数组或其他跟数组类似的数据结构时会涉及很多开销。 NumPy中的矢量化操作把内部循环委托给高度优化的C和Fortran函数,从而实现更高效的python 代码。 Numpy 的矢量化就是用数组表达式代替显示的for循环,它将操作表达为作用在一个数组上,而不是各个元素上。 代码举例
阅读全文
摘要:我当前使用的方法是把这一列转换成列表,用列表的方式查找。如下, ll = df['animal'].values.tolist()if 'dog' in ll: print('yes')没有找到pandas dataframe是否包含相关的函数,所以不确定最高效的方法是什么。
阅读全文
摘要:这个方法怎么使用呢?直接调用会报错呀 找了pandas的官方文档,如下,没看懂 又找到pandas bool方法的源码,如下, 还是没懂。。。
阅读全文
摘要:在电脑上安装anaconda以后,导入numpy模块失败,如下图 但是在cmd进入anaconda的python环境后导入numpy又是正常的, 在网上查找资料后,原因及解决办法如下: 因为我以前是直接安装的python而没有用Anaconda的python,在环境变量里面保留着原来的python路
阅读全文

浙公网安备 33010602011771号