pandas用法总结 - 随笔分类 - unuliha

10 数据聚合和分组运算

摘要：前言对数据集进行分组并对各组进行聚合或转换，是数据分析工作的重要环节。Pandas提供的groupby功能以一种自然的方式对数据集进行切片、切块、摘要等操作。具体地，包括以下功能：计算分组摘要统计，如计数、平均值、标准差，或用户自定义函数。组内数据转换及运算，如归一化、线性回归、组内排名、子集阅读全文

posted @ 2020-05-22 15:02 unuliha 阅读(989) 评论(0) 推荐(0)

9 series 字符串与文本数据查看、连接、替换

摘要：s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveMinsu']) s.str#不能对series对象使用str处理函数，必须转换成pandas.core.strings.StringMetho 阅读全文

posted @ 2020-05-01 09:57 unuliha 阅读(743) 评论(0) 推荐(0)

8 Dataframe 排序（sort_index()和sort_values()）

摘要：unsorted_df=pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7], columns=['col2','col1']) 8.1 按索引进行排序（sort_index()） ### 按索引排序，需要指定轴和方向，默认为列阅读全文

posted @ 2020-05-01 09:46 unuliha 阅读(6859) 评论(0) 推荐(1)

7 Dataframe 对象的迭代

摘要：N=20 ### 直接列名迭代 df = pd.DataFrame({ 'A': pd.date_range(start='2016-01-01',periods=N,freq='D'), 'x': np.linspace(0,stop=N-1,num=N), 'y': np.random.rand 阅读全文

posted @ 2020-04-30 11:19 unuliha 阅读(725) 评论(0) 推荐(0)

6 Dataframe 索引的修改

摘要：6.1 reindex() 直接修改索引（相当于截取原 df 的子集） N=20 df = pd.DataFrame({ 'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),#freq设置步长，默认D表示日 'x': np.linspa 阅读全文

posted @ 2020-04-30 11:16 unuliha 阅读(8090) 评论(0) 推荐(1)

5 Dataframe 元素值的变换（apply、map对所有值、所有行（列）、单行（列）、单个值的变换）

摘要：def adder(ele1,ele2): return ele1+ele2 5.1 df 每个元素均变换 df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3']) df.pipe(adder,2)#对df中的每一个阅读全文

posted @ 2020-04-30 10:53 unuliha 阅读(793) 评论(0) 推荐(0)

4 series、Dataframe基本信息描述及统计（维度、形状、均值、求和、协方差、相关系数、排名）

摘要：4.1 series对象的查看 s = pd.Series(np.random.randn(5)) s.axes#索引信息 s.empty#判断整体是否为空 s.ndim#返回对象维度 s.size#返回对象长度，或则说元素个数 s.values#以数组形式返回系列中的实际数据值 4.2 Dataf 阅读全文

posted @ 2020-04-30 10:41 unuliha 阅读(1762) 评论(0) 推荐(0)

3 Dataframe 创建及行列的查看、添加、删除

摘要：3.1 Dataframe的创建利用 list 对象创建 data = [['Alex',10],['Bob',12],['Clarke',13]]#list对象可嵌套 df = pd.DataFrame(data,columns=['Name','Age'],dtype=float) data 阅读全文

posted @ 2020-04-29 17:55 unuliha 阅读(1772) 评论(0) 推荐(0)

2 series 创建及访问

摘要：2.1 series的创建利用 list对象或 np.array对象创建series s=pd.Series([1,3,np.nan,5,7]) data = np.array(['a','b','c','d']) s = pd.Series(data,index=[100,101,102,1 阅读全文

posted @ 2020-04-29 16:58 unuliha 阅读(434) 评论(0) 推荐(0)

1 快速入门（series、数据框的创建、查看、排序、选取基础操作）

摘要：import numpy as npimport pandas as pd 1.1 series、Dataframe的创建 s=pd.Series([1,3,np.nan,5,7]) dates=pd.date_range('19800801',periods=7)#创建时间序列 df=pd.Dat 阅读全文

posted @ 2020-04-29 16:35 unuliha 阅读(1393) 评论(0) 推荐(0)

unuliha

随笔分类 - pandas用法总结

公告