随笔分类 -  pandas用法总结

摘要:前言 对数据集进行分组并对各组进行聚合或转换,是数据分析工作的重要环节。Pandas提供的groupby功能以一种自然的方式对数据集进行切片、切块、摘要等操作。具体地,包括以下功能: 计算分组摘要统计,如计数、平均值、标准差,或用户自定义函数。 组内数据转换及运算,如归一化、线性回归、组内排名、子集 阅读全文
posted @ 2020-05-22 15:02 unuliha 阅读(989) 评论(0) 推荐(0)
摘要:s = pd.Series(['Tom', 'William Rick', 'John', 'Alber@t', np.nan, '1234','SteveMinsu']) s.str#不能对series对象使用str处理函数,必须转换成pandas.core.strings.StringMetho 阅读全文
posted @ 2020-05-01 09:57 unuliha 阅读(743) 评论(0) 推荐(0)
摘要:unsorted_df=pd.DataFrame(np.random.randn(10,2),index=[1,4,6,2,3,5,9,8,0,7], columns=['col2','col1']) 8.1 按索引进行排序(sort_index()) ### 按索引排序,需要指定轴和方向,默认为列 阅读全文
posted @ 2020-05-01 09:46 unuliha 阅读(6859) 评论(0) 推荐(1)
摘要:N=20 ### 直接列名迭代 df = pd.DataFrame({ 'A': pd.date_range(start='2016-01-01',periods=N,freq='D'), 'x': np.linspace(0,stop=N-1,num=N), 'y': np.random.rand 阅读全文
posted @ 2020-04-30 11:19 unuliha 阅读(725) 评论(0) 推荐(0)
摘要:6.1 reindex() 直接修改索引(相当于截取原 df 的子集) N=20 df = pd.DataFrame({ 'A': pd.date_range(start='2016-01-01',periods=N,freq='D'),#freq设置步长,默认D表示日 'x': np.linspa 阅读全文
posted @ 2020-04-30 11:16 unuliha 阅读(8090) 评论(0) 推荐(1)
摘要:def adder(ele1,ele2): return ele1+ele2 5.1 df 每个元素均变换 df = pd.DataFrame(np.random.randn(5,3),columns=['col1','col2','col3']) df.pipe(adder,2)#对df中的每一个 阅读全文
posted @ 2020-04-30 10:53 unuliha 阅读(793) 评论(0) 推荐(0)
摘要:4.1 series对象的查看 s = pd.Series(np.random.randn(5)) s.axes#索引信息 s.empty#判断整体是否为空 s.ndim#返回对象维度 s.size#返回对象长度,或则说元素个数 s.values#以数组形式返回系列中的实际数据值 4.2 Dataf 阅读全文
posted @ 2020-04-30 10:41 unuliha 阅读(1762) 评论(0) 推荐(0)
摘要:3.1 Dataframe的创建 利用 list 对象创建 data = [['Alex',10],['Bob',12],['Clarke',13]]#list对象可嵌套 df = pd.DataFrame(data,columns=['Name','Age'],dtype=float) data 阅读全文
posted @ 2020-04-29 17:55 unuliha 阅读(1772) 评论(0) 推荐(0)
摘要:2.1 series的创建 利用 list对象 或 np.array对象 创建series s=pd.Series([1,3,np.nan,5,7]) data = np.array(['a','b','c','d']) s = pd.Series(data,index=[100,101,102,1 阅读全文
posted @ 2020-04-29 16:58 unuliha 阅读(434) 评论(0) 推荐(0)
摘要:import numpy as npimport pandas as pd 1.1 series、Dataframe的创建 s=pd.Series([1,3,np.nan,5,7]) dates=pd.date_range('19800801',periods=7)#创建时间序列 df=pd.Dat 阅读全文
posted @ 2020-04-29 16:35 unuliha 阅读(1393) 评论(0) 推荐(0)