Datawhale - Pandas（下）--task02 文本数据

一，先有个整体的概念：

　这一章是关于文本数据，以前在EXCEL里，文本类型就是string字符串，所以这里也先介绍下string，因为和object很像，也很容易出错，所以对比着介绍的；接下来是string的一系列操作：拆分和拼接（以前只知道拼接是“+”）；string的替换；子串匹配和提取。

二、string类型

1、string 和 object的区别

2、string的转换，需要先别的类型转为str 型 object，再转为string 类型。

三、拆分和拼接

1、str.split 方法

s = pd.Series(['a_b_c', 'c_d_e', np.nan, 'f_g_h'], dtype="string")

s.str.split('_')

0    [a, b, c]
1    [c, d, e]
2         <NA>
3    [f, g, h]

2、str.cat 方法

但是，这里：对于两个Series合并而言，是对应索引的元素进行合并。不太理解。

三、替换

替换不可避免要用正则表达式，简单的会，难得还不会。

s = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca','', np.nan, 'CABA', 'dog', 'cat'],dtype="string")

四、子串匹配与提取

1、str.extract 方法

pd.Series(['10-87', '10-88', '10-89'],dtype="string").str.extract(r'([\d]{2})-([\d]{2})')

2、 str.extractall 方法

五，练习

posted @ 2020-06-27 00:05 haiyanli 阅读(97) 评论(0) 收藏举报

刷新页面返回顶部

haiyanli