python库--pandas--Series.str--字符串处理
S: Series I: Index
| 方法 | 返回值 | 参数 | 说明 |
| .capitalize() | S/I | 将Series/Index中的字符串大写 | |
| .cat() | S/I/str | 使用给定分隔符连接字符串 | |
| other=None | None: 使用sep连接给定的Series返回一个str | ||
| List_like: 与Series对应位置的字符串用sep连接返回一个S | |||
| sep=None | 分隔符 | ||
| na_rep=None | 遇到NA值忽略或使用指定字符替换 | ||
| .center() | S | 在字符串两端填充指定字符到指定长度 | |
| width | 填充后的字符串长度 | ||
| fillchar=' ' | 用于填充的字符串 | ||
| .contains() | S[bool] | 判断指定字符串或正则表达式是否在序列或索引中 | |
| pat | 字符串或正则表达式 | ||
| case=True | 是否区分大小写 | ||
| flags=0 | 可传入re.IGNORECASE之类的参数 | ||
| na=nan | 缺失值填充 | ||
| regex=True | 是否使用正则表达式匹配 | ||
| .count() | S[int] | 统计指定字符串在序列字符串中出现的次数 | |
| pat | 字符串或正则表达式 | ||
| flags=0 | 可传入re.IGNORECASE之类的参数 | ||
| .decode() | S[str] | 解码 | |
| encoding | 解码方式 | ||
| errors='static' | error处理方式 | ||
| .encode() | S[b''] | 编码 | |
| encoding | 编码方式 | ||
| error='static' | error处理方式 | ||
| .endswith() | S[bool] | 判断是否以给定的字符串结尾 | |
| pat | 字符串 | ||
| na=nan | 缺失值填充 | ||
| .extract() | 使用正则表达式提取需要的内容(只匹配一次) | ||
| pat | 正则表达式(必须含有捕获组, 超过一个必然返回DataFrame) | ||
| flags=0 | 可传入re.IGNORECASE之类的参数 | ||
| expand=None | True: 返回DataFrame(未来版本默认值) | ||
| False: 返回S/I/DataFrame(现在版本默认值) | |||
| .extractall() | df | 获取所有的正则表达式匹配到的内容(以多级索引的方式展示) | |
| pat | 含捕获组的正则表达式, 若捕获组设有name则将作为返回的列标签 | ||
| flags=0 | 可传入re.IGNORECASE之类的参数 | ||
| .find() | S | 查找sub在序列字符串的子字符串中出现的位置, 找不到返回-1 | |
| sub | 字符串 | ||
| start=0 | 子字符串开始的位置 | ||
| end=None | 子字符串结束的位置 | ||
| .findall() | S[list] | 相当于对序列中每个字符串执行 re.findall(pat, string) | |
| pat | 正则表达式 | ||
| flags=0 | 可传入re.IGNORECASE之类的参数 | ||
| .get() | S | i | 获取指定位置的字符, 超出长度则返回Na |
| .index() | S | 同.find() 不过找不到将引发Error | |
| .join() | S | sep | 给每个字符串的字符间插入指定字符 |
| .len() | S | 返回每个字符串的长度 | |
| .ljust() | S | 同 .center() 不过只在右侧填充 | |
| .lower() | S | 所有字符小写 | |
| .lstrip() | S | to_strip=None | 去除左侧指定字符, 默认去掉空白符 |
| .match() | S[bool] | 判断字符串与正则表达式是否匹配, 即正则表达式能否匹配到内容 | |
| pat | 字符串或正则表达式 | ||
| case=True | 是否区分大小写 | ||
| flags=0 | 可传入re.IGNORECASE之类的参数 | ||
| na=nan | 缺失值填充 | ||
| as_indexer=None | 弃用 | ||
| .normalize() | S | from | 返回字符串的Unicode标准格式 |
| .pad() | S | 在序列字符串左侧/右侧/两侧填充指定字符串到指定长度 | |
| width | 将字符串填充到的长度 | ||
| side='left' | 'left': 在左侧填充 | ||
| 'right': 在右侧填充 | |||
| 'both': 在两侧填充, 原字符串居中 | |||
| fillchar=' ' | 填充的字符 | ||
| .partition() | 第一次出现pat时将字符串分割为三个部分: pat前面的部分, pat本身, pat后面的部分 | ||
| pat=' ' | 字符串 | ||
| expand=True | True: 返回DataFrame/Multilndex | ||
| False: 返回Series/Index, 元素为Tuple | |||
| .repeat() | 将字符串扩展n倍, 比如 'a' 扩展 2 倍为 'aa' | ||
| repeats | int: 序列中所有字符串扩展相同倍数 | ||
| list_like: 长度需和序列长度一致, 对应每个元素扩展对应倍数 | |||
| .replace() | S | 更新字符串 | |
| pat | 字符串或编译的正则表达式 | ||
| repl | str: 将匹配到的字符串替换为此字符串 | ||
| fun: 传给fun的是对象相当于re.search(pat, string)的返回值 | |||
| n=-1 | 替换的次数, 默认全部 | ||
| case=None | 是否区分大小写, 如果pat为字符串则默认为True, 若为编译的正则表达式则不能设置 | ||
| flags=0 | 可传入re.IGNORECASE之类的参数, 但若pat为编译的正则表达式则不能设置 | ||
| regex=False | 是否使用正则, 默认不使用 | ||
| .rfind() | 同 .find() 不过从右往左检索 | ||
| .rindex() | 同 .index() 不过从右往左检索 | ||
| .rjust() | 同 .center() 不过只在左侧填充 | ||
| .rpartition() | 同.partition(), 不过从右往左检索pat字符串 | ||
| .rstrip() | S | to_strip=None | 去除右侧指定字符, 默认去掉空白符 |
| .slice() | S | 截取子字符串 | |
| start=None | 开始位置 | ||
| stop=None | 结束位置 | ||
| step=None | 步长 | ||
| .slice_replace() | S | 截取子字符串, 并将截取部分替换为repl | |
| start=None | 开始位置 | ||
| stop=None | 结束位置 | ||
| repl=None | 要替换为的字符串 | ||
| .split() | 对字符串按照给定字符进行分割 | ||
| pat=None | 分隔符, 默认空白符 | ||
| n=-1 | 分割次数, 默认全部 | ||
| expand=False | True: 返回DataFrame/MultiINdex | ||
| False: 返回Series/Index | |||
| .rsplit() | 同.split() 不过从右侧开始分割 | ||
| .startswith() | S[bool] | 判断序列字符串是否以指定字符串开头 | |
| pat | 字符串 | ||
| na=nan | 缺失值填充 | ||
| .strip() | S | to_strip=None | 去除两侧指定字符, 默认去掉空白符 |
| .swapcase() | S | 将小写字符大写, 将大写字符小写 | |
| .title() | S | 将首字母大写, 其余字符小写 | |
| .translate() | 参考python内置字符串处理方法 .translate() | ||
| .upper() | S | 全部大写 | |
| .wrap() | S | width | 在指定位置插入换行符 |
| .zfill() | S | width | 在字符串前面填充0到指定长度 |
| .isalnum() | S[bool] | 字符串至少包含一个字符且所有字符都是字母(汉字)或数字则返回True | |
| .isalpha() | S[bool] | 字符串至少包含一个字符且所有字符都是字母(汉字)则返回True | |
| .isdigit() | S[bool] | 只包含数字(可以是: Unicode, 全角字符, bytes(b'1'), 罗马数字) | |
| .isspace() | S[bool] | 只包含空白符 | |
| .islower() | S[bool] | 至少包含一个小写字符, 且不包含大写字符 | |
| .isupper() | S[bool] | 至少包含一个大写字符, 且不包含小写字符 | |
| .istitle() | S[bool] | 所有单词大写开头其余小写(标题化) | |
| .isnumeric() | S[bool] | 只包含数字字符 | |
| .isdecimal() | S[bool] | 只包含数字(Unicode字符, 全角字符) | |
| .get_dummies() | df | sep='|' | 把字符串按照指定分隔符分割, 并返回分割后的字符串出现的次数 |
regex

浙公网安备 33010602011771号