Python 的字符串

在最新的 Python 3 版本中，字符串是以 Unicode 编码的，也就是说，Python 的字符串支持多语言，例如：

print('包含中文的 str')

对于单个字符的编码，Python 提供了 ord() 函数获取字符的整数表示（方式），chr() 函数把编码转换为对应的字符：

print(ord('中'))
print(ord('A'))
print(chr(66))
print(chr(25991))

测试结果：

如果知道字符的整数编码，还可以用十六进制这样写 str ：

print('\u4e2d\u6587')
输出结果：
    中文

两种写法完全是等价的。由于 Python 的字符串类型是 str ，所以在内存中以 Unicode的编码格式表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘里面，就需要把str类型字符串变为以字节为单位的 bytes 。Python 对 bytes 类型的数据用带 b 前缀的单引号或双引号表示，如：x = b'ABC'。

注意区分 'ABC' 和 b'ABC'，前者是str字符串类型，后者虽然内容显示得和前者一样，但 bytes 的每个字符都只占用一个字节，两者在内存里面得“地址”是不一样的。

如果我们要把 bytes 变为 str字符串型，就需要用 decode() 方法：

print(b'ABC'.decode('ascii'))

要计算 str 包含多少个字符，可以用 len() 函数，len() 函数计算的是str的字符数，如果换成 bytes ，len() 函数就计算字
节数：

print( len('ABC'))
print(len(b'ABC'))
运行结果：
    3
    3

由于 Python 源代码也是一个文本文件，所以，当你的源代码中包含中文的时候，在保存源代码时，就需要务必指定保存为 UTF-8 编码。当Python 解释器读取源代码时，为了让它按 UTF-8 编码读取，我们通常在文件开头写上这两行：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

第一行注释是为了告诉 Linux/OS X 系统，这是一个 Python 类型的可执行程序，Windows 的系统会忽略这个注释；第二行注释是为了告诉 Python 的解释器，让解释器按照 UTF-8 编码读取源代码，如果不添加，那么在源代码中写的中文在输出的时候可能会有乱码。而且有时候申明了 UTF-8 编码也并不意味着 .py结尾的文件就是 UTF-8 编码的，必须要确保你使用的文本编辑器正在使用 UTF-8 without BOM类型的编码格式。举例如下：

#!/usr/bin/env python3
# -*- coding: utf-8 -*-

s = 'Python-中文'   #有中文字符
print(s)
b = s.encode('utf-8')
print(b)
print(b.decode('utf-8'))

这里提个建议，在进行编码的时候不要用电脑或工具本身自带笔记本来进行编写，有时候这些记事本会“自作聪明”的添加一些未知的字符串进去，而导致程序报错，你却找不到原因，编码工具可以使用submit Text、Visual Studio Code、Notepad、UItrEdit等，具体使用就看个人的使用习惯了。

posted @ 2019-04-25 23:31 小沐CA 阅读(163) 评论(0) 收藏举报

刷新页面返回顶部

小沐CA

年轻是我们唯一拥有权利去编织梦想的时光。

Python 的字符串

Python 的字符串

公告