Python中字符串的使用总结
1. 字符串的操作
所有标准序列操作(索引、切片、乘法、成员资格检查、长度、最小值和最大值)都适用于字符串,但字符串是不可变的,因此所有的元素赋值和切片赋值都是非法的。
>>> website = 'http://www.python.org'
>>> website[-3:] = 'com'
Traceback (most recent call last):
File "<pyshell#19>", line 1, in ?
website[-3:] = 'com'
TypeError: object doesn't support slice assignment
2. 设置字符串格式:精简版
2.1 百分号方法
Python提供了多种字符串格式设置方法。以前,主要的解决方案是使用字符串格式设置运算符——百分号。指定要设置其格式的值时,可使用单个值(如字符串或数字),可使用元组(如果要设置多个值的格式),还可使用字典,其中最常见的是元组。
>>> format = "Hello, %s. %s enough for ya?"
>>> values = ('world', 'Hot')
>>> format % values
'Hello, world. Hot enough for ya?'
上述格式字符串中的%s称为转换说明符,指出了要将值插入什么地方。 s意味着将值视为字符串进行格式设置。如果指定的值不是字符串,将使用str将其转换为字符串。其他说明符将导致其他形式的转换。例如, %.3f将值的格式设置为包含3位小数的浮点数。
2.2 模板字符串方法
另一种解决方案是所谓的模板字符串。它使用类似于UNIX shell的语法,旨在简化基本的格式设置机制,如下所示:
>>> from string import Template
>>> tmpl = Template("Hello, $who! $what enough for ya?")
>>> tmpl.substitute(who="Mars", what="Dusty")
'Hello, Mars! Dusty enough for ya?'
包含等号的参数称为关键字参数。在字符串格式设置中,可将关键字参数视为一种向命名替换字段提供值的方式。
2.3 format方法
编写新代码时,应选择使用字符串方法format。使用这种方法时,每个替换字段都用花括号括起,其中可能包含名称,还可能包含有关如何对相应的值进行转换和格式设置的信息。在最简单的情况下,替换字段没有名称或将索引用作名称。
>>> "{}, {} and {}".format("first", "second", "third")
'first, second and third'
>>> "{0}, {1} and {2}".format("first", "second", "third")
'first, second and third'
然而,索引无需像上面这样按顺序排列。
>>> "{3} {0} {2} {1} {3} {0}".format("be", "not", "or", "to")
'to be or not to be'
命名字段的工作原理与你预期的完全相同。
>>> from math import pi
>>> "{name} is approximately {value:.2f}.".format(value=pi, name="π ")
'π is approximately 3.14.'
>>> "{name} is approximately {value}.".format(value=pi, name="π ")
'π is approximately 3.141592653589793.'
2.4 Python3.6方法
在Python 3.6中,如果变量与替换字段同名,还可使用一种简写。在这种情况下,可使用f字符串——在字符串前面加上f。
>>> from math import e
>>> f"Euler's constant is roughly {e}."
"Euler's constant is roughly 2.718281828459045."
在这里,创建最终的字符串时,将把替换字段e替换为变量e的值。这与下面这个更明确一些的表达式等价:
>>> "Euler's constant is roughly {e}.".format(e=e)
"Euler's constant is roughly 2.718281828459045."
3. 设置字符串格式:完整版
字 符 串 包 含 有 关 如 何 设 置 格 式 的 信 息 , 而 这 些 信 息 是 使 用 一 种 微 型 格 式 指 定 语 言指定的。每个值都被插入字符串中,以替换用花括号括起的替换字段。要在最终结果中包含花括号,可在格式字符串中使用两个花括号(即{{或}})来指定。
>>> "{{ceci n'est pas une replacement field}}".format()
"{ceci n'est pas une replacement field}"
在格式字符串中,最激动人心的部分为替换字段。替换字段由如下部分组成,其中每个部分都是可选的。
---字段名:索引或标识符,指出要设置哪个值的格式并使用结果来替换该字段。除指定值外,还可指定值的特定部分,如列表的元素。
---转换标志:跟在叹号后面的单个字符。当前支持的字符包括r(表示repr)、 s(表示str)和a(表示ascii)。如果你指定了转换标志,将不使用对象本身的格式设置机制,而是使用指定的函数将对象转换为字符串,再做进一步的格式设置。
---格式说明符:跟在冒号后面的表达式(这种表达式是使用微型格式指定语言表示的)。格式说明符让我们能够详细地指定最终的格式,包括格式类型(如字符串、浮点数或十六进制数),字段宽度和数的精度,如何显示符号和千位分隔符,以及各种对齐和填充方式。
下面详细介绍其中的一些要素。
3.1 替换字段名
在最简单的情况下,只需向format提供要设置其格式的未命名参数,并在格式字符串中使用未命名字段。此时,将按顺序将字段和参数配对。你还可给参数指定名称,这种参数将被用于相应的替换字段中。你可混合使用这两种方法。
>>> "{foo} {} {bar} {}".format(1, 2, bar=4, foo=3)
'3 1 4 2'
还可通过索引来指定要在哪个字段中使用相应的未命名参数,这样可不按顺序使用未命名参数。
>>> "{foo} {1} {bar} {0}".format(1, 2, bar=4, foo=3)
'3 2 4 1'
然而,不能同时使用手工编号和自动编号,因为这样很快会变得混乱不堪。你并非只能使用提供的值本身,而是可访问其组成部分(就像在常规Python代码中一样),
如下所示:
>>> fullname = ["Alfred", "Smoketoomuch"]
>>> "Mr {name[1]}".format(name=fullname)
'Mr Smoketoomuch'
>>> import math
>>> tmpl = "The {mod.name} module defines the value {mod.pi} for π "
>>> tmpl.format(mod=math)
'The math module defines the value 3.141592653589793 for π '
如你所见,可使用索引,还可使用句点表示法来访问导入的模块中的方法、属性、变量和函数(看起来很怪异的变量__name__包含指定模块的名称)。
3.2 基本转换
指定要在字段中包含的值后,就可添加有关如何设置其格式的指令了。首先,可以提供一个转换标志。
>>> print("{pi!s} {pi!r} {pi!a}".format(pi="π "))
π 'π ' '\u03c0'
上述三个标志( s、 r和a)指定分别使用str、repr和ascii进行转换。函数str通常创建外观普通的字符串版本(这里没有对输入字符串做任何处理)。函数repr尝试创建给定值的Python表示(这里是一个字符串字面量)。函数ascii创建只包含ASCII字符的表示,类似于Python 2中的repr。
你还可指定要转换的值是哪种类型,更准确地说,是要将其视为哪种类型。例如,你可能提供一个整数,但将其作为小数进行处理。为此可在格式说明(即冒号后面)使用字符f(表示定点数)。
>>> "The number is {num}".format(num=42)
'The number is 42'
>>> "The number is {num:f}".format(num=42)
'The number is 42.000000'
你也可以将其作为二进制数进行处理。
>>> "The number is {num:b}".format(num=42)
'The number is 101010'
这样的类型说明符有多个,完整的清单见表3-1。
表3-1 字符串格式设置中的类型说明符
| 类型 | 含义 | 
|---|---|
| b | 将整数表示为二进制数 | 
| c | 将整数解读为Unicode码点 | 
| d | 将整数视为十进制数进行处理,这是整数默认使用的说明符 | 
| e | 使用科学表示法来表示小数(用e来表示指数) | 
| E | 与e相同,但使用E来表示指数 | 
| f | 将小数表示为定点数 | 
| F | 与f相同,但对于特殊值( nan和inf),使用大写表示 | 
| g | 自动在定点表示法和科学表示法之间做出选择。这是默认用于小数的说明符,但在默认情况下至少有1位小数 | 
| G | 与g相同,但使用大写来表示指数和特殊值 | 
| n | 与g相同,但插入随区域而异的数字分隔符 | 
| o | 将整数表示为八进制数 | 
| s | 保持字符串的格式不变,这是默认用于字符串的说明符 | 
| x | 将整数表示为十六进制数并使用小写字母 | 
| X | 与x相同,但使用大写字母 | 
| % | 将数表示为百分比值(乘以100,按说明符f设置格式,再在后面加上%) | 
3.3 宽度、精度和千位分隔符
设置浮点数(或其他更具体的小数类型)的格式时,默认在小数点后面显示6位小数,并根据需要设置字段的宽度,而不进行任何形式的填充。当然,这种默认设置可能不是你想要的,在这种情况下,可根据需要在格式说明中指定宽度和精度。宽度是使用整数指定的,如下所示:
>>> "{num:10}".format(num=3)
'        3'
>>> "{name:10}".format(name="Bob")
'Bob      '
如你所见,数和字符串的对齐方式不同。对齐将在下一节介绍。精度也是使用整数指定的,但需要在它前面加上一个表示小数点的句点。
>>> "Pi day is {pi:.2f}".format(pi=pi)
'Pi day is 3.14'
这里显式地指定了类型f,因为默认的精度处理方式稍有不同(相关的规则请参阅“Python库参考手册”)。当然,可同时指定宽度和精度。
>>> "{pi:10.2f}".format(pi=pi)
' 3.14'
实际上,对于其他类型也可指定精度,但是这样做的情形不太常见。
>>> "{:.5}".format("Guido van Rossum")
'Guido'
最后,可使用逗号来指出你要添加千位分隔符。
>>> 'One googol is {:,}'.format(10**100)
'One googol is 10,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000,000'
同时指定其他格式设置元素时,这个逗号应放在宽度和表示精度的句点之间。
3.4 符号、对齐和用 0 填充
有很多用于设置数字格式的机制,比如便于打印整齐的表格。在大多数情况下,只需指定宽度和精度,但包含负数后,原本漂亮的输出可能不再漂亮。另外,正如你已看到的,字符串和数的默认对齐方式不同。在一栏中同时包含字符串和数时,你可能想修改默认对齐方式。在指定宽度和精度的数前面,可添加一个标志。这个标志可以是零、加号、减号或空格,其中零表示使用0来填充数字。
>>> '{:010.2f}'.format(pi)
'0000003.14'
要指定左对齐、右对齐和居中,可分别使用<、 >和^。
>>> print('{0:<10.2f}\n{0:^10.2f}\n{0:>10.2f}'.format(pi))
3.14
3.14
3.14
可以使用填充字符来扩充对齐说明符,这样将使用指定的字符而不是默认的空格来填充。
>>> "{:\$^15}".format(" WIN BIG ")
'\\(\$\) WIN BIG $$$'
还有更具体的说明符=,它指定将填充字符放在符号和数字之间。
>>> print('{0:10.2f}\n{1:10.2f}'.format(pi, -pi))
3.14
-3.14
>>> print('{0:10.2f}\n{1:=10.2f}'.format(pi, -pi))
3.14
-  3.14
如果要给正数加上符号,可使用说明符+(将其放在对齐说明符后面),而不是默认的-。如果将符号说明符指定为空格,会在正数前面加上空格而不是+。
>>> print('{0:-.2}\n{1:-.2}'.format(pi, -pi)) #默认设置
3.1
-3.1
>>> print('{0:+.2}\n{1:+.2}'.format(pi, -pi))
+3.1
-3.1
>>> print('{0: .2}\n{1: .2}'.format(pi, -pi))
3.1
-3.1
需要介绍的最后一个要素是井号( #)选项,你可将其放在符号说明符和宽度之间(如果指定了这两种设置)。这个选项将触发另一种转换方式,转换细节随类型而异。例如,对于二进制、八进制和十六进制转换,将加上一个前缀。
>>> "{:b}".format(42)
'101010'
>>> "{:#b}".format(42)
'0b101010'
对于各种十进制数,它要求必须包含小数点(对于类型g,它保留小数点后面的零)。
>>> "{:g}".format(42)
'42'
>>> "{:#g}".format(42)
'42.0000'
 
                    
                 
                
            
         浙公网安备 33010602011771号
浙公网安备 33010602011771号