Python语言学习笔记（一）

Python简介

Python是著名的“龟叔”Guido van Rossum（吉多·范罗苏姆）在1989年圣诞节期间，为了打发无聊的圣诞节而编写的一个编程语言。
Python为我们提供了非常完善的基础代码库，覆盖了网络、文件、GUI、数据库、文本等大量内容，被形象地称作“内置电池（batteries included）”。用Python开发，许多功能不必从零编写，直接使用现成的即可。除了内置的库外，Python还有大量的第三方库。

Python解释器

CPython

当我们从Python官方网站下载并安装好Python 3.5后，我们就直接获得了一个官方版本的解释器：CPython。这个解释器是用C语言开发的，所以叫CPython。在命令行下运行python就是启动CPython解释器。

IPython

IPython是基于CPython之上的一个交互式解释器，也就是说，IPython只是在交互方式上有所增强，但是执行Python代码的功能和CPython是完全一样的。

其他解释器（仅做了解）

PyPy、Jython

Python基础

数据类型和变量

整数、浮点数、字符串、布尔值、空值
变量、常量
Python支持多种数据类型，在计算机内部，可以把任何数据都看成一个“对象”，而变量就是在程序中用来指向这些数据对象的，对变量赋值就是把数据和变量给关联起来。

字符串输出格式控制

如果字符串里面有很多字符都需要转义，就需要加很多\，为了简化，Python还允许用r''表示''内部的字符串默认不转义。

>>> print(r'\\\t\\')

\\\t\\

如果字符串内部有很多换行，用\n写在一行里不好阅读，为了简化，Python允许用'''...'''的格式表示多行内容。

print('''line1
line2
line3''')

关于空值

空值是Python里一个特殊的值，用None表示。None不能理解为0，因为0是有意义的，而None是一个特殊的空值。

字符串编码问题

ASCII、Unicode、UTF-8
因为计算机只能处理数字，如果要处理文本，就必须先把文本转换为数字才能处理。于是有了编码。
最早的ASCII编码，因为是美国人发明的，只有127个字符被编码到计算机里，所以只能处理英文字母的编码。一个字节便满足范围。
要处理中文显然一个字节不够，至少要两个字节，于是中国制定了GB2312编码，用来把中文编进去。
然而全世界有各国语言，日本把日文编到Shift_JIS里，韩国把韩文编到Euc-kr里，各国有各国的标准，就会不可避免地出现冲突，结果就是，在多语言混合的文本中，显示出来会有乱码。
为了解决这个问题，Unicode把所有语言都统一到一套编码里，这样就不会再有乱码问题。Unicode编码通常是2个字节。现代操作系统和大多数编程语言都直接支持Unicode。
有了Unicode，乱码问题解决了，但是新的问题是，用Unicode编码比ASCII编码需要多一倍的存储空间，在存储和传输上就十分不划算。
又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节，常用的英文字母被编码成1个字节，汉字通常是3个字节，只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符，用UTF-8编码就能节省空间。另外它兼容ASCII编码，大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。
所以，总结下来，现在计算机系统通用的字符编码工作方式是，在计算机内存中，统一使用Unicode编码，当需要保存到硬盘或者需要传输的时候，就转换为UTF-8编码。

Python中的字符串处理
Python的字符串是以Unicode编码的，也就是说，Python的字符串支持多语言。
由于Python的字符串类型是str，在内存中以Unicode表示，一个字符对应若干个字节。如果要在网络上传输，或者保存到磁盘上，就需要把str变为以字节为单位的bytes。
转换方法：以Unicode表示的str通过encode()方法可以编码为指定的bytes。
反过来，如果我们从网络或磁盘上读取了字节流，那么读到的数据就是bytes。要把bytes变为str，就需要用decode()方法。

>>> '中文'.encode('utf-8')
b'\xe4\xb8\xad\xe6\x96\x87'
 
>>> b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8')
'中文'

详细请参考：
字符串与编码-廖雪峰

list、tuple、dict、set

list
list里面的元素的数据类型可以不同。
tuple
tuple和list非常类似，本质区别在于tuple的不可变性，tuple一旦初始化就不能修改。
括号既可以表示tuple，又可以表示数学公式中的小括号。为消除歧义，只有1个元素的tuple定义时必须加一个逗号。
set
set和dict类似，也是一组key的集合，但不存储value。由于key不能重复，所以，在set中，没有重复的key。重复元素在set中会自动被过滤。两个set可以做数学意义上的交集、并集等操作。set的原理和dict一样，所以，同样不可以放入可变对象。

函数

函数名其实就是指向一个函数对象的引用，完全可以把函数名赋给一个变量，相当于给这个函数起了一个“别名”。
函数可以返回多个值：在语法上，返回一个tuple可以省略括号，而多个变量可以同时接收一个tuple，按位置赋给对应的值，所以，Python的函数返回多值其实就是返回一个tuple，但写起来更方便。

函数的参数

默认参数

必选参数在前，默认参数在后，否则Python的解释器会报错。
可以不按顺序提供部分默认参数。当不按顺序提供部分默认参数时，需要把参数名写上。
默认参数必须指向不变对象！举反例：

def add_end(L=[]):
    L.append('END')
    return L
 
#正常调用，结果没有错
>>> add_end([1, 2, 3])
[1, 2, 3, 'END']
>>> add_end(['x', 'y', 'z'])
['x', 'y', 'z', 'END']
 
#使用默认参数调用，一开始结果是对的，但是再次调用结果就不对了
>>> add_end()
['END']
>>> add_end()
['END', 'END']
>>> add_end()
['END', 'END', 'END']

python函数在定义的时候，默认参数L的值就已经被计算出来了，即[]。
因为默认参数L也是一个变量，它指向对象[]，每次调用该函数，如果改变了L的内容，则下次调用时，默认参数的内容就变了，不再是函数定义时的[]了。

可变参数

可变参数就是传入的参数个数是可变的。仅仅在参数前面加了一个*号就可以。

def calc(*numbers):
    sum = 0
    for n in numbers:
        sum = sum + n * n
    return sum
>>> calc(1, 2, 3)
14
>>> calc(1, 3, 5, 7)
84
#对于list，可以这样传入
>>> nums = [1, 2, 3]
>>> calc(*nums)
14

可变参数允许你传入0个或任意个参数，这些可变参数在函数调用时自动组装为一个tuple。

关键字参数

关键字参数允许你传入0个或任意个含参数名的参数，这些关键字参数在函数内部自动组装为一个dict。

def person(name, age, **kw):
    print('name:', name, 'age:', age, 'other:', kw)
 
>>> person('Adam', 45, gender='M', job='Engineer')
name: Adam age: 45 other: {'gender': 'M', 'job': 'Engineer'}
 
>> extra = {'city': 'Beijing', 'job': 'Engineer'}
>>> person('Jack', 24, **extra)
name: Jack age: 24 other: {'city': 'Beijing', 'job': 'Engineer'}

**extra表示把extra这个dict的所有key-value用关键字参数传入到函数的**kw参数，kw将获得一个dict，注意kw获得的dict是extra的一份拷贝，对kw的改动不会影响到函数外的extra。

命名关键字参数

如果要限制关键字参数的名字，就可以用命名关键字参数，例如，只接收city和job作为关键字参数。

def person(name, age, *, city, job):
    print(name, age, city, job)
 
>>> person('Jack', 24, city='Beijing', job='Engineer')
Jack 24 Beijing Engineer

和关键字参数**kw不同，命名关键字参数需要一个特殊分隔符*，*后面的参数被视为命名关键字参数。

参数组合

在Python中定义函数，可以用必选参数、默认参数、可变参数、关键字参数和命名关键字参数，这5种参数都可以组合使用。但是请注意，参数定义的顺序必须是：必选参数、默认参数、可变参数、命名关键字参数和关键字参数。

def f1(a, b, c=0, *args, **kw):
    print('a =', a, 'b =', b, 'c =', c, 'args =', args, 'kw =', kw)
 
def f2(a, b, c=0, *, d, **kw):
    print('a =', a, 'b =', b, 'c =', c, 'd =', d, 'kw =', kw)
 
>>> f1(1, 2)
a = 1 b = 2 c = 0 args = () kw = {}
>>> f1(1, 2, c=3)
a = 1 b = 2 c = 3 args = () kw = {}
>>> f1(1, 2, 3, 'a', 'b')
a = 1 b = 2 c = 3 args = ('a', 'b') kw = {}
>>> f1(1, 2, 3, 'a', 'b', x=99)
a = 1 b = 2 c = 3 args = ('a', 'b') kw = {'x': 99}
>>> f2(1, 2, d=99, ext=None)
a = 1 b = 2 c = 0 d = 99 kw = {'ext': None}

高级特性

切片

典型的如list。

#取后10个数
>>> L[-10:]
[90, 91, 92, 93, 94, 95, 96, 97, 98, 99]
 
#前10个数，每两个取一个
>>> L[:10:2]
[0, 2, 4, 6, 8]
 
#所有数，每5个取一个
>>> L[::5]
[0, 5, 10, 15, 20, 25, 30, 35, 40, 45, 50, 55, 60, 65, 70, 75, 80, 85, 90, 95]

tuple也是一种list，唯一区别是tuple不可变。因此，tuple也可以用切片操作，只是操作的结果仍是tuple。
字符串’xxx’也可以看成是一种list。因此，字符串也可以用切片操作，只是操作结果仍是字符串。

>>> (0, 1, 2, 3, 4, 5)[:3]
(0, 1, 2)
 
>>> 'ABCDEFG'[:3]
'ABC'
>>> 'ABCDEFG'[::2]
'ACEG'

可迭代对象 Iterable

只要是可迭代对象，就可以使用for循环来迭代。
如何判断一个对象是否可迭代对象？可以通过collections模块的Iterable类型来判断。

>>> from collections import Iterable
>>> isinstance('abc', Iterable) # str是否可迭代
True
>>> isinstance([1,2,3], Iterable) # list是否可迭代
True
>>> isinstance(123, Iterable) # 整数是否可迭代
False

Python内置的enumerate函数可以把一个list变成索引-元素对，这样就可以在for循环中同时迭代索引和元素本身：

>>> for i, value in enumerate(['A', 'B', 'C']):
...     print(i, value)
...
0 A
1 B
2 C

列表生成式

即List Comprehensions，是Python内置的非常简单却强大的可以用来创建list的生成式。
用列表生成式，一行就可以搞定。

>>> [x * x for x in range(1, 11)]
[1, 4, 9, 16, 25, 36, 49, 64, 81, 100]
 
>>> [x * x for x in range(1, 11) if x % 2 == 0]
[4, 16, 36, 64, 100]
 
>>> [m + n for m in 'ABC' for n in 'XYZ']
['AX', 'AY', 'AZ', 'BX', 'BY', 'BZ', 'CX', 'CY', 'CZ']
 
>>> d = {'x': 'A', 'y': 'B', 'z': 'C' }
>>> [k + '=' + v for k, v in d.items()]
['y=B', 'x=A', 'z=C']

写列表生成式时，把要生成的元素x * x放到前面，后面跟for循环，就可以把list创建出来。

生成器 generator

通过列表生成式，我们可以直接创建一个列表。但是，受到内存限制，列表容量肯定是有限的。而在python中这种一边循环一边计算的机制，称为生成器：generator。generator是非常强大的工具。
要创建一个generator，有很多种方法。第一种方法很简单，只要把一个列表生成式的[]改成()，就创建了一个generator。

>>> L = [x * x for x in range(10)]
>>> L
[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]
>>> g = (x * x for x in range(10))
>>> g
<generator object <genexpr> at 0x1022ef630>

定义generator的另一种方法是，如果一个函数定义中包含yield关键字，那么这个函数就不再是一个普通函数，而是一个generator。

def fib(max):
    n, a, b = 0, 0, 1
    while n < max:
        yield b
        a, b = b, a + b
        n = n + 1
    return 'done'

可以通过next()函数获得generator的下一个返回值，直到没有更多的元素时，会抛出StopIteration错误。但这种方法有点那啥了，正确的方法是使用for循环，因为generator也是可迭代对象。通过for循环来迭代它，我们还不需要关心StopIteration的错误。

>>> g = (x * x for x in range(3))
>>> for n in g:
...     print(n)
... 
0
1
4
 
>>> for n in fib(6):
...     print(n)
...
1
1
2
3
5
8

for循环过程中不断调用yield，就会不断中断,获得yeild的返回值。但是for循环没法获得retunrn语句的返回值。想要拿到返回值，就必须捕获StopIteration错误，返回值包含在StopIteration的value中：

>>> g = fib(6)
>>> while True:
...     try:
...         x = next(g)
...         print('g:', x)
...     except StopIteration as e:
...         print('Generator return value:', e.value)
...         break
...
g: 1
g: 1
g: 2
g: 3
g: 5
g: 8
Generator return value: done

迭代器 Iterator

Iterable类型：凡是可作用于for循环的对象都是Iterable类型，统称可迭代对象。我们已知的数据类型有：一类是集合数据类型，如list、tuple、dict、set、str等。一类就是generator，可以使用isinstance()判断一个对象是否是Iterable对象。

迭代器Iterator：可以被next()函数调用并不断返回下一个值的对象称为迭代器：Iterator。可以使用isinstance()判断一个对象是否是Iterator对象。

生成器generator都是Iterator对象，但list、dict、str虽然是Iterable，却不是Iterator。
把list、dict、str等Iterable变成Iterator可以使用iter()函数。为什么它们不能是Iterator呢？

这是因为Python的Iterator对象表示的是一个数据流，Iterator对象可以被next()函数调用并不断返回下一个数据，直到没有数据时抛出StopIteration错误。可以把这个数据流看做是一个有序序列，但我们却不能提前知道序列的长度，只能不断通过next()函数实现按需计算下一个数据。Iterator甚至可以表示一个无限大的数据流。

>>> from collections import Iterable
>>> from collections import Iterator
 
>>> isinstance([], Iterable)
True
 
>>> isinstance((x for x in range(10)), Iterator)
True
>>> isinstance([], Iterator)
False
 
>>> isinstance(iter([]), Iterator)
True

Python的for循环本质上就是通过不断调用next()函数实现的，两者等价：

for x in [1, 2, 3, 4, 5]:
    pass
 
# 首先获得Iterator对象:
it = iter([1, 2, 3, 4, 5])
# 循环:
while True:
    try:
        # 获得下一个值:
        x = next(it)
    except StopIteration:
        # 遇到StopIteration就退出循环
        break

posted @ 2017-07-26 19:51 天涯海角路阅读(202) 评论(0) 收藏举报

刷新页面返回顶部

天涯海角路

Python语言学习笔记（一）

Python语言学习笔记（一）

Python简介

Python解释器

CPython

IPython

其他解释器（仅做了解）

Python基础

数据类型和变量

字符串输出格式控制

关于空值

字符串编码问题

list、tuple、dict、set

函数

函数的参数

默认参数

可变参数

关键字参数

命名关键字参数

参数组合

高级特性

切片

可迭代对象 Iterable

列表生成式

生成器 generator

迭代器 Iterator

公告