python迭代器

楔子

假如我现在有一个列表l=['a','b','c','d','e']，我想取列表中的内容，有几种方式？

首先，我可以通过索引取值l[0],其次我们是不是还可以用for循环来取值呀？

你有没有仔细思考过，用索引取值和for循环取值是有着微妙区别的。

如果用索引取值，你可以取到任意位置的值，前提是你要知道这个值在什么位置。

如果用for循环来取值，我们把每一个值都取到，不需要关心每一个值的位置，因为只能顺序的取值，并不能跳过任何一个直接去取其他位置的值。

但你有没有想过，我们为什么可以使用for循环来取值？

for循环内部是怎么工作的呢？

迭代器

python中的for循环

要了解for循环是怎么回事儿，咱们还是要从代码的角度出发。

首先，我们对一个列表进行for循环。

for i in [1,2,3]:
     print(i)
上面这段代码肯定是没有问题的，但是我们换一种情况，来循环一个数字1234试试

for i in 1234:
     print(i)
结果：

Traceback (most recent call last):
File "C:/Users/limuc/PycharmProjects/untitled/app/day013.py", line 4, in <module>
for i in 1234:
TypeError: 'int' object is not iterable

看，报错了！报了什么错呢？“TypeError: 'int' object is not iterable”，说int类型不是一个iterable，那这个iterable是个啥？

假如你不知道什么是iterable，我们可以翻翻词典，首先得到一个中文的解释，尽管翻译过来了你可能也不知道，但是没关系，我会带着你一步一步来分析。

迭代和可迭代协议

什么叫迭代

现在，我们已经获得了一个新线索，有一个叫做“可迭代的”概念。

首先，我们从报错来分析，好像之所以1234不可以for循环，是因为它不可迭代。那么如果“可迭代”，就应该可以被for循环了。

这个我们知道呀，字符串、列表、元组、字典、集合都可以被for循环，说明他们都是可迭代的。

我们怎么来证明这一点呢？

from collections import Iterable  # 导入判断是否可迭代模块

l = [1, 2, 3, 4]
t = (1, 2, 3, 4)
d = {1: 2, 3: 4}
s = {1, 2, 3, 4}

print(isinstance(l, Iterable)) # True
print(isinstance(t, Iterable)) # True
print(isinstance(d, Iterable)) # True
print(isinstance(s, Iterable)) # True
结果都为True所以列表、元组、字典、集合都是可迭代的
结合我们使用for循环取值的现象，再从字面上理解一下，其实迭代就是我们刚刚说的，可以将某个数据集内的数据“一个挨着一个的取出来”，就叫做迭代。
可迭代协议

我们现在是从结果分析原因，能被for循环的就是“可迭代的”，但是如果正着想，for怎么知道谁是可迭代的呢？

假如我们自己写了一个数据类型，希望这个数据类型里的东西也可以使用for被一个一个的取出来，那我们就必须满足for的要求。这个要求就叫做“协议”。

可以被迭代要满足的要求就叫做可迭代协议。可迭代协议的定义非常简单，就是内部实现了__iter__方法。

接下来我们就来验证一下：

print(dir([1,2]))
['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
print(dir((1,2)))
['__add__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__getnewargs__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__rmul__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__', 'count', 'index']
print(dir({1:2,}))
['__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'clear', 'copy', 'fromkeys', 'get', 'items', 'keys', 'pop', 'popitem', 'setdefault', 'update', 'values']
print(dir({1,2,3,1}))
['__and__', '__class__', '__contains__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__iand__', '__init__', '__init_subclass__', '__ior__', '__isub__', '__iter__', '__ixor__', '__le__', '__len__', '__lt__', '__ne__', '__new__', '__or__', '__rand__', '__reduce__', '__reduce_ex__', '__repr__', '__ror__', '__rsub__', '__rxor__', '__setattr__', '__sizeof__', '__str__', '__sub__', '__subclasshook__', '__xor__', 'add', 'clear', 'copy', 'difference', 'difference_update', 'discard', 'intersection', 'intersection_update', 'isdisjoint', 'issubset', 'issuperset', 'pop', 'remove', 'symmetric_difference', 'symmetric_difference_update', 'union', 'update']

总结一下我们现在所知道的：可以被for循环的都是可迭代的，要想可迭代，内部必须有一个__iter__方法。

接着分析，__iter__方法做了什么事情呢？

print([1,2].__iter__())
<list_iterator object at 0x035BE580>
执行了list([1,2])的__iter__方法，我们好像得到了一个list_iterator，现在我们又得到了一个新名词——iterator

迭代器协议

既什么叫“可迭代”之后，又一个历史新难题，什么叫“迭代器”？

虽然我们不知道什么叫迭代器，但是我们现在已经有一个迭代器了，这个迭代器是一个列表的迭代器。

我们来看看这个列表的迭代器比起列表来说实现了哪些新方法，这样就能揭开迭代器的神秘面纱了吧。。

print(dir([1,2].__iter__()))
['__class__', '__delattr__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__iter__', '__le__', '__length_hint__', '__lt__', '__ne__', '__new__', '__next__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__setstate__', '__sizeof__', '__str__', '__subclasshook__']
print(dir([1,2]))
['__add__', '__class__', '__contains__', '__delattr__', '__delitem__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__getattribute__', '__getitem__', '__gt__', '__hash__', '__iadd__', '__imul__', '__init__', '__init_subclass__', '__iter__', '__le__', '__len__', '__lt__', '__mul__', '__ne__', '__new__', '__reduce__', '__reduce_ex__', '__repr__', '__reversed__', '__rmul__', '__setattr__', '__setitem__', '__sizeof__', '__str__', '__subclasshook__', 'append', 'clear', 'copy', 'count', 'extend', 'index', 'insert', 'pop', 'remove', 'reverse', 'sort']
print(set(dir([1,2].__iter__()))-set(dir([1,2])))
{'__setstate__', '__next__', '__length_hint__'}
我们看到在列表迭代器中多了三个方法，那么这三个方法都分别做了什么事呢？

iter1 = [1,2,3].__iter__()
print(iter1.__length_hint__())
# 3 获取迭代器中元素的长度
print("**",iter1.__setstate__(1))
# ** None 指定索引从哪里开始迭代
print(iter1.__next__())
print(iter1.__next__())
结果：
3
** None
2
3

这三个方法中，能让我们一个一个取值的神奇方法是谁？

没错！就是__next__

在for循环中，就是在内部调用了__next__方法才能取到一个一个的值。

那接下来我们就用迭代器的next方法来写一个不依赖for的遍历。

l = [1,2,3,4]
l_iter = l.__iter__()
item = l_iter.__next__()
print(item)
item = l_iter.__next__()
print(item)
item = l_iter.__next__()
print(item)
item = l_iter.__next__()
print(item)
item = l_iter.__next__()
print(item)

这是一段会报错的代码，如果我们一直取next取到迭代器里已经没有元素了，就会抛出一个异常StopIteration，告诉我们，列表中已经没有有效的元素了。

这个时候，我们就要使用异常处理机制来把这个异常处理掉。

l = [1,2,3,4]
l_iter = l.__iter__()
while True:
    try:
        item = l_iter.__next__()
        print(item)
    except StopIteration:
        break
那现在我们就使用while循环实现了原本for循环做的事情，我们是从谁那儿获取一个一个的值呀？是不是就是l_iter？好了，这个l_iter就是一个迭代器。

迭代器遵循迭代器协议：必须拥有__iter__方法和__next__方法。

还账：next和iter方法

如此一来，关于迭代器和生成器的方法我们就还清了两个，最后我们来看看range()是个啥。首先，它肯定是一个可迭代的对象，但是它是否是一个迭代器？我们来测试一下

range函数的返回值是一个可迭代对象

print('__next__' in dir(range(12)))  #查看'__next__'是不是在range()方法执行之后内部是否有__next__
结果为：False
print('__iter__' in dir(range(12)))  #查看'__next__'是不是在range()方法执行之后内部是否有__next__
结果为：True

from collections.abc import Iterator
print(isinstance(range(100000000), Iterator))  # 验证range执行之后得到的结果不是一个迭代器
# 结果为：False

为什么要有for循环
基于上面讲的列表这一大堆遍历方式，聪明的你立马看除了端倪，于是你不知死活大声喊道，你这不逗我玩呢么，有了下标的访问方式，我可以这样遍历一个列表啊

l = [1,2,3]
index = 0
while index < len(l):
    print(l[index])
    index += 1

# 要毛线for循环，要毛线可迭代、要毛线迭代器
没错，序列类型字符串，列表，元组都有下标，你用上述的方式访问，perfect！但是你可曾想过非序列类型像字典，集合，文件对象的感受，所以嘛，年轻人，
for循环就是基于迭代器协议提供了一个统一的可以遍历所有对象的方法，即在遍历之前，先调用对象的__iter__方法将其转换成一个迭代器，然后使用迭代器协议去实现循环访问，
这样所有的对象就都可以通过for循环来遍历了，而且你看到的效果也确实如此，这就是无所不能的for循环，觉悟吧，年轻人

生成器
初识生成器

我们知道的迭代器有两种：一种是调用方法直接返回的，一种是可迭代对象通过执行iter方法得到的，迭代器有的好处是可以节省内存。如果在某些情况下，我们也需要节省内存,就只能自己写。我们自己写的这个能实现迭代器功能的东西就叫生成器。

Python中提供的生成器：

1.生成器函数：常规函数定义，但是，使用yield语句而不是return语句返回结果。yield语句一次返回一个结果，在每个结果中间，挂起函数的状态，以便下次重它离开的地方继续执行

2.生成器表达式：类似于列表推导，但是，生成器返回按需产生结果的一个对象，而不是一次构建一个结果列表

生成器Generator：

　　本质：迭代器(所以自带了__iter__方法和__next__方法，不需要我们去实现)

　　特点：惰性运算,开发者自定义

生成器函数

一个包含yield关键字的函数就是一个生成器函数。yield可以为我们从函数中返回值，但是yield又不同于return，return的执行意味着程序的结束，调用生成器函数不会得到返回的具体的值，而是得到一个可迭代的对象。每一次获取这个可迭代对象的值，就能推动函数的执行，获取新的返回值。直到函数执行结束

初试生成器函数

import time
def genrator_f():
    a =1
    print('定义了a变量')
    yield a
    b = 2
    print('定义了b变量')
    yield b
g = genrator_f()
print(g)
# <generator object genrator_f at 0x03522AE0>
print('-'*20)
print(next(g))
time.sleep(1) # sleep 一秒看清执行过程
print(next(g))

生成器有什么好处呢？就是不会一下子在内存中生成太多数据
假如我想让工厂给学生做校服，生产2000000件衣服，我和工厂一说，工厂应该是先答应下来，然后再去生产，我可以一件一件的要，也可以根据学生一批一批的找工厂拿。
而不能是一说要生产2000000件衣服，工厂就先去做生产2000000件衣服，等回来做好了，学生都毕业了。。。

初识生成器二

def procduce():
    """生产衣服"""
    for i in range(2000000):
        yield "生产了第%s件衣服"%i
g = procduce()

print(next(g))  # 生产了第0件衣服
print(next(g))  # 生产了第1件衣服
print(next(g))  # 生产了第2件衣服

num = 0
for i in g:
    print(i)
    num += 1
    if num == 5:
        break
到这里我们找工厂拿了8件衣服，我一共让我的生产函数(也就是produce生成器函数)生产2000000件衣服。
剩下的还有很多衣服，我们可以一直拿，也可以放着等想拿的时候再拿

更多应用
生成监听文件输入的例子

def tail(filename):
    f = open(filename,mode='r',encoding='utf-8')
    while 1:
        line = f.readline()
        if line.strip():
            yield line.strip()
g = tail('file')
for i in g:
    print('****',i)
send

def generator():
    print(123)
    content = yield 1
    print('======',content)
    print(456)
    yield 2
g = generator()
ret = g.__next__()
print(ret)
ret = g.send('hello')  #send的效果和next一样
print('****',ret)

#send 获取下一个值的效果和next基本一致
#只是在获取下一个值的时候，给上一yield的位置传递一个数据
#使用send的注意事项
    # 第一次使用生成器的时候 是用next获取下一个值
    # 最后一个yield不能接受外部的值
计算移动平均值

def avg():
    total = 0
    count = 0
    avege = None
    while 1:
        sed = yield avege
        total += sed
        count += 1
        avege = round(total/count)
g = avg()
print(next(g))
print(g.send(20))
print(g.send(30))
print(g.send(20))
计算移动平均值2——预激协程的装饰器

def init(f): #在调用配装饰生成器函数的时候首先用next激活生成器
    def inner(*args,**kwargs):
        ret = f(*args,**kwargs)
        next(ret)
        return ret
    return inner
@init #实际等于 avg = init(avg)
def avg():
    total = 0
    count = 0
    avege = None
    while 1:
        sed = yield avege
        total += sed
        count += 1
        avege = round(total/count)
g = avg()
# print(next(g)) 在装饰器中执行了next方法
print(g.send(20))
print(g.send(30))
print(g.send(20))

yield from

def gen1():
    for c in 'AB':
        yield c
    for i in range(3):
        yield i
print(list(gen1()))
#结果：['A', 'B', 0, 1, 2]
def gen2():
    yield from 'AB'
    yield from range(3)

print(list(gen2()))
# 结果:['A', 'B', 0, 1, 2]

列表推导式和生成器表达式
#老男孩由于峰哥的强势加盟很快走上了上市之路,alex思来想去决定下几个鸡蛋来报答峰哥

egg_list = ['鸡蛋%s' %i for i in range(10)] #列表解析
print(egg_list)

#峰哥瞅着alex下的一筐鸡蛋,捂住了鼻子,说了句:哥,你还是给我只母鸡吧,我自己回家下

老母鸡 = ('鸡蛋%s' %i for i in range(10)) #小括号及时生成器表达式
print(老母鸡) # <generator object <genexpr> at 0x02E32BC0> 老母鸡是一个生成器
print(next(老母鸡)) #next本质就是调用__next__
print(老母鸡.__next__())
print(next(老母鸡))
# 鸡蛋0
# 鸡蛋1
# 鸡蛋2
总结:
1.把列表解析的[]换成()得到的就是生成器表达式
2.列表解析与生成器表达式都是一种便利的编程方式，只不过生成器更节省内存。
3.Python不但使用迭代器协议，让for循环变得更加通用。大部分内置函数，也是使用迭代器协议访问对象的。
例如：sum函数是Python的内置函数，该函数使用迭代器协议访问对象，而生成器实现了迭代器协议，所以，我们
可以直接这样计算一系列值的和。

sum(x ** 2 for x in range(4))

s = sum(x ** 2 for x in range(4))
print(s) # 14
而不用多此一举的先构造一个列表：

lis = [x ** 2 for x in range(4)] #两个**是次方
print(lis)

各种推导式详解
推导式的套路

之前我们已经学习了最简单的列表推导式和生成器表达式。但是除此之外，其实还有字典推导式、集合推导式等等。

下面是一个以列表推导式为例的推导式详细格式，同样适用于其他推导式。

input_list = '257946585299'
varable = [ out_exp for out_exp in input_list if int(out_exp) == 2 ]
print(varable) 
结果: ['2', '2']
out_exp 列表生成元素表达式，可以是有返回值的函数。
for out_exp in input_list: 迭代input_list将out_exp传入out_exp表达式中
if out_exp == 2: 根据条件过滤哪些值可以。

相当于：[每一个元素或者是和元素相关的操作 for 元素 in 可可迭代数据类型]遍历之后诶个处理

[满足条件的元素相关的操作 for 元素 in 可迭代数据类型 if 元素相关的条件] 筛选的功能

例一：50以内所有能被3整除的数

lis = [i for i in range(50) if i%3 ==0]
print(lis)
[0, 3, 6, 9, 12, 15, 18, 21, 24, 27, 30, 33, 36, 39, 42, 45, 48]

例二：30以内所有能被3整除的数的平方

lis = [i*i for i in range(30) if i%3 ==0]
print(lis)
[0, 9, 36, 81, 144, 225, 324, 441, 576, 729]

例三:找到嵌套列表中名字含有两个‘e’的所有名字

 names = [['Tom', 'Billy', 'Jefferson', 'Andrew', 'Wesley', 'Steven', 'Joe'],
#          ['Alice', 'Jill', 'Ana', 'Wendy', 'Jennifer', 'Sherry', 'Eva']]
# # 普通模式
# for i in names:
#     for k in i:
#         if  k.count('e') >=2:
#             print(k)
# # 推导式模式
# name_list = [c for lst in names for c in lst if c.count('e') >= 2] # 注意遍历顺序，这是实现的关键
# print(name_list)
# print([name for lst in names for name in lst if name.count('e') >= 2])  # 注意遍历顺序，这是实现的关键

四层套用


names = [[['Tom', 'Billy', 'Jefferson', 'Andrew', 'Wesley', 'Steven', 'Joe'],
         ['Alice', 'Jill', 'Ana', 'Wendy', 'Jennifer', 'Sherry', 'Eva']]]

print([name for list_name in names for lis_name in list_name for name in lis_name if name.count('e') == 2])
# ['Jefferson', 'Wesley', 'Steven', 'Jennifer']

字典推导式

例一：将一个字典的key和value对调

字典推导式1

mcase = {'a': 10, 'b': 34}
mcase_key = {mcase[k]: k for k in mcase}
print(mcase_key)

例二：合并大小写对应的value值，将k统一成小写

mcase = {'a': 10, 'b': 34, 'A': 7, 'Z': 3}
mac_new_dic = {k.lower(): mcase.get(k.lower(),0)+ mcase.get(k.upper(),0) for k in mcase}
print(mac_new_dic)
{'a': 17, 'b': 34, 'z': 3}

集合推导式

例：计算列表中每个值的平方，自带去重功能

squared = {x**2 for x in [1, -1, 2]}
print(squared)
# Output: set([1, 4])

# 练习题：
# 例1:  过滤掉长度小于3的字符串列表，并将剩下的转换成大写字母
str_lit = ['ete','tefe','ege','fef']
[str_nm.upper for str_nm in str_lit if len(str_nm) > 3]
# 例2:  求(x,y)其中x是0-5之间的偶数，y是0-5之间的奇数组成的元祖列表
print([(x,y) for x in range(5) if x%2 == 0 for y in range(5) if y % 2 == 1])
# [(0, 1), (0, 3), (2, 1), (2, 3), (4, 1), (4, 3)]
# 例3:  求M中3,6,9组成的列表M = [[1,2,3],[4,5,6],[7,8,9]]
m = [[1,2,3],[4,5,6],[7,8,9]]
m_lit = [[i,x,y] for lit_i in m for i in lit_i if i == 3 for list_x in m for x in list_x if x == 6 for lit_y in m for y in lit_y if y == 9]
m_lit = [i for lit_i in m for i in lit_i if i == 3 or i == 6 or i == 9]
print(m_lit) # 不知道位置这样写只能列表套列表
#知道位置的情况下可以这个写
print([row[2] for row in m])



本章小结

可迭代对象：

　　拥有__iter__方法

　　特点：惰性运算

　　例如:range(),str,list,tuple,dict,set

迭代器Iterator：

　　拥有__iter__方法和__next__方法

　　例如:iter(range()),iter(str),iter(list),iter(tuple),iter(dict),iter(set),reversed(list_o),map(func,list_o),filter(func,list_o),file_o

生成器Generator：

　　本质：迭代器，所以拥有__iter__方法和__next__方法

　　特点：惰性运算,开发者自定义

使用生成器的优点：

1.延迟计算，一次返回一个结果。也就是说，它不会一次生成所有的结果，这对于大数据量处理，将会非常有用

列表解析式和生成器表达

#列表解析
sum([i for i in range(100000000)])#内存占用大,机器容易卡死
 
#生成器表达式
sum(i for i in range(100000000))#几乎不占内存

2.提高代码可读性
生成器相关的面试题

生成器在编程中发生了很多的作用，善用生成器可以帮助我们解决很多复杂的问题

除此之外，生成器也是面试题中的重点，在完成一些功能之外，人们也想出了很多魔性的面试题。
接下来我们就来看一看～

题1

def demo():
for i in range(4):
yield i

g=demo()

g1=(i for i in g)
g2=(i for i in g1)
# g1和g2分别拿值时都可以拿到0，1，2，3
print(list(g1))转化为列表时可以拿到0，1，2，3
print(list(g2))这次拿不到值，因为上面已经拿值拿空了

题2

def add(n,i):
    return n+i

def test():
    for i in range(4):
        yield i

g=test()
for n in [1,10]:
    g=(add(n,i) for i in g)
#以下是拆开的步骤
# n = 1
# g=(add(n,i) for i in g) #这里的in后面g实际是 [0,1,2,3]
# # 1,2,3,4
# n = 10
# g=(add(n,i) for i in (add(n,i) for i in test())) #这是n=10上面都不会执行，只是多几次赋值和套用而已
#套用的到最后一步才开始计算
print(list(g))
# [20, 21, 22, 23]

题3

import os

def init(func):
    def wrapper(*args,**kwargs):
        g=func(*args,**kwargs)
        next(g)
        return g
    return wrapper

@init
def list_files(target):
    while 1:
        dir_to_search=yield
        for top_dir,dir,files in os.walk(dir_to_search):
            for file in files:
                target.send(os.path.join(top_dir,file))
@init
def opener(target):
    while 1:
        file=yield
        fn=open(file)
        target.send((file,fn))
@init
def cat(target):
    while 1:
        file,fn=yield
        for line in fn:
            target.send((file,line))

@init
def grep(pattern,target):
    while 1:
        file,line=yield
        if pattern in line:
            target.send(file)
@init
def printer():
    while 1:
        file=yield
        if file:
            print(file)

g=list_files(opener(cat(grep('python',printer()))))

g.send('/test1')

协程应用：grep -rl /dir

posted @ 2020-07-12 11:38 TinaLi 阅读(188) 评论(0) 收藏举报

刷新页面返回顶部

python迭代器

楔子

公告