列表推导式 VS 生成器表达式

生成器表达式和推导式（通常指列表推导式）是 Python 中非常相似但用途截然不同的两种工具。它们的核心区别在于内存使用方式和计算时机。

简单来说，你可以把它们想象成两种不同的数据处理方式：

列表推导式适用于数据量不大，并且你需要对整个数据集进行多次访问、修改或随机读取的场景。

定义语法：

# [表达式 for 变量 in 可迭代对象 if 条件]
squares = [x**2 for x in range(10) if x % 2 == 0]
print(squares) # 输出:

典型使用场景：

生成器表达式是处理大数据流或只需要单次遍历场景的利器，它能极大地节省内存。

定义语法：

# (表达式 for 变量 in 可迭代对象 if 条件)
squares_gen = (x**2 for x in range(10) if x % 2 == 0)
print(squares_gen) # 输出: <generator object <genexpr> at 0x...>

你需要通过 for 循环或 next() 函数来“驱动”它生成数据。

典型使用场景：

数据量巨大：处理百万、千万级别的数据，避免内存溢出（OOM）。
单次遍历：数据只需要被消费一次，比如在 for 循环中。
作为函数参数：直接传给 sum(), max(), any() 等一次性消耗迭代器的函数，非常高效。
```
# 计算平方和，无需创建中间列表
total = sum(x**2 for x in range(1000000))
```

一个常见的错误是认为 list(x for x in range(10)) 是一种优化写法。实际上，这完全抵消了生成器的优势，因为它会立即将生成器中的所有元素加载到一个列表中，效果和 [x for x in range(10)] 一样，但多此一举。

总结一下：

posted @ 2026-04-10 10:54 深海里游弋的鱼阅读(37) 评论(0) 收藏举报

刷新页面返回顶部

onionCheng