<a id="Header1_HeaderTitle" class="headermaintitle HeaderMainTitle" href="https://www.cnblogs.com/apachecn">龙哥盟

·发布在 Towards Data Science ·4 分钟阅读·2023 年 1 月 7 日

照片由 Ciprian Boiciuc 提供，出处 Unsplash

欢迎来到我们的教程，介绍如何将 PyMongo 游标序列化为 JSON。在本文中，我们将讨论如何使用自定义 JSONEncoder 正确处理 ObjectId 和 datetime 对象以及其他对象。

在使用 PyMongo 时，一个常见的任务是将数据序列化以便存储或通过网络传输。在本教程中，我们将探讨如何将 PyMongo 游标（这是一个常用于存储 MongoDB 查询结果的数据结构）序列化为 JSON 格式。

常见的错误是 TyperError：

TypeError: ObjectId('') is not JSON serializable

我们还将深入探讨如何正确处理复杂数据类型，如 ObjectId 和 datetime 对象，这些对象不能直接序列化为 JSON。我们将向您展示如何使用自定义 JSONEncoder 正确处理这些对象及您 PyMongo 游标中的其他自定义对象类型。

所以，如果您想了解如何将 PyMongo 游标序列化为 JSON 并处理复杂数据类型，请继续阅读！

创建自定义 `JSONEncoder`

JSONEncoder —— 这是标准库 json 模块的一个成员 —— 是一个可扩展的 JSON 编码器，用于 Python 数据结构。默认情况下，它支持以下序列化：

+-----------------------------------------+--------+
|   Python                                | JSON   |
+-----------------------------------------+--------+
| dict                                    | object |
| list, tuple                             | array  |
| str                                     | string |
| int, float, int & float-derived Enums   | number |
| True                                    | true   |
| False                                   | false  |
| None                                    | null   |
+-----------------------------------------+--------+

这意味着每当观察到不同数据类型的对象（未列在上述表格中）时，将引发 TypeError。

在处理 Mongo 中的文档时，每个文档默认都会有一个分配的_id，这对应于集合中每个文档的唯一标识符。现在每当你查询 Mongo 集合时，将返回一个游标，该游标包含（指向）检索到的文档，每个文档还将有一个ObjectId类型的_id字段。

因此，如果你尝试使用默认的JSONEncoder来序列化这些文档，你将会遇到在本教程介绍中提到的错误：

TypeError: ObjectId('') is not JSON serializable

因此，为了能够序列化 PyMongo 游标中包含的这些对象，我们需要扩展默认的JSONEncoder，以便它能够按照我们希望的方式正确处理这些数据类型。为此，我们还需要实现default方法以返回我们希望的映射，如文档中所述。

要扩展以识别其他对象，请子类化并实现一个[default()](https://docs.python.org/3/library/json.html#json.JSONEncoder.default)方法，该方法返回一个可序列化的对象o（如果可能），否则应调用超类实现（以引发[TypeError](https://docs.python.org/3/library/exceptions.html#TypeError)）。

— Python 文档

在我们的自定义JSONEncoder中，我将把任何bson.ObjectId和datetime.datetime实例序列化为str。根据你自己 Mongo 游标中的文档，你可能需要指定并处理额外（或更少）的数据类型。

import json
from datetime import datetime
from typing import Any

from bson import ObjectId

class MongoJSONEncoder(json.JSONEncoder):
    def default(self, o: Any) -> Any:
        if isinstance(o, ObjectId):
            return str(o)
        if isinstance(o, datetime):
            return str(o)
        return json.JSONEncoder.default(self, o)

使用 MongoJSONEncoder 编码 Mongo 游标

现在我们已经扩展了默认的JSONEncoder，使其能够编码bson.ObjectId和datetime.datetime类型的对象，我们现在可以编码 Mongo 游标了。

data_json = MongoJSONEncoder().encode(list(cursor))

从 JSON 对象创建 Python 对象

最后，如果你希望将新创建的 JSON 对象转换为 Python 对象（即包含文档值的键值对的字典列表），你只需要调用json.loads()函数：

data_obj = json.loads(data_json)

最终思考

在本教程中，我们学习了如何将 PyMongo 游标序列化为 JSON 并正确处理复杂的数据类型，如ObjectId和datetime对象。我们通过创建一个扩展了默认JSONEncoder并实现了default()方法的自定义JSONEncoder来完成这一任务。

然后我们使用这个自定义编码器来编码 PyMongo 游标，最后，我们使用json.loads()函数将结果 JSON 对象转换为 Python 对象。本教程演示了如何处理ObjectId和datetime对象，但自定义的JSONEncoder也可以扩展以处理 PyMongo 游标中可能存在的其他自定义对象类型。

成为会员 ，在 Medium 上阅读每一篇故事。您的会员费直接支持我和其他您阅读的作者。您还将获得对 Medium 上每一篇故事的完全访问权限。

[## 使用我的推荐链接加入 Medium — Giorgos Myrianthous

作为 Medium 会员，您的会员费的一部分将用于支持您阅读的作者，您也将获得对每一篇故事的完全访问权限…

gmyrianthous.medium.com

您可能也感兴趣的相关文章

## Python 中的图表代码

使用 Python 创建云系统架构图

towardsdatascience.com ## 基础设施即代码

使用代码管理基础设施资源

towardsdatascience.com

Python 中的 pyproject.toml 是什么

原文：towardsdatascience.com/pyproject-python-9df8cc092f61

管理 Python 项目依赖的 `pyproject.toml` 文件

26efd18d-1c15-4b46-b574-58731b341c76.pyscriptapps.com/5b49c512-f88f-493c-9d62-f0d745a298ed/latest/

·发表在 Towards Data Science ·5 分钟阅读·2023 年 5 月 9 日

图片由 Fré Sonneveld 提供，来源于 Unsplash

Python 的依赖管理既复杂又令人沮丧。新手通常倾向于安装他们认为有用的任何依赖（即包），即使是在一个虚拟环境中。因此，这种方法增加了依赖包冲突的可能性，并最终陷入所谓的 依赖地狱。

在我之前的几篇文章中，我们介绍了几种处理 Python 项目依赖的方法，包括 setup.py、setup.cfg 和 requirements.txt 文件。然而，从 Python 3.6 开始，推出了一种新的标准配置文件 pyproject.toml，旨在简化用户管理依赖和元数据定义的方式。

在过去几年中，pyproject.toml 文件已成为管理 Python 项目依赖的标准（也是最受欢迎的）方式。在接下来的几个部分中，我们将深入探讨如何使用该文件实现依赖管理。此外，我们还将演示如何在可编辑模式下安装具有pyproject.toml 规范的项目。

订阅数据管道，这是一个专注于数据工程的新闻通讯

pyproject.toml 之前的依赖管理

当 Python 首次发布时，用于构建发行版的事实标准工具是 distutils。随着时间的推移，setuptools 出现，旨在在 distutils 的基础上构建额外功能。这两个工具都使用了一个 setup.py 文件，用户可以在其中指定依赖项和用于软件包构建分发的元数据。

然而，这造成了一个问题，因为任何选择使用 setuptools 的项目必须在 setup.py 文件中导入该包。因此，setup.py 在不知道其依赖项的情况下不能执行，但同时，该文件的目的就是确定这些依赖项。这就是我们在 Python 依赖管理中遇到所谓的鸡和蛋问题的原因。

我希望这些信息足以让你理解为何需要一种新的方法。如果你有兴趣了解有关 setuptools 和 pip 的鸡和蛋问题的更详细解释，确保阅读 PEP-518。

新提案（PEP-518 的一部分）旨在为 Python 项目指定一种新的方式来提前列出其依赖项，以便像 pip 这样的工具可以确保在项目构建之前安装它们。

pyproject.toml

pyproject.toml 文件作为 Python 增强提案 (PEP) 518 的一部分被引入，规定了 Python 项目必须如何指定构建依赖项。

这些构建依赖项将被存储在位于项目根目录的文件中，该文件遵循 TOML（Tom’s Obvious, Minimal Language）语法。

它包含了元数据，例如项目名称、版本、描述、作者、许可证以及各种其他细节。

pyproject.toml 文件的一个关键特性是能够定义项目依赖项。这允许开发人员指定运行项目所需的包及其版本。这有助于保持项目的一致性，并确保其他开发人员可以轻松地重现该项目。

pyproject.toml 文件还支持 extras 概念，允许开发人员为项目定义可选依赖项。这使得用户可以仅安装运行项目所需的必要依赖项。通常，在 extras 部分可以指定作为测试一部分的额外需求（例如 pytest）。

除了标准的元数据和依赖项外，pyproject.toml 文件还支持自定义字段，第三方工具可以使用这些字段。例如，你可以考虑使用 black 和 mypy 等代码检查工具、格式化工具和校验工具。这允许开发人员扩展文件的功能，并根据需要添加自定义字段。

管理 `pyproject.toml` 中的依赖项

pyproject.toml 可以与包依赖管理工具一起使用，例如 setuptools 和 poetry。

这是一个使用 poetry 的项目示例文件：

[build-system]
requires = ["poetry-core>=1.0.0"]
build-backend = "poetry.core.masonry.api"

[tool.poetry]
name = "my-project"
version = "1.0.0"
description = "My Python project"
authors = ["John Doe <john@doe.com>"]
license = "MIT"

[tool.poetry.dependencies]
python = "³.6"

[tool.poetry.dev-dependencies]
pytest = "⁴.6"

[tool.poetry.extras]
docs = ["sphinx"]

这是一个使用 setuptools 的示例：

[build-system]
requires = ["setuptools"]
build-backend = "setuptools.build_meta"

[project]
name = "my_package"
description = "My package description"
readme = "README.rst"
requires-python = ">=3.7"
keywords = ["one", "two"]
license = {text = "BSD 3-Clause License"}
classifiers = [
    "Framework :: Django",
    "Programming Language :: Python :: 3",
]
dependencies = [
    "requests",
    'importlib-metadata; python_version<"3.8"',
]
dynamic = ["version"]

[project.optional-dependencies]
pdf = ["ReportLab>=1.2", "RXP"]
rest = ["docutils>=0.3", "pack ==1.1, ==1.3"]

[project.scripts]
my-script = "my_package.module:function"

从 `pyproject.toml` 安装项目的可编辑模式

如果你在积极开发一个项目，你可能希望将项目本地安装为可编辑模式。当从特定位置以可编辑模式安装包时，对源代码的任何更改会立即在环境中反映出来（而无需重新安装“新”版本）。

假设你正在使用 poetry 来管理你的 Python 依赖，并且为了以可编辑模式安装 Python 项目，你需要在 pyproject.toml 文件中包含以下内容

[build-system]
requires = ["poetry-core>=1.0.8"]
build-backend = "poetry.core.masonry.api"

从项目的根目录，只需运行

$ pip install -e .

另外，poetry install 也会导致可编辑安装。你可以在我最新的文章中了解更多关于如何使用 Poetry 管理 Python 项目依赖的内容：

## 使用 Poetry 管理 Python 依赖

使用 Poetry 进行依赖管理和打包

towardsdatascience.com

最后的思考

在今天的文章中，我们讨论了在管理依赖和在社区中分发项目时 pyproject.toml 在 Python 中的使用。

总体而言，pyproject.toml 提供了一个标准且易于使用的 Python 项目配置。它简化了定义元数据和依赖的过程，并确保项目可以被其他开发者轻松重现。

订阅数据管道，一个专注于数据工程的新闻通讯

相关的文章你可能也喜欢

## setup.py 与 setup.cfg 在 Python 中的区别

使用 setuptools 管理依赖和分发 Python 包

towardsdatascience.com ## requirements.txt 与 setup.py 在 Python 中的区别

理解在 Python 开发和分发中 `requirements.txt`、`setup.py` 和 `setup.cfg` 的目的……

towardsdatascience.com ## 使用 Poetry 管理 Python 依赖

使用 Poetry 进行依赖管理和打包

towardsdatascience.com

PyrOSM：处理开放街图数据

原文：towardsdatascience.com/pyrosm-working-with-open-street-map-data-e3ac80922044?source=collection_archive---------4-----------------------#2023-10-21

高效的地理空间操作用于 OSM 地图数据

Dea Bardhoshi

关注发表在 Towards Data Science · 4 分钟阅读 · 2023 年 10 月 21 日

图片由 Tabea Schimpf 提供，来源于 Unsplash

如果你以前处理过 OSM 数据，你知道提取起来并不容易。OSM 数据可能非常庞大，找到有效的解决方案来分析你想要的内容往往是一项挑战。PyrOSM 是一个使读取和处理 OSM 数据的过程更加高效的包。怎么做到的？PyrOSM 基于 Cython（C Python）构建，并使用更快的库来反序列化 OSM 数据，同时还有像 numpy 数组这样的较小优化，使其能够快速处理数据。特别是如果你之前使用过 OSMnx（用于非常类似的用例），你会知道大型数据集加载到内存中需要很长时间，这就是 PyrOSM 可以帮助你处理它们的地方。让我们了解一下这个库能做什么吧！

🌎 PBF 数据

让我们谈谈 OSM 数据的具体文件格式。PBF 代表“Protocolbuffer Binary Format”，它在处理存储 OSM 数据时非常高效。OSM 数据组织成fileblocks，这些是可以独立编码或解码的数据组。Fileblocks 包含PrimitiveGroups，它们又包含成千上万的 OSM 实体，如节点、道路和关系。

数据可以根据用户期望的粒度级别进行缩放。例如，当前 OSM 数据库的分辨率约为 ~1 cm。实际上，如果你愿意，你可以将整个 Open Street Maps 数据下载到一个文件中，这个文件被称为 Planet（约 1000 Gb 的数据）！

👩‍💻 PyrOSM 基础：读取数据集

PyrOSM 是一个读取 Open Street Map 的 PBF 数据的包，基于两个主要的数据分发商：Geofabrik（全球和国家级数据）和 BBBike（城市级数据）。该包允许用户访问许多类型的功能：

建筑物、兴趣点（POIs）、土地使用
街道网络
自定义过滤器
作为网络导出
还有更多！

目前 BBBike 支持全球 235 个城市，你可以通过调用“sources.cities.available”方法轻松获取完整列表。入门非常简单，你只需初始化一个 OSM 读取器对象并加载所需的数据：

从这一点开始，你需要使用 OSM 对象来与 Berkeley 数据交互。现在让我们获取 Berkeley 的驾驶街道网络：

Berkeley 的 OSM 街道网络数据框

打印出实际的 street_network 对象显示它存储在一个 GeoPandas GeoDataFrame 中，包含所有 OSM 属性，如长度、高速公路、最高速度等，这对于进一步分析非常有用。

附注： BBBike（数据来源提供商）有许多其他大小的数据格式，包括 Organic Maps OSM、Garmin OSM 或 SVG Mapnik，这取决于你的使用案例。

🔍 更好的过滤

上述数据加载的结果包括了整个 Berkeley 的数据，实际上甚至包括了邻近城市的数据，这并不是理想的。那如果你想要一个更小或更具体的区域呢？这就是使用边界框的用武之地。你可以通过以下方式创建边界框：

手动指定一个格式为 [minx, miny, maxx, maxy] 的 4 个坐标列表
传入 Shapely 几何对象（例如 LineString 或 Multipolygon）

要查找边界框坐标，我通常使用这个 bbox finder 网站，它允许你绘制矩形然后复制坐标。以下是如何界定 UC Berkeley 校园周围的区域并获取其步行网络：

使用边界框的街道网络

🎯 导出和处理图形

PyrOSM 的另一个优点是它允许网络处理并与其他网络分析库连接。除了将街道网络保存为地理数据框外，PyrOSM 还允许你通过将节点和边存储在两个单独的数据框中来提取它们。这里是节点数据框：

从街道网络中提取的节点数据框

如果你有这些图形表示，保存为各种格式是非常简单的：OSMnx、igraph 和 Pandana 并在这些工具中使用它们。

💭 结束思考

这是 pyrosm 在你的地理空间工作中能为你提供的简短总结！我提到了几种非常有用的方法，比如从某个区域下载特定的数据集，或通过界定感兴趣区域以及它与其他库的关系。我认为 pyrosm 最棒的地方就是它能够弥合庞大的 OSM 数据集与工程或分析问题之间的差距。

感谢阅读！

PyScript.com：云中的 PyScript IDE

原文：towardsdatascience.com/pyscript-com-a-pyscript-ide-in-the-cloud-2b5bde6f0342

PyScript.com 是 Anaconda 推出的一个新在线 IDE，允许你创建、运行和托管 PyScript 应用。

Alan Jones

·发表于 Towards Data Science ·12 分钟阅读·2023 年 4 月 13 日

哇！他一定是个非常严肃和重要的程序员，如果他需要这么大的屏幕 —— 我很好奇为什么这些屏幕大多是空白的。照片由 Max Duzij 提供，来源于 Unsplash

注意：2023 年末发布了全新重写的 PyScript 版本，这可能使得此处描述的一些语法过时 —— 请参见 PyScript 正在成长 以获取更新。

好消息！目前还不清楚现有的 IDE 或编辑器哪个适合构建 PyScript 应用，但现在有了 PyScript.com，我们有了一个专用的在线 IDE。

它到底有多好？我们将会揭晓。

我们将来看看 Anaconda 的新 PyScript 在线 IDE：我将介绍这个新平台，我们会看看如何开始使用它编写 PyScript 应用，最后我们将完成一个完全功能且已部署的 PyScript 应用。

PyScript.com

Anaconda Inc. 对其新产品的看法毫不隐晦。

“这个革命性的平台使得 99% 的人能够进行编程，推动了 Anaconda 的使命，旨在使数据科学和 Python 开发民主化。” —— Anaconda Inc.

你无疑知道 Anaconda 是一家基于他们自己 Python 发行版的数据科学平台供应商。你可能还知道他们是 PyScript 的发明者（如果你一直关注我在 Medium 上的文章，你肯定知道 —— 见你好 PyScript，2023 年 PyScript 有何新变化和其他）。

Anaconda 通过PyScript.net网站发布了 PyScript；这是一个开源项目，致力于将 Python 应用程序创建为网页，并托管在 GitHub 上。

PyScript 基于 Pyodide，这是一个被移植到 WebAssembly 的 Python 解释器。WebAssembly 是一种将在浏览器中运行的低级语言，这意味着你现在可以在浏览器中本地运行 Python 程序。

当你考虑到这一点时，这确实是件大事。

使用 PyScript，你可以编写与 Javascript 和 DOM 通信的 Python 应用程序，从而创建无需服务器的以 Python 为中心的 Web 应用程序——上传到 Web 主机，它们就能正常工作！

PyScript.net 和 PyScript.com

PyScript.com 不应与 PyScript.net 混淆。新网站不是开源产品的一部分，而是一个新的在线编程环境。根据 Anaconda 的说法：

“一个自由且灵活的编码平台，世界上任何人都可以使用 Python 驱动的数据交互和计算创建下一代 Web 应用程序”

他们还继续说

“该平台现在作为软件服务免费提供。”

然而，这不会永远完全免费。通过创始人订阅的优惠，你可以用$150 获得一年的即将推出的付费功能的免费访问权（我目前不清楚这些功能是什么，但可以推测 Anaconda 认为它们值得付费。我猜测——希望——当前功能会保持免费）。

那么，究竟怎么回事？我们从 PyScript.com 中能得到什么？

入门

首先，你需要一个账户。没问题，前往网站，注册并登录。

你将看到仪表板，那里会有一个新的项目等待你。屏幕看起来大致是这样的：

PyScript.com 仪表板——作者的截图

“Weathered Moon”是为我创建的默认项目的可爱名称——你的项目会有不同的名字。（如果你觉得这个名字不够可爱——或者太可爱——你可以稍后更改名字。）

正如你所见，有选项可以查看或编辑网站，而点状菜单提供了额外的选项，如删除或复制项目。

点击“编辑”，项目将会打开。界面会有三个面板：左侧是文件管理器和编辑器，右侧是显示正在运行的项目的面板。（如果你使用的是手机或小浏览器窗口，配置可能会有所不同。）

默认项目包含三个文件，

index.html：定义了 HTML 中的网页
main.py：包含 Python 代码
pyscript.toml：这将是空的——稍后我们将看到它如何使用。

这是打开项目的截图——你不会对它的功能感到惊讶！

作者的默认项目截图

这个 Python 程序简单地打印了“Hello World！”，这也是应用程序所做的（嗯，你期待什么呢！）。但这个应用程序还有一点更多的内容。

正如我所说的，pyscript.toml 是空的，但让我们看看 HTML。点击 FILES 下的 index.html，它将（当然）在编辑器中弹出。这是你将看到的内容：

<!DOCTYPE html>
<html lang="en">
<head>
    <title>Weathered Moon</title>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width,initial-scale=1">
    <link rel="stylesheet" href="https://pyscript.net/releases/2023.03.1/pyscript.css" />
    <script defer src="https://pyscript.net/releases/2023.03.1/pyscript.js"></script>
</head>
<body>
    <py-config src="./pyscript.toml"></py-config>
    <py-script src="./main.py"></py-script>
</body>
</html>

这个 HTML 文件可以作为许多 PyScript 应用的基础。它的格式是 HTML，但有一些 PyScript 特有的部分。前两个部分是 <link> 和 <script> 标签，它们加载 pyscript.css 和 pyscript.js。这些是任何应用程序所必需的，它们加载使 Python 在浏览器中运行的组件。

接下来的 PyScript 特有部分在主体中；<py-config src="./pyscript.toml"> 加载配置。这可以直接包含在标签中，但将其隐藏在 pyscript.toml 文件中更为整洁。正如我之前所说，这个文件目前是空的，但我们很快会用到它。

然后，我们在 <py-script src="./main.py"> 标签中包含了来自 main.py 的 Python 代码。

一切都很漂亮、整洁且直接。

让我们回到 main.py。

print("Hello, World!")

然后进行更改。

print("Hello, Moon!")

现在点击“运行”按钮，你将看到右侧窗格中的新输出。

作者截图

这里到底发生了什么？在 Python 中，print 语句将内容写入标准输出设备（通常是屏幕），在 PyScript 中，它将内容写入名为 <py-terminal> 的标签中，除非在 HTML 文件中包含这个标签，否则这个标签会在第一次使用 print 时自动创建。因此，当执行 print("Hello Moon!") 时，网页中会创建 <py-terminal> 标签，并将 print 语句的输出写入其中。

坦白说，当我们在构建应用程序时，这并不是特别有用。它适合用于调试目的，但在构建应用程序时，我们生成的输出应该成为网页的一部分——例如在 <div> 中——要输出文本到任意 HTML 标签中，我们不会使用 print，而是使用 display。不过稍后会详细说明。

不过，首先，我们可以通过从右侧菜单中选择“查看站点”来查看浏览器中的应用程序。

作者截图

我这里不打算提供截图，它与预览窗格完全一样。值得稍微惊讶的是，应用程序会在浏览器的新标签页中出现，并且从网站实时提供。它有一个独特的公共 URL，你可以与任何人分享。为了证明这一点，网址如下：

现在把它输入到你的浏览器中——开玩笑的，当然这是一个链接。

让我们绘制一个图表

我们将对‘Hello World’应用进行一些扩展，制作一个展示 Python 代码和 HTML 如何良好协作的应用。

首先，作为一个好的起点，使用右侧菜单复制你现有的项目。

作者截图

然后我们会得到一个新项目

作者截图

要更改标题，请点击编辑按钮，如图所示，然后保存。

我们不会做任何特别复杂的事情，只是创建一个包含我们在 Python 中绘制的图表的网页。因此，我们需要调整 HTML 代码以适应这个需求。

<!DOCTYPE html>
<html lang="en">
<head>
    <title>Let's Plot a Graph</title>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width,initial-scale=1">
    <link rel="stylesheet" href="https://pyscript.net/releases/2023.03.1/pyscript.css" />
    <script defer src="https://pyscript.net/releases/2023.03.1/pyscript.js"></script>
</head>
<body>
    <py-config src="./pyscript.toml"></py-config>
    <py-script src="./main.py"></py-script>

    <h1>Let's Plot a Graph</h1>
    <div id="graph"></div>
</body>
</html>

你可以看到这是与我们开始时的 index.html 一样的，但做了一些更改。我更改了标题，并在正文末尾添加了两个标签，首先是一个 <h1> 标题，然后是一个 id 为“graph”的 <div> — 这就是图表将被绘制的位置。

先不要运行它（它仍然会显示‘Hello Moon’），我们需要将 Python 代码添加到 main.py 中。

import matplotlib.pyplot as plt
import pandas as pd

df = pd.DataFrame()
df['x'] = [1,2,3,4,5,6,7,8,9]
df['y'] = [1,2,3,4,5,6,7,8,9]

fig, ax = plt.subplots()
df.plot("x", "y", ax=ax)

display(fig, target="graph")

在导入模块后，我们创建一个 Pandas 数据框，包含两个列用于 x 和 y 轴。它们各自包含整数 1 到 9。接着，我们创建一个 mathplotlib 图形（当然，它将是一个直线图），然后使用 PyScript 命令 display 将图形显示在 id 为“graph”的 HTML 标签中。

现在我们可以运行它了吗？不，请稍微耐心一点。

我们在 Python 代码中导入了 pandas 和 mathplotlib 库，但这些库并不包含在 PyScript 包中。因此，我们需要在 <py-config> 中指定这些库，并在 <pyscript.toml> 中添加以下内容。

packages = ["pandas", "matplotlib"]

你可以使用一大堆 Python 包，但它们需要在配置中指定，并且需要在 Python 代码中导入。配置部分可以用于将外部文件，如数据文件，加载到应用程序中。

好，现在你可以运行它了。

作者截图

你可能之前已经注意到了，但如果你在其自身网页上查看项目，你会看到底部有一个链接。

作者截图

任何能够看到链接的人也可以访问你的代码。点击‘查看代码’链接将打开一个不可编辑（但可能可复制）的项目版本。

所以这就是一个简单的 PyScript 应用，有几点值得注意：

给你的默认文件 pyscript.toml, main.py, & index.html 是创建新项目的良好起点。所以，创建新项目的第一步可能是复制默认应用并重命名。
如果你想使用某个库，你必须在配置中指定它，并在 Python 代码中导入它。
PyScript 命令 display 用于将 Python 代码的输出写入具有特定 id 的 HTML 标签中。
你的代码从 PyScript.com 服务器提供，可以从其 URL 查看。任何拥有该 URL 的人都可以运行应用程序，并查看你的代码（所以不要在里面放秘密）。

有一件事我没有提到，就是如何返回到你的项目仪表板视图。

作者截图

实际上，点击 PyScript 徽标的任何位置都会带你到这个视图。

兔子标志怎么回事？如果有机会的话，Python 不会吃兔子吗？我不确定这是我们想要的 PyScript 形象。

你还可以通过右上角的菜单进入仪表板：

作者截图

一个完整的应用

我答应你一个应用程序，它相当简单，但这里就是。它基于文章 PyScript, Pandas 和 Plotly：一个互动网页应用，但为了简单起见，它使用 matplotlib 代替 Plotly。它还使用 Bootstrap JavaScript 库来美化 UI。

它看起来是这样的：

作者截图

这个应用下载一些天气数据¹，并允许你从下拉菜单中选择一个图表进行显示。（如果你读过我的其他文章，你可能见过无数个使用不同技术的版本。）

我不会详细讲解应用的工作原理，因为大部分内容在上述文章中已有解释，或者在我们已经覆盖的内容中有说明。Python 代码中也有注释解释正在发生什么。

这是 HTML：

<!DOCTYPE html>
<html lang="en">
<head>
    <title>Weathered App</title>
    <meta charset="UTF-8">
    <meta name="viewport" content="width=device-width,initial-scale=1">
    <link rel="stylesheet" href="https://pyscript.net/releases/2023.03.1/pyscript.css" />
    <script defer src="https://pyscript.net/releases/2023.03.1/pyscript.js"></script>
    <link rel="stylesheet" href="https://maxcdn.bootstrapcdn.com/bootstrap/4.3.1/css/bootstrap.min.css">
</head>
<body>
    <py-config src="./pyscript.toml"></py-config>
    <py-script src="./main.py"></py-script>

    <div class="jumbotron p-2">
        <h1>Weather Data</h1>
        <p class="lead">
          Some graphs about the weather in London in 2020
        </p>
    </div>   

    <div class="row">
        <div class="col-sm-2 m-2">
           <b>Select chart from list:</b>
        </div>
        <div class="col-sm-4 m-2">
            <select class="form-control" id="select" py-change="selectChange()">
                <option value="Tmax">Maximum Temperature</option>
                <option value="Tmin">Minimum Temperature</option>
                <option value="Sun">Sun</option> 
                <option value="Rain">Rain</option>
            </select>
        </div>

        <div class="row">
           <div class="col-sm-6 m-2"> 
               <div id="chart1"></div>
           </div>
        </div>
    </div>
</body>
</html>

这是 Python：

# Import libraries
import pandas as pd
import matplotlib.pyplot as plt
import js

# Get the data
# Note you can't use the 'requests' package or similar
# so we import the date using a built-in pyodide function
from pyodide.http import open_url

url = 'https://raw.githubusercontent.com/alanjones2/uk-historical-weather/main/data/Heathrow.csv'
url_content = open_url(url)

# Create dataframe for the year 2020
df = pd.read_csv(url_content)
df = df[df['Year']==2020]

# Create a matplotlib chart and display it in "chart1"
# Note append is false so that old charts are overwritten
def plot(chart):
    fig, ax = plt.subplots()
    df.plot("Month", chart, ax=ax)

    display(fig, target="chart1", append=False)

# The is the call back form the dropdown menu
# it gets the value selected and calls plot
def selectChange():
    choice = js.document.getElementById("select").value
    plot(choice)

# Call plot on startup
plot('Tmax')

还有配置：

packages = ["pandas", "matplotlib"]

还有一个链接到最终应用的这里，你可以在这里看到它的全部，查看代码并复制它，如果你愿意的话。

我们怎么认为？

pyscript.com 当然有优缺点。以下是一些我认为值得注意的：

优点：

这是一个简单易用的 IDE。
所有需要的东西都在一页上。
你创建的内容默认是公开的——太好了，我们可以分享！
默认应用是新项目的良好起点。
复制功能很好，你可以用它从旧项目中创建新项目，或者创建现有项目的新版本。
自动部署和免费托管！（不过 URL 有点麻烦）

缺点：

你创建的内容默认是公开的——哦，不，没有专有代码！但我一点也不会感到惊讶，如果付费功能在未来能满足这一点。
你不能下载一个项目并将其复制到不同的开发环境中。
启动有点慢，但这主要是 PyScript 的问题——也许 IDE 会稍微增加启动时间，我不太确定。

我认为第一个优点是最重要的。它非常易于使用，编辑器与 HTML 和 Python 的兼容性很好，并且你对代码所做的任何更改几乎可以即时看到结果。自动部署和托管也很棒。

总的来说，这是一个受欢迎的包。显然，它并不针对商业项目，但却是分享想法和尝试 PyScript 的绝佳场所。

尝试一下吧！

一如既往，感谢你的阅读，希望你觉得有用。我必须说，我很享受写这篇文章和使用 pyscript.com 的过程。你可以在我的GitHub 网页找到我其他的作品，包括更多关于 PyScript 的内容。

如果你不是 Medium 会员，你可以使用我的推荐链接注册，每月只需 $5 即可阅读任何 Medium 内容。

备注

天气数据来自我自己的 GitHub 仓库（见代码中的链接），并且属于公共领域。数据来源于英国气象局历史气象站数据，该数据也可以在英国公共部门信息开放政府许可 v3.0下免费使用。

Python 和超越：扩展你的数据科学编程工具包

原文：towardsdatascience.com/python-and-beyond-expand-your-data-science-programming-toolkit-4f4612949?source=collection_archive---------7-----------------------#2023-03-16

TDS Editors

关注发表在 Towards Data Science ·发送为 Newsletter ·3 分钟阅读·2023 年 3 月 16 日

数据科学家在工作中需要编写的代码量在不同组织和项目中差异很大，其复杂程度也是如此。然而，无论你在编程强度的光谱上处于何种位置，增加你编程技能的深度和广度都是有价值的。

为了支持你在这段旅程中，我们收集了几本优秀的指南，帮助你拓展视野，超越你在数据科学培训初期可能已经掌握的 Python 基础知识。

从学习新语言的基础知识到量子计算的新兴前沿，这里应该有足够的内容供任何数据从业者选择自己的冒险。

专注于性能。你的代码总是达成目的的手段；在商业环境中，编写效率低下的代码可能对最终结果产生实际的负面影响。正如内奥米·克里格在最近的延迟改进项目中演示的那样，一些小的变化可以产生重大差异。
透视表的艺术。苏珊·梅纳的 Pandas 透视表指南是一个方便的一站式资源。它涵盖了通过此工具操作数据的细节，更重要的是，解释了何时应使用透视表以及它们能帮助生成哪些类型的见解。
成为多语言程序员。数据科学家可能决定深入学习第二种（或第三种）编程语言的原因有很多：这可能是获得一个令人兴奋的工作的必要步骤，或者你可能只是有探索新事物的冲动。凯·詹·王关于学习新语言的入门指南，无论你的动机是什么，都是必读之作。

照片由analuisa gamboa拍摄，来自Unsplash

全世界的 Julia 爱好者，团结起来****！ 艾玛·布德罗已经使用 Julia 语言约六年，亲眼见证了它的强大能力。艾玛的新汇编书汇集了不少于 20 个技巧和窍门，供希望提升 Julia 工作流程的其他人参考。
培养一些 SQL 技能。从我们刚刚提到的新兴语言转到一个可靠的老牌语言：SQL。尽管它可能即将迎来 50 周年（！）——对任何近期技术而言都是永恒的——但数据专业人士仍每天使用它，马特·索斯纳的“谜题”汇总将促使你磨练查询技巧。
实现质的飞跃。如果最近关于量子计算的对话让你感到困惑，或者至少不完全明白这项新兴技术的具体内容，不要错过Kory Becker的易于理解的介绍。它将带我们了解一些核心基本概念，并鼓励读者使用 Python 和 Qiskit 库编写自己的魔法数字猜测游戏。
解决实际问题。你是否想利用你的编程技能来促进可持续发展和充满活力、宜居的社区？无论你是在寻找灵感、具体指导，还是两者兼而有之，我们最近发布了一系列全面的文章，涵盖城市规划、供应链优化和野生动物保护（以及其他主题），其中许多文章包含了强烈的实践编码部分。

我们希望你喜欢本周的推荐！如果你想支持我们发布的工作，请考虑成为 Medium 会员。

直到下一个变量，

TDS 编辑部

Python 中的 args、kwargs 以及传递参数给函数的所有其他方式

原文：towardsdatascience.com/python-args-kwargs-and-all-other-ways-to-pass-arguments-to-your-function-bd2acdce72b5

在 6 个示例中巧妙设计你的函数参数

Mike Huls

·发表于 Towards Data Science ·阅读时长 8 分钟·2023 年 3 月 7 日

斜杠和星号的作用是什么？（作者提供的图片）

本文深入探讨了如何设计函数参数。我们将了解*args和**kwargs的作用，/和*的功能，以及如何以最佳方式设计函数参数。设计良好的函数参数更容易被其他开发者理解和使用。在本文中，我们探讨了6 个问题，这些问题展示了你需要知道的一切以成为参数专家。让我们开始编码吧！

准备工作：定义和传递参数

在这一部分，我们将快速了解术语和 Python 提供的所有处理参数传递的方法。

## 理解 Python 装饰器：从初学者到专家的六个层次

装饰器如何工作，何时使用它们以及 6 个逐渐复杂的示例

towardsdatascience.com

参数和实参之间有什么区别？

许多人将这些术语互换使用，但它们之间是有区别的。参数是用参数提供的值初始化的：

参数是定义在函数定义中的名称
实参是传递给函数的值

参数是红色的，实参是绿色的（作者提供的图片）

我可以通过哪两种方式传递参数？

你可以通过位置和关键字传递参数。在下面的示例中，我们将值hello作为位置参数传递。值world是通过关键字传递的；我们指定要将world传递给thing参数。

def the_func(greeting, thing):
  print(greeting + ' ' + thing)

the_func('hello', thing='world')

位置参数和kwargs（关键字参数）之间的区别在于顺序。你传递位置参数的顺序很重要。如果你调用the_func('world', 'hello')，它会打印world hello。传递kwargs的顺序无关紧要：

the_func('hello', 'world')                  # -> 'hello world'
the_func('world', 'hello')                  # -> 'world hello'
the_func(greeting='hello', thing='world')   # -> 'hello world'
the_func(thing='world', greeting='hello')   # -> 'hello world'
the_func('hello', thing='world')            # -> 'hello world'

还要注意（在最后一行），只要kwargs在位置参数之后，你可以混合使用位置参数和关键字参数。

`args`的性能是否优于`kwargs`？

查看下面的文章！

//args-vs-kwargs-which-is-the-fastest-way-to-call-a-function-in-python-afb2e817120?source=post_page-----bd2acdce72b5-------------------------------- ## Args vs kwargs：哪种是调用 Python 函数的最快方式？

`timeit`模块的清晰演示

[towardsdatascience.com

设计函数参数

在这一部分，我们将回答 6 个问题，展示你可以如何设计函数参数。每个答案将附带示例和用例（如有需要）。

1. 如何捕获所有未捕获的位置参数？

使用*args，你可以设计函数使其接受任意数量的参数。例如，查看下面的函数。

def multiply(a, b, *args):
  result = a * b
  for arg in args:
    result = result * arg
  return result

在这个函数中，我们正常定义了前两个参数（a和b）。然后我们使用*args将所有剩余的参数打包成一个元组。把*看作是吞噬所有不匹配的参数并将它们推送到名为‘args’的元组变量中。让我们看看实际效果：

multiply(1, 2)          # returns 2
multiply(1, 2, 3, 4)    # returns 24

最后的调用将值 1 分配给参数a，值 2 分配给b，arg变量填充为(3, 4)。由于这是一个元组，我们可以在函数中循环遍历它并使用这些值进行乘法运算！

//why-and-how-custom-exceptions-lead-to-cleaner-better-code-2382216829fd?source=post_page-----bd2acdce72b5-------------------------------- ## 为什么及如何自定义异常能够使代码更干净、更好

通过创建自己的自定义异常来清理代码

[towardsdatascience.com

2. 如何捕获所有未捕获的关键字参数？

我们在前一部分使用的相同技巧可以用于捕获所有剩余的不匹配的关键字参数：

def introduce(firstname, lastname, **kwargs):
  introduction = f"I am {firstname} {lastname}"
  for key, value in kwargs.items():
    introduction += f" my {key} is {value} "
  return introduction

与*args类似，**kwargs关键字会吞噬所有不匹配的关键字参数，并将它们存储在名为kwargs的字典中。然后我们可以像在上面的函数中一样访问这个字典。

print(introduce(firstname='mike', lastname='huls'))
# returns "I am mike huls"

print(introduce(firstname='mike', lastname='huls', age=33, website='mikehuls.com'))
# I am mike huls my age is 33  my website is mikehuls.com

使用kwargs，我们可以向introduce函数添加一些额外的参数。

towardsdatascience.com ## 永远不需要再写 SQL：SQLAlchemy 的 ORM 绝对初学者指南

使用这个 ORM，你可以创建表、插入、读取、删除和更新数据，而无需编写一行 SQL 代码

[towardsdatascience.com

3. 我如何设计函数以只接受关键字参数？

当你真的不想混淆你的参数时，你可以强制你的函数只接受关键字参数。一个完美的使用案例可能是一个将钱从一个账户转到另一个账户的函数。你确实不想以位置方式传递账户号码，因为这样你有可能让开发者不小心交换账户号码：

def transfer_money(*, from_account:str, to_account:str, amount:int):
  print(f'Transfering ${amount} FORM {from_account} to {to_account}')

transfer_money(from_account='1234', to_account='6578', amount=9999)
# won't work: TypeError: transfer_money() takes 0 positional arguments but 1 positional argument (and 2 keyword-only arguments) were given
transfer_money('1234', to_account='6578', amount=9999)
# won't work: TypeError: transfer_money() takes 0 positional arguments but 3 were given
transfer_money('1234', '6578', 9999)

在上面的函数中你再次看到*。我将星号视为吞噬所有不匹配的位置参数，但与*args将所有不匹配的位置参数存储在args元组中不同，裸*只是将这些参数作废。

towardsdatascience.com ## 了解 Python 上下文管理器：绝对初学者指南

使用光剑理解 WITH 语句

[towardsdatascience.com

4. 我如何设计函数以只接受位置参数？

以下函数是只允许位置参数的函数示例：

def the_func(arg1:str, arg2:str, /):
  print(f'provided {arg1=}, {arg2=}')

# These work:
the_func('num1', 'num2')
the_func('num2', 'num1')

# won't work: TypeError: the_func() got some positional-only arguments passed as keyword arguments: 'arg1, arg2'
the_func(arg1='num1', arg2='num2')
# won't work: TypeError: the_func() got some positional-only arguments passed as keyword arguments: 'arg2'
the_func('num1', arg2='num2')

函数定义中的/强制所有在它之前的参数必须是位置参数。附带说明：这并不意味着所有在/之后的参数必须仅为关键字参数；这些参数可以是位置参数和关键字参数。

我为什么需要这样做？这不会降低代码的可读性吗？ 好问题！一个例子可能是当你定义一个函数时，这个函数非常明确，以至于你不需要关键字参数来指定它的作用。例如：

def exceeds_100_bytes(x, /) -> bool:
  return x.__sizeof__() > 100

exceeds_100_bytes('a')      
exceeds_100_bytes({'a'})

在这个例子中，很明显我们在检查'a'的内存大小是否超过 100 字节。我真的想不出一个更好的名字来给x参数，而且可以在不需要指定x=’a’的情况下调用这个函数。另一个例子是内置的len函数：调用len(target_object=some_list)会显得很尴尬。

作为额外说明，我们可以更改参数名，因为我们知道这样不会破坏对函数的调用：我们不允许使用关键字参数。此外，我们甚至可以在完全向后兼容的情况下扩展这个函数。下面的版本将检查任何提供的参数是否超过 100 字节。

def exceeds_100_bytes(*args) -> bool:
  for a in args:
    if (a.__sizeof__() > 100):
      return True
  return False

我们可以用*args替换x，因为在之前的版本中，/确保函数仅以位置参数的形式调用。

## Cython 对绝对初学者的指南：两步实现 30 倍更快的代码

快速应用的简单 Python 代码编译

towardsdatascience.com

5. 混合与匹配 — 如何传递既是位置参数又是`kwargs`的参数？

作为示例，我们将讨论之前提到的len函数。这个函数只允许位置参数。我们将扩展这个函数，允许开发者选择是否计算重复项。我们希望开发者通过kwargs传递这个关键字：

def len_new(x, /, *, no_duplicates=False):
  if (no_duplicates):
    return len(list(set([a for a in x])))
  return len(x)

如你所见，我们希望计算x变量的len。由于x参数前面有/，我们只能以位置参数的方式传递它。no_duplicates参数必须以关键字的形式传递，因为它跟在*之后。让我们调用这个函数：

print(len_new('aabbcc'))                                  # returns 6
print(len_new('aabbcc', no_duplicates=True))              # returns 3
print(len_new([1, 1, 2, 2, 3, 3], no_duplicates=False))   # returns 6
print(len_new([1, 1, 2, 2, 3, 3], no_duplicates=True))    # returns 3

# Won't work: TypeError: len_() got some positional-only arguments passed as keyword arguments: 'x'
print(len_new(x=[1, 1, 2, 2, 3, 3]))
# Won't work: TypeError: len_new() takes 1 positional argument but 2 were given
print(len_new([1, 1, 2, 2, 3, 3], True))

## 用 OpenCV 破坏《Duck Hunt》 — 初学者的图像分析

编写能够击败所有《Duck Hunt》高分的代码

towardsdatascience.com

6. 混合与匹配 — 综合应用

下面的函数是如何将所有之前讨论的技术结合在一起的极端示例。首先，它强制前两个参数以位置参数的方式传递，接下来的两个参数可以以位置参数和关键字参数的方式传递，然后是两个仅限关键字的参数，最后我们用**kwargs捕捉其余未捕获的参数。

def the_func(pos_only1, pos_only2, /, pos_or_kw1, pos_or_kw2, *, kw1, kw2, **extra_kw):
  # cannot be passed kwarg   <--   | --> can be passed 2 ways | --> can only be passed by kwarg
  print(f"{pos_only1=}, {pos_only2=}, {pos_or_kw1=}, {pos_or_kw2=}, {kw1=}, {kw2=}, {extra_kw=}")

你可以像这样传递这个函数：

# works (pos_or_kw1 & pow_or_k2 can be passed positionally and by kwarg)
pos_only1='pos1', pos_only2='pos2', pos_or_kw1='pk1', pos_or_kw2='pk2', kw1='kw1', kw2='kw2', extra_kw={}
pos_only1='pos1', pos_only2='pos2', pos_or_kw1='pk1', pos_or_kw2='pk2', kw1='kw1', kw2='kw2', extra_kw={}
pos_only1='pos1', pos_only2='pos2', pos_or_kw1='pk1', pos_or_kw2='pk2', kw1='kw1', kw2='kw2', extra_kw={'kw_extra1': 'extra_kw1'}

# doesnt work, (pos1 and pos2 cannot be passed with kwarg)
# the_func(pos_only1='pos1', pos_only2='pos2', pos_or_kw1='pk1', pos_or_kw2='pk2', kw1='kw1', kw2='kw2')

# doesnt work, (kw1 and kw2 cannot be passed positionally)
# the_func('pos1', 'pos2', 'pk1', 'pk2', 'kw1', 'kw2')

## Python 中的多任务处理：通过同时执行操作使程序速度提高 10 倍

将线程和进程应用于加速代码的逐步指南

towardsdatascience.com

结论

在这篇文章中，我们讨论了设计函数参数的所有方法，并展示了如何混合和匹配这些参数，以便开发者能够以最佳方式使用你的函数。

我希望这篇文章如我所希望的那样清晰，如果不是这样，请告诉我我可以做些什么来进一步澄清。与此同时，看看我关于各种编程相关主题的其他文章，例如：

编程愉快！

— 迈克

附言：喜欢我在做的事情吗？ 关注我！

[## 使用我的推荐链接加入 Medium — 迈克·胡尔斯

阅读迈克·胡尔斯及其他数千位 Medium 作者的每一个故事。你的会员费直接支持迈克…

mikehuls.medium.com](https://mikehuls.medium.com/membership?source=post_page-----bd2acdce72b5--------------------------------)

Python 断言，或检查猫是否是狗

原文：towardsdatascience.com/python-assertions-or-checking-if-a-cat-is-a-dog-ce11c55d143

PYTHON 编程

了解在 Python 中使用断言的规则——以及不使用它们的规则

## GitHub - nyggus/easycheck：一个提供简单且可读断言的 Python 函数的模块

·发表于 Towards Data Science ·13 分钟阅读·2023 年 3 月 2 日

错误的断言应该让你停止：有什么问题！图片由 Jose Aragones 提供，来源于 Unsplash

断言是你用来测试对程序的假设的语句。这一简短的定义，一方面很清晰。另一方面，它远未解释你何时应该使用断言。

assert 语句，作为 Python 中主要的断言工具，与内置的 __debug__ 对象密切相关。在我学习 Python 的某个阶段，我对这个对象一无所知，因此我猜许多数据科学家和 Python 开发者也不清楚。在阅读本文后，你将了解如何使用 __debug__ 和断言——以及如何不使用它们。

你会在测试中找到断言的主要位置。无论你使用哪个测试框架，它都会使用断言。虽然 unittest 使用特定类型的断言方法（如 .AssertTrue(), .AssertFalse(), .AssertEqual()），pytest 更喜欢裸露的 assert 语句。就个人而言，我喜欢后者的简洁。如果你想断言 x 是 10，可以用这种简单的方法：

assert x == 10

当你想要断言 x 是整数时，可以这样做：

assert isinstance(x, int)

对我来说，这很简单明确，而简单和明确是 Python 代码的重要美德。测试也不例外。

当条件不成立时，assert 语句会引发 AssertionError：

>>> x = 20
>>> assert x == 10
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AssertionError

你还可以使用可选消息：

>>> x = 20
>>> assert x == 10, "x is not 10"
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AssertionError: x is not 10

现在，为什么不能在 if 块中做这个，而不使用 assert 呢？过程如下：

>>> x = 20
>>> if x != 10:
...     raise AssertionError("x is not 10")
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AssertionError: x is not 10

如果你希望你的程序在 x 不为 10 时抛出异常，你可以这样做。但这不应该是 AssertionError，因为 AssertionError 是在特定情况下使用的特定错误类型。然而，还有更多的内容。

正如 Mark Lutz 在他出色的书籍 Learning Python（第 5 版）中所写的那样，assert 语句只是一个快捷方式。在我们上面的例子中，我们可以用两种等效的方式编写断言（让我们使用可选消息）；第一种是你已经知道的：

assert x == 10, "x is not 10"

这是一个更长代码段的快捷方式：

if __debug__:
    if x != 10:
        raise AssertionError("x is not 10")

与之前的 if 块相比，它们确实不同——显而易见的问题是，__debug__ 是什么？对这个问题的答案将帮助我们理解断言是什么以及何时使用它。

什么是 debug？

__debug__ 对象是一个布尔变量，可以直接在你的 Python 会话中使用：

一张来自 Python 3.11 调试模式会话的截图。图片来源：作者

注意，你不能在 Python 会话中更改它：

一张来自 Python 3.11 调试模式会话的截图。图片来源：作者

我将稍后展示如何将 __debug__ 更改为 False。但首先，让我们看看 __debug__ 与断言的关系：

一张来自 Python 3.11 调试模式会话的截图。图片来源：作者

正如你所见，当你在调试模式下运行 Python 时——这是默认模式——__debug__ 为 True，断言按常规方式工作。

让我们在生产模式下打开 Python REPL，以查看断言在那里的工作方式。为此，我们需要提供一个 -O 标志：

一张来自 Python 3.11 生产模式会话的截图。图片来源：作者

正如你所见，__debug__ 现在为 False，这意味着我们在生产模式下工作。这意味着代码将被优化：

当 __debug__ 为 True 时，所有断言以及跟随 if __debug__: 检查的其他内容（在这里我将称之为调试模式检查）将被执行。
当 __debug__ 为 False 时，代码会被优化，以至于调试模式检查中的代码不会被执行。正如我们上面所看到的，这包括所有的断言，它们不会被运行。我们可以在上面的截图中看到这一点。

特别注意，当 __debug__ 为 False 时，无论是 assert True 还是 assert False 都不会做任何事情。所以，特别地，assert False 没有引发 AssertionError，而在调试模式下它会。这完全是因为 __debug__ 为 False，这意味着断言被关闭了。

如何使用 debug 来优化代码执行

如上所述，生产模式下执行的代码是经过优化的。这意味着只有一件事：在调试模式下的检查代码将不会被执行。因此，你可以使用__debug__来添加仅在调试模式下执行的代码；在生产模式下，这段代码将被忽略。这样，你的生产代码将会更快——当然，前提是它包含调试模式检查，包括断言。

为了实现这一点，你可以手动添加代码到调试模式检查中：

if __debug__:
    if x < 7:
        debug_logger.warning(f"x is below seven: {x = };"
                              " hence it's set to 7")
        x = 7
    elif x > 13:
        debug_logger.warning(f"x is over thirteen: {x = };"
                              " hence it's set to 13")
        x = 13
    else:
        debug_logger.info(f"x is fine: {x = }")

如果你在生产模式下运行代码，这个if块的内容将不会被执行，debug_logger也不会记录任何东西。假设你有很多这样的检查（例如，在一个长循环中）；忽略它们可以使代码更快。

我可以想象，这可能有点难以思考。我的建议是，下次你编写代码时，考虑是否有一些代码只希望在调试模式下执行，而在生产模式下不执行。有时，你可能找不到任何这样的东西；其他时候，你可能会发现这样的情况。

然而，你应该能够找到在某些地方使用断言会很有效。我们将在下面讨论这个问题。

总结一下，记住两件事：

当你使用很多断言和调试检查时，代码可能会显著变慢。
如果你想运行一些代码，不管模式如何，为什么还需要检查__debug__是否为真呢？当然，当使用assert语句时，实际上是会在底层进行检查的——但我们已经知道它是如何进行的。然而，请记住，如果你希望代码在调试模式和生产模式下都能运行，就不要在调试检查中添加代码。

何时使用断言

终于！现在我们知道了__debug__和调试模式，我们可以开始讨论断言。

如上所述，就代码而言，断言是在调试模式下执行的检查：当条件为真时，什么也不会发生，而当条件不满足时，会引发AssertionError。

这并没有完全解释你何时应该使用断言。简单地说，使用断言

在测试中（测试总是在调试模式下进行），以检查特定测试是否通过；
在开发模式下，以检查绝不应该发生的条件。

至于测试，一切都很清楚。正如我上面所写，pytest使用断言作为检查条件的主要工具。你通常在调试模式下运行单元测试。然而，尝试在生产模式下运行pytest，例如使用python -O -m pytest，你会看到以下警告：

PytestConfigWarning: assertions not in test modules or plugins
will be ignored because assert statements are not executed by 
the underlying Python interpreter (are you using python -O?)

    self._warn_about_missing_assertion(mode)

-- Docs: https://docs.pytest.org/en/stable/how-to/capture-warnings.html

正如你所见，当你想在生产模式下运行pytest时，它实际上是在我们可以称之为混合模式的模式下运行。测试函数中的所有assert语句都会被执行，但实际代码中的任何断言都不会被执行。这就是PytestConfigWarning告诉我们的。

至于开发模式，情况有所不同。正如你在上面所读到的，assert 语句帮助你检查一个绝不可能发生的条件是否为真。这乍一看可能有些奇怪。我为什么要检查一个不应该发生的条件？这不是像检查猫是否是狗一样吗？

正确！你明白了！在代码中使用断言就像检查猫是否是狗。当然，我们知道它不是——而断言 assert cat is not dog 并不真正旨在检查 cat is not dog，我们确实知道这是真的，而是检查代码是否正确。

换句话说，断言帮助你检查代码是否按预期工作。如果不是，它可能导致一些不可能的情况，例如猫是狗、整数是字符串、自然数是负数、样本大小大于总体大小等。因此，请记住断言是什么：你检查一些显而易见的东西——当它不是时，断言失败，你就知道代码或代码实现的逻辑有问题。

断言 assert cat is not dog 并不真正旨在检查 cat is not dog，我们确实知道这是真的，而是检查代码是否正确。

如果根据你的代码 cat is dog，这当然是不正确的，断言将失败并引发 AssertionError。这意味着代码不正确。

现在我们知道了何时使用断言。首先，你可以在测试中使用它们。其次，你可以通过添加必须为真的断言来确保代码的正确性。如果这样的断言失败了，代码就是不正确的——因为猫不能是狗。

如果这样的断言失败了，代码就是不正确的——因为猫不能是狗。

还有一点重要的事情要补充。不要过度使用断言。不要仅仅因为可以就把它们放到任何地方。只在重要的地方使用它们，那些地方有重要意义。用它们来捕捉重要的缺陷。

不要过度使用断言。不要仅仅因为可以就把它们放到任何地方。

什么时候不使用断言

既然我们知道了什么时候使用断言，那么何时不使用它们也应该很明确。

首先，你不应该使用断言来处理常规异常。这些异常可能是错误的参数值、数据、错误的密码等。这类错误应该以常规方式处理。

你不应该使用断言来处理常规异常。

让我们来看一下。考虑以下函数：

def preprocess_text(text: str) -> str:
    assert isinstance(text, str)
    return text.lower().strip()

这个函数旨在以特定方式预处理一个字符串。在我们的例子中，预处理非常简单，text.lower().strip()，但这只是函数可能执行的一种示例。该函数还检查提供的参数 text 的值是否具有正确的类型，即 str；如果不是，它会引发异常，对吧？

错误！为了检查类型，函数使用了assert语句，而我们已经知道这不正确。首先，请注意，如果你提供了不同类型的对象，将引发AssertionError，而且它不会说明应该是什么——即类型不正确。Python 对此有TypeError。

其次，请注意在生产模式下，这个检查不会被执行。这真的是你希望这个函数的行为吗？我更倾向于说，如果你需要检查text的类型，那么你应该在两种模式下都进行检查。在这里，你可能会在调试模式和生产模式中得到不同的行为。我猜很多在这种情况下使用assert的开发者可能不知道这一点。

我们知道哪里出了问题。这个函数不应该使用assert。相反，它可以使用if语句结合raise语句，或者使用专门的工具，如easycheck包：

一个提供用于代码内部和测试中的简单、可读断言的 Python 函数的模块。…

github.com

我计划写一篇关于easycheck的更长文章，但你已经可以在这里阅读它的特定用例：

## 使用 easycheck 比较浮点数

easycheck 可以帮助你在类似断言的情况下比较浮点数

towardsdatascience.com

在我们上面的函数中，我们可以添加一个easycheck检查，如下所示：

import easycheck

def preprocess_text(text: str) -> str:
    easycheck.check_type(
        text, 
        expected_type=str,
        handle_with=TypeError,
        message="Argument text must be string, "
                f"not {type(text).__name__}"
    )
    return text.lower().strip()

上述检查可以用以下方式理解——在我看来是自然的：检查text的类型；它应该是str；如果不是str，则引发TypeError，并附上以下消息：f"Argument text must be string, not {type(text).__name__}"。

所以，当你提供一个整数时，你会看到以下内容：

>>> preprocess_text(108)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: Argument text must be string, not int

让我们总结一下这个例子：

问题： 我是否应该在preprocess_text()中使用断言来检查text是否是字符串？

答案： 不

问题： 为什么不呢？

答案： 你不应该在这里使用断言，因为不同类型的text不是一种不可能发生的情况。当用户提供了错误类型的text参数时，这种情况确实可能发生。

问题： 那么我应该使用什么呢？

答案： 你可以使用if检查text的类型，并在类型不正确时引发TypeError。或者你可以使用easycheck，这是一个专门针对这种情况的工具。

生产模式、测试和断言

现在，一个重要的问题是你是否应该使用通过-O标志调用的生产模式。

在他的Python 中的清晰代码：开发可维护和高效的代码一书中，Mariano Anaya 说你不应该这么做。你不应该，因为断言有助于捕捉错误，那么为什么仅仅因为你在生产中运行代码就放弃这个机会呢？当断言失败时，代码中出现了严重的问题 —— 无论如何代码都会崩溃，但可能会晚一些。最好尽早引发异常。

我完全同意上述方法，但……

有时使用生产模式更好。这是在执行时间至关重要且代码中的断言显著减慢了速度的情况下。假设代码经过了充分测试，你可能会选择关闭所有断言，以使应用程序运行得更快 —— 尤其是当你使用了很多断言时。

在一些项目中，决定是否使用生产模式很简单。当执行时间不重要时，在调试模式下运行你的生产代码。这就像在生产中测试生产代码 —— 没有比这更好的测试了。在其他项目中，决定也很简单 —— 当执行时间重要时，我的意思是它确实很重要，使用生产模式。在这种情况下，代码应该通过单元测试和集成测试进行良好的覆盖，并且所有测试应在每个新版本部署之前运行。¹ 尽管如此，如果你想使用生产模式，我认为你应该在调试模式和生产模式下运行测试。后者 —— 实际上我上面称之为混合模式 —— 可以帮助你捕捉在调试模式下无法捕捉到的错误。由于我从未找到关于这个主题的任何字样，我计划写一篇专门的文章，详细解释和举例；当它准备好并发布时，我会在这里链接。

在一些项目中，决策将不会那么简单。你必须根据项目的假设、代码和测试的质量以及测试覆盖率来决定是否运行断言或关闭它们。

结论

我写这篇文章是因为我注意到许多 Python 开发者不了解断言是什么。我对此感到同情。我也经历过。在我的 Python 学习旅程的某个时刻，我也不理解断言。

我希望这篇文章对断言和__debug__进行了充分的解释。让我们总结一下我们讨论的内容：

断言仅在调试模式下执行，这也是默认的 Python 模式。通过使用-O标志来在生产模式下运行 Python，即python -O。
使用断言来检查必须为真的条件。如果它们失败，说明代码中有问题。
不要使用断言来检查其他事情，比如与参数值相关的条件。这些检查应该使用 if 检查结合 raise，或使用像 easycheck 这样的专用工具进行。
使用 __debug__ 添加在调试模式下执行的代码，而在生产模式下不执行。
当你在生产模式下运行你的生产代码时，你也应该在生产模式下运行你的单元测试和集成测试。

总的来说，总是根据具体情况决定是否使用生产模式。

如果你想了解更多关于 AssertionError 的信息，下面的文章展示了一个小技巧，即如何用不同类型的异常覆盖它。例如，你可能希望在单元测试中使用自定义的项目异常而不是内置的 AssertionError。我认为这不是你在生产代码中实际使用的东西，但这可以帮助你理解异常处理和断言——以及 Python 本身。

[## 如何在 Python 中覆盖 AssertionError 并使用自定义异常

Python 的 assert 语句使用 AssertionError。了解如何使用其他异常代替

betterprogramming.pub](https://betterprogramming.pub/how-to-overwrite-asserterror-in-python-and-use-custom-exceptions-c0b252989977?source=post_page-----ce11c55d143--------------------------------)

如果你对如何格式化长断言感兴趣，你可能会发现以下文章很有趣：

[## 不要用括号围绕 Python 断言

了解为什么在使用消息时不应将 assert 语句括起来。

medium.com](https://medium.com/pythoniq/dont-surround-python-assertions-with-parentheses-f9b28729609a?source=post_page-----ce11c55d143--------------------------------)

你会在文中看到，当断言太长无法放在一行时该怎么办——以及为什么永远不要用括号围绕它的条件和消息。

脚注

¹ 嗯，你应该总是在部署新版本之前运行测试。然而，有时你可能决定只运行重新部署的模块的测试，但这取决于应用程序的架构。无论如何，在部署之前运行所有测试总是更安全。我们编写测试是为了运行它们，不是吗？

感谢阅读。如果你喜欢这篇文章，你可能还会喜欢我写的其他文章，你可以在这里查看。如果你想加入 Medium，请使用下面我的推荐链接：

[## 通过我的推荐链接加入 Medium - Marcin Kozak

阅读 Marcin Kozak 的每一个故事（以及 Medium 上成千上万的其他作家的故事）。您的会员费用将直接支持…

medium.com](https://medium.com/@nyggus/membership?source=post_page-----ce11c55d143--------------------------------)

Python 可调用对象：基础和秘密

原文：towardsdatascience.com/python-callables-the-basics-and-the-secrets-ba88bf0729aa

PYTHON 编程

了解 Python 可调用对象的强大功能。

github.com](https://github.com/nyggus/rounder/blob/main/rounder/rounder.py?source=post_page-----ba88bf0729aa--------------------------------)

·发布于 Towards Data Science ·10 分钟阅读·2023 年 10 月 27 日

在 Python 中，有许多可调用对象可以选择。照片由 Pavan Trikutam 提供，来源于 Unsplash

在编程语言中，可调用对象通常与函数相关联，这也是有充分理由的。函数可能是可调用对象的最佳示例，但它们并不是唯一的。在 Python 中，还有许多其他可调用类型，它们可以非常有用且强大。你还可以创建自己的可调用对象。本文将讨论这两者。

可调用对象是指可以通过一对括号来调用的对象，例如下面的例子，我们使用了内置函数 sum()：

>>> sum([1, 1, 1])
3

对可调用对象的调用，根据其定义，可能是

没有任何参数，如 no_args_callable()
或一系列位置参数和/或关键字参数，如 args_callable(arg1, arg2)、args_callable(arg1, arg2=value2) 或 args_callable(arg1=value1, arg2=value2)

上述中，我将可调用对象描述为一个名词。然而，可调用对象一词也可以用作形容词，意思是 作为一个可调用对象。因此，可调用对象与可调用对象是相同的。

Python 有一个内置函数 callable()，用于检查一个对象是否是可调用的，或者换句话说，是否是一个可调用对象。请考虑以下实际的可调用对象示例：

>>> callable(lambda x: x + 1)
True
>>> callable(print)
True
>>> def foo(): ...
>>> callable(foo)
True

下面的对象不是可调用的：

>>> callable(None)
False
>>> callable(10)
False
>>> callable("hello")
False

上述正面示例是关于函数的，这也是大多数人对可调用对象的主要关联。然而，实际上，每个 Python 类都是可调用的。如果你了解 Python 中面向对象编程的基础知识，你会知道要创建一个类的实例，你需要执行以下操作¹

>>> class Empty: ...

这看起来完全像是一次调用，实际上确实如此——这就是为什么 Python 类是可调用的原因。

这段代码显示了Empty类是可调用的，但事实上，每一个 Python 类都是可调用的。然而，在 Python 术语中，“可调用类”通常用于表示不同的东西：其实例是可调用的类。

我们的Empty类是可调用的，但其实例不是：

>>> empty_instance = Empty()
>>> empty_instance()
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: 'Empty' object is not callable

这段代码抛出了TypeError，因为Empty类的实例不可调用：

>>> callable(empty_instance)
False

要使类的实例可调用，你需要实现.__call__()方法。我们在下面做到了这一点，尽管该方法是空的——它什么也不做：

>>> class EmptyCallable:
...     def __call__(self): ...
>>> empty_call_instance = Empty()
>>> callable(empty_call_instance)
True
>>> empty_call_instance()

如你所见，什么都没发生——这基本上意味着Empty()返回了None。然而，这次没有抛出错误，因为EmptyCallable的实例确实是可调用的。

注意：每个 Python 类都是可调用的，这意味着调用它会创建一个类的新实例。然而，并非所有 Python 类的实例都是可调用的。要使实例可调用，你必须在类体中实现__call__()方法。我们通常只将类称为可调用类，当其实例是可调用的，即使从理论上讲这并不完全正确。

可调用对象的示例

有时候，展示某样东西的最佳方式是……去做它。因此，我将提供一系列可调用对象的示例，然后我们将讨论使对象可调用的情况。

让我们从最明显的示例开始，然后逐渐深入到不太常见的示例。

常规和 lambda 函数

>>> def foo(): ...
>>> callable(foo)
True
>>> callable(lambda: ...)
True

类和类实例

>>> class Empty:
...     def __call__(self): ...
...     def method(self): ...
...     @staticmethod
...     def static_method(): ...
...     @classmethod
...     def class_method(cls): ...
>>> callable(Empty)
True
>>> callable(Empty.class_method)
True
>>> instance = Empty()
>>> callable(instance)
True
>>> callable(instance.method)
True
>>> callable(instance.static_method)
True

来自 operator 模块的函数

>>> from operator import mul, itemgetter, or_
>>> callable(mul), callable(itemgetter), callable(or_)
(True, True, True)

部分对象

>>> from functools import partial
>>> def foo(x, y, z): return f"{x = }, {y = }, {z = }"
>>> foo(1, 2, 3)
'x = 1, y = 2, z = 3'
>>> fooxy5 = partial(foo, z=5)
>>> fooxy5(1, 2)
'x = 1, y = 2, z = 5'
>>> callable(fooxy5)
True

装饰器

>>> def decorator(func):
...     def inner():
...         print("I'm a callable and I return one!")
...         return func
...     return inner
>>> callable(decorator)
True
>>> callable(decorator(foo))
True

闭包

>>> callable(lambda x: lambda y:x*y)
True

让我们在这里稍作停顿。这一行代码需要一些解释。

我绝不会推荐编写这段代码。唯一的好处是它展示了你对 Python 复杂性的理解。然而，它绝不应该在生产代码中编写。

让我们看看它是如何工作的：

>>> mult = lambda x: lambda y:x*y
>>> mult_by_5 = mult(5)
>>> mult_by_5(2)
10

你看到发生了什么吗？mult函数是闭包的一个示例：一个返回函数的函数，内层函数可以访问外层函数作用域中的自由变量，即使外层函数mult()已经返回。

如果你对operator模块比较熟悉，你会知道它的一些函数是闭包。示例包括mul、add、itemgetter和methodcaller。了解闭包及其工作原理是很有益的，因为理解它们可以将你的 Python 技能提升到更深层次。

闭包在 Python 中非常有用，并以多种不同方式使用，但这不是本文的主题。我们将另择时间讨论它们。现在对我们来说重要的是闭包是可调用的，并返回可调用的，这与上面的decorator装饰器观察到的情况相同。

让我们重写闭包，使其更具可读性；这样更容易看到发生了什么，以及为什么闭包既是又返回可调用对象：

>>> def defmult(x):
...     def inner(y):
...         return x * y
...     return inner
>>> defmult_by_5 = mult(5)
>>> defmult_by_5(2)
10

绝对更干净。如果你注意到装饰器只是闭包的特定示例，那你是对的。无论如何：

>>> callable(defmult)
True
>>> callable(defmult_by_5)
True

所以，闭包是并且闭包返回可调用对象。

短暂地，我想回到functools.partial。在 Python 中讨论可调用对象时，不能忽视它们——因为部分对象构成了一个极其有用的工具。

这是另一个值得专门讨论的主题，所以我只会展示一些简单的这些强大可调用对象的例子。官方 Python 文档解释了部分对象如下：

partial()用于部分函数应用，它“冻结”函数的某些参数和/或关键字，结果是一个具有简化签名的新对象。

因此，你可以实现类似于闭包的功能。还记得吗？

>>> mult = lambda x: lambda y: x*y 
>>> mult_by_5 = mult(5)
>>> mult_by_5(2)
10

我们可以通过以下方式实现相同的功能：

>>> from functools import partial
>>> def mult(x, y): return x*y
>>> partialmult_by_5 = partial(mult, y=5)
>>> partialmult_by_5(2)
10

你可以创建一个新的可调用对象，使某些（甚至全部，如果这是你需要的）参数被赋予特定的值。你也可以用它来改变函数参数的默认值：

>>> def multiply_str(s: str, n: int = 2) -> str:
...     return s*n
>>> multiply_str("abc")
'abcabc'
>>> multiply_str_5 = partial(multiply_str, n=5)
>>> multiply_str_5("abc")
'abcabcabcabcabc'

从技术上讲，部分对象不是函数：

>>> type(multiply_str)
<class 'function'>
>>> type(multiply_str_5)
<class 'functools.partial'>
>>> callable(multiply_str_5)
True

它们是可调用的，而且它们是部分对象。还值得一提的是functools.partialmethod()，它创建的部分对象可用作类方法，与functools.partial()不同，后者的对象用作函数。如果你感兴趣，我希望在不久的将来发布专门的文章；目前，你可以阅读官方文档。

什么时候需要使对象可调用？

如上所示，不仅 Python 充满了可调用对象，我们还可以轻松创建它们。以下文章展示了这一点：

## 可调用的浮点数？ Python 中的乐趣与创造力

为了学习如何进行创造性编程，我们将在 Python 中实现可调用的浮点数。

[towardsdatascience.com

我在这里展示了如何实现一个可调用类Float，它继承自float。这个类的实例是可调用的，所以我们在讨论可调用的浮点数。

为什么要这样做？你能通过这种方式实现什么？考虑这个从上面文章中提取的例子，如果你对Float类的实现感兴趣，你可以在那里找到它：

>>> i = Float(12.105)
>>> 2*i
24.21
>>> i(round)
12
>>> i(lambda x: 200)
200
>>> i(lambda x: x + 1)
13.105
>>> def square_root_of(x):
...     return x**.5
>>> i(square_root_of)
3.479224051422961
>>> i(lambda x: round(square_root_of(x), 5))
3.47922
>>> i = Float(12345.12345)
>>> i(lambda x: Float(str(i)[::-1]))
54321.54321

所以，你可以调用一个Float数字，并将一个函数作为参数提供，函数将应用于实例所保持的数字。相关的文章并没有指出这样一个可调用类是有用的；我也不打算在这里提出这个观点。不试图证明这样的类有意义，文章讨论了 Python 中的创造力，并展示了 Python 编码的乐趣。

那我为什么提到这一点？因为这篇文章确实展示了其他内容。它表明你可以轻松创建可调用对象。关键是要知道不仅仅如何做，而且——如果不是主要的话——何时做。

当你可能需要创建一个可调用对象时，下面的例子提供了一些。我将省略最明显的，比如需要创建一个函数或类。

类函数对象。例如，你可能想要创建一个函数类对象，它接受参数并返回一个值，但也有附加的状态或行为。闭包、装饰器和上下文管理器是很好的例子。
使用可调用对象的设计模式。策略模式就是一个完美的例子；它允许你定义一系列算法，封装每一个算法，并使它们可互换。
动态函数和动态可调用对象。这意味着在运行时创建一个函数或可调用对象。可调用对象允许你轻松做到这一点。

这相当技术性和理论性，所以我们来分析一个实际的例子。假设你有一个ClassifyTextTo类，旨在将文本分类到多个类别中。我们忽略实现细节，专注于类的设计。我们可以写出这个类的以下原型：

class ClassifyTextTo:
    def __init__(self, config, path):
        self.config = config
        self.path = path
    def read_text(self):
        ...
    def preprocess_text(self):
        ...
    def classify(self):
        ...
    def diagnose(self):
        ...
    def report(self):
        ...
    def pipeline(self):
        self.read_text()
        self.preprocess_text()
        self.classify()
        self.report()

.pipeline()方法解释了整个过程：

文本从self.path中读取
文本被预处理，以使其准备好用于分类模型
分类模型被运行；它在self.config中配置
模型被诊断
创建报告并记录

该类适用于特定的文本——或者更具体地说——适用于位于path中的特定文件。因此，对于每个文件，你创建一个类的实例并运行管道，就像这里：

>>> classify1 = ClassifyTextTo("texts/text1.txt", configuration)
>>> classify1.pipeline()
>>> classify2 = ClassifyTextTo("texts/text2.txt", configuration)
>>> classify2.pipeline()

如果你有更多类似的文本，可以循环处理：

>>> for text in texts:
...     classify = ClassifyTextTo(text, configuration)
...     classify.pipeline()

或者，更简单地说：

>>> for text in texts:
...     ClassifyTextTo(text, configuration).pipeline()

注意，我们正在为每个文本创建ClassifyTextTo的实例。我们需要这样做吗？

当你在一个类中运行管道时，通常创建一个可调用类是一件自然的事情。考虑这个替代原型：

class CallClassifyTextTo:
    def __init__(self, config):
        self.config = config
    def read_text(self, path):
        ...
    def preprocess_text(self):
        ...
    def classify(self):
        ...
    def diagnose(self):
        ...
    def report(self):
        ...
    def __call__(self, path):
        self.read_text(path)
        self.preprocess_text()
        self.classify()
        self.report()

尽管实现看起来没什么不同，但差异是显著的，体现在设计上。虽然ClassifyTextTo需要为每个路径创建一个实例，CallClassifyTextTo则不需要。如果所有文本的配置都相同，我们只需使用一个实例。事实上，即使配置需要从路径到路径变化，我们也可以使用一个实例，但那样我们将失去设计的重大优势——为每个路径使用相同的实例：

>>> classify = CallClassifyTextTo(configuration)
>>> classify("texts/text1.txt")
>>> classify("texts/text2.txt")

或者：

>>> classify = ClassifyTextTo(configuration)
>>> for text in texts:
...     classify(text)

这是一件自然的事情，因为现在我们有了classify对象，它是可调用的，得益于ClassifyTextTo类中的.__call__()方法。这比第一种方法便宜一点，因为它只创建一个类实例。

对我来说，最重要的是对每条路径调用classify()是一件自然的事，因为这意味着对每条路径运行整个管道。我喜欢这个设计的简单性：

CallClassifyTextTo类的实例代表一个特定的模型，而不是路径。
运行一个模型是一种操作，而调用实例确实代表了这种操作，就像调用一个函数一样。

我并不是说这是唯一正确的方法。在编程中，通常有几种方法是正确的。在这种情况下，我使用几个标准来决定使用哪一种：

代码的可读性和简洁性
代码设计如何反映实际对象和操作
性能
团队和我个人的偏好

结论

我们讨论了 Python 编程中可调用对象的基础和复杂性。我会说，如果你想成为一名高级 Python 开发人员，你需要了解这两方面。幸运的是，它们不像最初看起来那么困难。

另一方面，我只是讨论了如何理解 Python 中的可调用对象。这与理解它们可以使用的每个场景不同。例如，闭包是一个相当复杂的话题，理解它们与理解如何创建具有可调用实例的类完全不同。通常，你使用的唯一闭包是装饰器，但有一天你可能需要在其他场景中使用它们。一个例子是the [rounder](https://github.com/nyggus/rounder) package和_do()函数：

[## rounder/rounder/rounder.py at main · nyggus/rounder

用于在复杂 Python 对象中舍入浮点数和复杂数字的 Python 包。 - rounder/rounder/rounder.py at main…

尽管如此，我希望这篇文章能帮助你理解 Python 可调用对象的基础知识，并了解它们的一些细节。从现在起，在你的 Python 工作中，记住 Python 可调用对象可能非常强大，并考虑是否使用它们可以改善项目的代码设计。

脚注

¹ Empty类什么都不做。然而，这并不意味着它没有任何实际用途。例如，它可以作为一个哨兵，即一个用于指示特定状态或条件的对象。None是最著名的哨兵例子。

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章，你可以在这里查看。如果你想加入 Medium，请使用下面的推荐链接：

[## 使用我的推荐链接加入 Medium - Marcin Kozak

作为 Medium 会员，您的一部分会员费用会分配给您阅读的作者，并且您可以完全访问每一个故事……

《Python 类简易入门：面向对象编程的权威指南》

原文：towardsdatascience.com/python-classes-made-easy-the-definitive-guide-to-object-oriented-programming-881ed609fb6

通过这本全面的类参考书提升你的 Python 技能

Federico Trotta

·发布于 Towards Data Science ·阅读时间 18 分钟·2023 年 3 月 13 日

图片由 Lukas Bieri 提供，来源于 Pixabay

当涉及到类时，许多 Python 开发者会遇到困难，原因有很多。首先——在我看来——因为面向对象编程的概念并不总是清晰。其次，因为类和面向对象编程（OOP）背后的想法有很多，我们可能在网上找到的解释（主要是在线的）可能是肤浅的。

在这篇文章中，我想讨论 Python 类背后的最重要概念，以及如何使用它们（附带编码示例）。

首先，我们将通过讨论面向对象编程来开始这篇文章。

**Table of Contents**

Object Oriented Programming
Classes in Python
  The "self" Parameter
  The "__init__" Method
  if __name__ == "__main__"
Type Hints
Docstrings (and how to invoke them)
Inheritance
Pro tip on how to use Python classes

面向对象编程

引用和改写参考文献 [1]，我们可以说，作为人类，我们完全知道对象是什么：它们是所有可以用我们的感官感受到并且可以被操控的实物。在我们的成长过程中，我们学习了抽象的力量，对象变成了模型。换句话说，我们利用在多年的经验中培养出的想象力，通过简单的概念来简化复杂的问题：这就是使用模型进行抽象的过程。

比如，我们可以将地球建模为一个球体（即使它不是一个球体！）以进行一些计算（例如，确定它的轨道）。

这与我们在软件开发中所做的并没有太大不同。实际上，对我们开发者来说，对象并不是我们可以触摸或感受到的东西，而是执行一些软件任务的模型。

更准确地说，我们可以说“对象是具有相关行为的数据集合”。[1]

让我们举一个例子来澄清这个概念（我们将参考文献[1]进行改述）。

我们想创建一个名为“Apple”的对象。在这种情况下，与之相关的数据可以是颜色（例如，红色）。与之相关的行为可以是我们想把苹果放进篮子里。

软件开发中的一个对象。图片由作者提供。

现在，如果我们遇到一个绿色的苹果怎么办？它仍然是苹果，只是颜色不同：我们可以使用这个概念吗？这就是类发挥作用的地方！

类是定义对象结构的“模板”。这意味着对象有自己特定的一组属性，涉及某个类。

以苹果为例，我们可以说类 Apple 可以包含：

数据 → 颜色
行为 → 苹果放置的位置

使用这个模板，我们可以创建任意多个对象。例如，我们可以创建对象Apple_green，它使用了带有color=green的数据的类 apple，并把苹果放到桌上的篮子里。

我们还可以有一个名为Apple_red的对象，它使用了带有color=red的数据的类 apple，并把苹果放回到货架上。

对象与类之间的区别。图片由作者提供。

所以，正如我们通过苹果的例子所理解的那样，我们可以说数据代表了某个对象的特定特征。

行为则代表动作；这些动作在 Python 中作为类的方法表达。正如我们稍后会看到的，类的方法的定义方式与定义函数的方式相同。

那么：什么是面向对象编程？

OOP 是“将代码编写为建模对象的实践” [1]。

换句话说，这意味着通过数据和行为创建一系列交互的对象。

这并不意味着在 Python 编程时我们总是需要创建类。这里我们需要理解一个简单的概念：Python 的强大之处在于一切在这个编程语言中都是对象。实际上，即使我们看不到，我们在 Python 中实际上是在处理对象和类。

例如，假设我们定义一个变量a = 3。如果我们想查看它的类型，可以写以下代码：

a = 3

type(a)

>>>

  int

我们使用了内置函数type()来确定变量a的属性，它告诉我们这是一个int（也就是整数）。但int是 Python 内置类；这意味着在 Python 中，我们可以定义一个整数变量，如上所示，而无需创建实际的类，因为 Python 为我们做了这件事（在其他编程语言中，我们实际上需要为如此简单的示例创建一个类）。

所以，让我们记住：无论何时编程 Python，我们总是必须处理对象和类，即使我们没有显式声明它们，因为 Python 在后台会完成调用内置类的工作。

Python 中的类

在 Python 中，类必须以大写字母定义。下面是如何定义一个简单类的示例：

class MyFirstClass:
  a = 15 # this is the data of the class
  pass

我们创建了一个简单的类，它设置了a=15。

现在，让我们通过添加一个方法来创建一个实际做些有用工作的类（注：本文中使用的Point类取自参考文献[1]，并根据我的口味和需求进行了修改）：

class Point:

  def origin(self): # this is a method 
    self.x = 0
    self.y = 0

所以，我们创建了一个名为Point的类，并有一个名为origin的方法，它做了一件简单的事情：将二维坐标点设为x=0和y=0（原点）。

现在，正如我们所见，该方法传递了一个名为self的参数。我们可以按需调用它，但作为标准，Python 开发者社区称之为self：我们稍后会更详细地解释它是如何工作的。

现在，如果我们想调用类，我们可以定义一个点p并执行以下操作：

# Invoke the class
p = Point()

现在，我们可以通过编写以下内容来访问类中定义的方法：

# Access the method
p.origin()

所以，现在我们的点已经到了原点。为了确保，我们可以做以下操作：

# Print the coordinates
print(p.x, p.y)

>>>

  0 0

“self”参数

现在，让我们解释一下之前介绍的self参数是什么，以及如何使用它。

self参数用于调用方法。这就是为什么我们将其称为self作为标准的原因：因为我们在调用方法。这就像我们在告诉 Python：“嘿！这个方法是自我调用的”。

当我们需要将多个参数传递给方法时，self必须是第一个参数：否则，另一个参数将调用该方法（正如我们所说，不需要将其命名为self：这个名字只是开发者之间的惯例）。

让我们看看一个使用self的示例，并与另一个不使用它的示例进行比较。

class Test:

  def printing(self):
    print("this is a test")

所以，我们创建了一个简单的类，当我们调用printing方法时，它会打印“this is a test”：

# Invoke the class
test = Test()

# Call the method
test.printing()

>>>

  this is a test

现在，让我们看看没有self的示例：

class Test2:

  def printing2():
    print("this is a test")

# Invoke the class
test2 = Test2()

# Call the method
test2.printing2()

>>>

  Type Error: printing2() takes 0 positional arguments but 1 was given

所以，在这种情况下，Python 返回一个错误，告诉我们一个简单的事情：方法不能被调用，因为它没有参数。

这就是我们需要self的原因。

现在，让我们创建一个具有多个参数的函数：

class Point:

  def move(self, x, y):
    self.x = x
    self.y = y

  def origin(self):
    self.move(0,0)
    return(self.x, self.y)

我们创建了一个类，该类：

移动两个坐标（x和y）。正如我们所见，self调用了该方法。
将坐标移到原点。当我们调用origin方法时，它实际上会将两个坐标（它唯一的参数是self）移动到原点（self.move(0, 0)），并返回坐标。

所以，我们可以调用类并将坐标移动到原点：

#Invoke the class
p = Point

# Call the method
p.origin()

>>>

  0, 0

而且坐标已经移到了原点。

现在，让我们回顾一下之前的几行：我们说move方法移动了坐标，但这并不准确。实际的移动是由origin方法完成的。

实际上，move 方法只做了一件简单的事情：它调用了所需的值。这就是为什么一个类的第一个方法有特殊命名规则的原因。

“init”方法

到目前为止，我们创建了一个将点的坐标（x和y）移动到原点的类。但如果我们想将点移动到任何特定位置怎么办？

为此，我们需要创建另一个类。第一次尝试时，让我们用之前使用的相同逻辑创建它。可以是这样的：

class Point:

    def move(self, x, y):
        self.x = x
        self.y = y

    def position(self):
        print(self.x, self.y)

现在，让我们调用类和方法：

# Invoke the class
p = Point() 

# Get to position
p.position(5,6)

>>>

  TypeError: Point() takes no arguments

然后……我们遇到一个错误！它告诉我们Point类不接受任何参数。这怎么可能？我们已经指定了传递self、x和y；所以，除了self调用方法之外，类应该接受两个值！

错误在于第一个方法。正如我们在上一段中所说，第一个方法只做一件事：它调用所需的值。它不会将点移动到特定位置。

这就是为什么一个类的第一个方法必须是一个叫做__init__的特殊方法的原因。因此，为了正确调用所需的值，我们必须按如下方式创建Point类：

class Point2:

    def __init__(self, x, y):
        self.x = x
        self.y = y

    def position2(self):
        print(self.x, self.y)

现在，让我们调用它：

# Invoke the class
p = Point2(5,6) 

# Get to position
p.position2()

>>>

  5 6

就这样！

**NOTE:**

there is even the possibility to create classes that do not uses the
__init__ method. In these cases, the variables can be invoked in 
other ways.

Anyway: we won't talk about that case here because we believe this is
not a Pythonic way to develop Python software (also, the code becomes
a little bit longer and less redeable).

如果 name == ”main”

现在，在某些类的末尾，我们可能会看到if __name__ == "__main__"。如果你不知道这是什么，这里有一个详细的解释。

引用并改述自[2]：

__name__是一个特殊的内置变量，我们在创建可交互模块时必须使用它，因为它允许我们区分我们导入的模块和我们没有导入的模块。

在 Python 中，模块指的是包和库，甚至是任何可以与其他代码分离并独立运行的代码片段。鉴于类（甚至函数，或任何 Python 文件）可以独立运行，它们可以被认为是模块。

__main__另一方面是一个特殊的模块，表示脚本或程序中的顶级代码的名称。

基本上，如果我们执行if __name__ = "__main__"，我们是在检查我们执行的代码是否是顶级代码。

那么，什么是顶级代码？

我们从这个线程中取一个非常说明性的例子：

import sys         # top-level

3 + 4              # top-level

x = 0              # top-level

def f():           # top-level
    import os      # not top-level!
    return 3       # not top-level

if x:              # top-level
    print 3        # not top-level
else:
    print 4        # not top-level, but executes as part of an if statement
                   # that is top-level

class TopLevel(object): # top-level
    x = 3          # not top-level, but executes as part of the class statement
    def foo(self): # not top-level, but executes as part of the class statement
        print 5    # not top-level

好的，正如我们所看到的，问题与 Python 解释器有关。

让我解释一下。

如果一个模块是独立执行的，那么没有问题。当一个模块被导入到另一个 Python 文件中时，问题就会出现。假设上述脚本被导入到另一个文件中：当我们导入它时，它会立即执行所有顶级代码以及属于if或类声明的代码，正如上述代码片段中的注释所述。

让我们更详细地查看它，举个例子。

让我们创建一个名为package_1.py的 Python 文件，如下所示：

# Define a function to print "Hello"
def print_hello():

    print("hello")

#Invoke the function
print_hello()

如果我们通过终端执行它，我们得到：

执行package_1.py文件。图片由作者提供。

所以，它完全有效。

现在，让我们创建一个名为main.py的 Python 文件，并将package_1.py文件导入其中，然后运行main.py：

main.py 文件的执行。图像来源：作者。

如我们所见，当 main.py 运行时，模块 package_1.py 会立即执行！这是我们不希望发生的情况，原因很简单：我们希望在实际调用代码时使用从模块中导入的代码。换句话说，如果整个模块在导入后立即执行代码，那就完全没有用。

为了避免这种情况，我们在 package_1.py 中使用了 if __name__ = "__main__"，并在其后调用 print_hello() 函数：

使用‘if name == “main”’执行 main.py 文件。图像来源：作者。

如 [2] 所述：

if __name__ = "__main__" 防止了在模块执行时顶层代码的自动执行。

此外，之前我们在 package_1.py 文件中调用了 print_hello() 函数，因为我们希望函数在程序独立运行时能够实际工作。现在，在 if __name__ = "__main__" 后调用 print_hello() 将在 package_1.py 独立运行时调用该函数。

所以，为了回顾和澄清这个例子，如果我们在 package_1.py 中的 if __name__ = "__main__" 后调用 print_hello()：

当 package_1.py 独立运行（即，通过终端）时，print_hello() 将被执行。
当我们运行 main.py 时，print_hello() 将不会被执行。

**NOTE**

We understand that we've used simple examples, but a general
case is that we create modules based on classes:
this is why we have covered this topic in this article.

类型提示

从 Python 3 开始，“PEP 484 — 类型提示” 引入了 Python 中的类型提示。

类型提示是建议传递给函数（或在类的情况下传递给方法）的类型。我们都知道注释和文档字符串必须发挥作用，但类型提示确实有助于我们理解函数的预期。

**NOTE:** 
here we'll talk about functions and not classes, just for the sake
of simplicity.
As we have seen, in fact, a method of a class is defined exactly as
a function: so what we'll see in this paragraph is generalizable
to classes.

让我们做一个简单的例子。创建一个返回值的函数：

def any_call(variable: any) -> any:
    return variable

因此，我们创建了一个接受一个参数（称为 variable）的函数，类型提示告诉我们：

variable 的类型可以是任何类型，例如字符串、整数等……
函数返回任何类型（实际上，它返回 variable）

你觉得这有用吗？好吧，我几周前发现了这个功能，觉得非常惊艳！特别是，当示例更复杂时，这就变得非常有趣。

例如，假设我们需要一个函数，该函数接收一个列表作为参数，并返回列表中元素的数量。该函数可以如下所示：

def count_values(element: list[any]) -> int:
    return sum(1 for elements in element if elements)

-----------------------

count_values([1,2,3,4])

 >>>

     4

----------------------

count_values(["hello", "stranger", "who", "are", "you", "?"])

>>>

   6

因此，我们的函数仅接受 element 作为参数，并且由于类型提示，我们知道它必须是任何类型的列表。然后，函数返回一个整数类型；实际上，它计算列表中元素的数量。

所以，我们认为这个观点很清楚。这是一个非常好的实现，能够提高我们代码的可读性。

文档字符串（以及如何调用它们）

文档是每个软件项目中最重要的部分，原因很简单：在接下来的两个月里，我们几乎不会记得我们做了什么以及为什么做。

因此，编写代码的注释和解释是非常重要的。不幸的是，注释是不够的，因为它们必须非常简短（但要有解释性）。

所以，我们可以做的是使用 docstrings。 PEP 257 规定：

docstring 是在模块、函数、类或方法定义中的第一个语句出现的字符串文字。这样的 docstring 成为该对象的 __doc__ 特殊属性。

所有模块通常都应该有 docstrings，而模块导出的所有函数和类也应有 docstrings。公共方法（包括 __init__ 构造函数）也应有 docstrings。一个包的文档可以在包目录中的 __init__.py 文件的模块 docstring 中进行记录。

换句话说，在软件开发中，docstring 是一种在代码中用于记录代码本身的字符串类型。正如参考文献 [1] 所述，“与注释不同，docstrings 在运行时可用，简化了代码检查，并在执行过程中提供帮助或元数据”。

让我们看看如何在 Python 类中使用 docstrings：

class Point:
    """
    this class moves a point in 2D, passing its coordinates
    as argument of the method 'position'
    """
    def __init__(self, x: int, y: int) -> None: 
        self.x = x
        self.y = y

    def position(self) -> int: 
        print(self.x, self.y)

要访问文档（即 docstrings），我们输入以下内容：

Point.__doc__

>>>

    " this class moves a point in 2D, passing its coordinates as
    argument of the function 'position' "

所以，这就是我们如何访问与类相关的 docstrings。如果我们想访问类中特定方法的 docstring 呢？

让我们看看：

class Point:
    """ this class moves a point in 2D, passing its coordinates
    as argument of the function 'position'
    """
    def __init__(self, x: int, y: int) -> None: 
        self.x = x
        self.y = y

    def position(self) -> int: 
        """ this actually moves the point"""
        print(self.x, self.y)

要访问 position 方法的文档：

Point.position.__doc__

>>>
    'this actually moves the point'

我们到了。

但我们实际上可以（并且应该！）做得更好。例如：

class Point:
    """ this class moves a point in 2D, passing its coordinates
    as argument of the function 'position'

    Args:
        param 1 (int): the coordinate x of the point in 2D
        param 2 (int): the coordinate y of the point in 2D
    """
    def __init__(self, x: int, y: int) -> None: 
        self.x = x
        self.y = y

     def position(self) -> int: 
        """ This method actually moves the point.

      Returns:
        int: prints the integers that represent the coordinates x and y
        of the point in 2D
      """
        print(self.x, self.y)

这可能看起来有些冗余，因为我们已经使用了类型提示，但实际上并不是因为：

我们可能需要在第一次尝试中，仅调用我们类的文档（也许因为我们在另一个文件中将其作为模块导入）。
我们可以使用工具（例如 Sphinx）来创建 HTML 格式的文档；这些工具直接使用 docstrings。

这就是为什么使用非常解释性的 docstrings 是非常重要的。

继承

在这里，我们想讨论 Python 的一个魔法：继承。

正如我们之前所说，面向对象编程（OOP）是用对象之间相互作用的方法来开发代码。这意味着当我们在 Python 中创建类时，我们经常需要让它们相互作用。

在交互时，类会继承其他类的属性和功能。

是的：就像你的老姑姑决定把她的 210 亿美元留给你一样（谁没有这样的姑姑？！）。

首先，我们必须说明，我们创建的每个类都使用了继承。这是因为，正如我们之前所说，Python 使用内置类。所以，当我们调用内置类时，我们的代码会继承调用的内置类或对象的属性。

现在，让我们看看继承在实际中的应用（注意：我从参考文献 [1] 中取出了以下类，并根据我的口味和需求进行了修改）。

我们想创建一个存储一些联系人的名字和姓氏的类，填充一个空列表。我们可以创建类似这样的东西：

class Contact:
    """
    This class saves the name and the surnames
    of some contacts in a list
    """

    # Create empty list
    all_contacts = [] 

    def __init__(self, name: str, surname: str) -> None:
        """ This method initializes the arguments and appends
        the arguments (name and surname)into the empty list.

        Returns:
            nothing.
        """
        self.name = name
        self.surname = surname
        Contact.all_contacts.append(self) # Append to list

    def __repr__(self) -> str:
        """
        The built-in __repr__ method provides a string representation
        of an object.

        Returns:
            the compiled list with name and surname of the contacts
        """
        return (
            f"{self.__class__.__name__}("
        f"{self.name!r}, {self.surname!r}"
            f")"
         )

现在，让我们尝试一下：

# Define a contact
contact_1 = Contact("Federico", "Trotta")

# Show the contacts in the list
Contact.all_contacts

>>>

  [Contact('Federico', 'Trotta')]

现在，假设我们想收集联系人的电子邮件，但由于某种原因，我们想创建一个单独的类。我们可以创建一个如下的类：

 class Email(Contact): # Email is inerithing from Contact

    def get_mail(self, mail:"mail") -> None:
        return mail

现在，让我们添加一个如下的电子邮件：

Email("federico trotta", "federico@example.com")

现在，如果我们调用 Contact.all_contacts，我们会得到：

[Email('federico trotta', 'federico@example.com'),
 Contact('Federico', 'Trotta')]

所以，由于我们的 Email 类将 Contact 类作为参数，它继承了其属性。例如，传递给 Email 类的参数会附加到 Contact 类中的列表。

同时，这个类继承了 __init()__ 方法需要两个参数的事实。实际上，这就是我们只用一个参数所得到的：

mail_2 = Email("Jhon@example.com")

>>>

  TypeError: __init__() missing 1 required positional argument: 'surname'

但是，等一下！！！我们在 Email 类中没有使用 __init()__ 方法，那发生了什么？

结果是 Email 类继承了 __init()__ 方法，所以不需要再次使用它！

如果我们想在子类中使用另一个 __init()__ 方法（Email 是一个子类），我们必须做出一些调整，例如以下几点：

class General(Contact):

    def __init__(self, name: str, email: str) -> None:
        super().__init__(name, email)
        self.email = email

它的工作方式与之前的完全相同：

# Create a contact
general_contact = General("Federico Trotta", "federico@example.com")

# Write the contact into the list
Contact.all_contacts

>>>

  General('Federico Trotta', 'federico@example.com')

因此，Email 类和 General 类的工作方式完全相同，结果也完全相同，但继承的强大之处在于，没有像我们在 Email 中使用 __init()__ 方法一样，代码会更简洁。

同时，正如我们所见，在 General 类的情况下，我们使用了 super.__init()__ 方法：在子类中我们必须使用它，因为它初始化了父类（Contact）的继承属性。

关于如何使用 Python 类的专业提示

如果你发现这篇文章是因为你在理解类时遇到困难，那么你可能不清楚为什么应该使用它们。如果是这样，欢迎加入俱乐部：我曾经也有同样的困惑。

我的意思是：我明白类（当然，还有函数）帮助我们自动化代码，但必须调用它们给我带来了一些困难。

这发生在我身上，因为我开始学习 Python 用于数据科学（这是我如何正确做这件事的提示），说实话，在许多情况下，当我们用 Python 做数据科学时，使用类并没有理由。

所以，我的建议是，正确理解使用类的必要性是将它们视为模块。这意味着，当你想开始一个新的 Python 项目时，一个很好的建议是创建一个 main.py 文件，在其中调用所有你需要的类；无论如何，这些类不应该在 main.py 中创建：它们应该在单独的 Python 文件中创建（通常，我们为每个类创建一个 Python 文件）并在 main.py 中导入使用。

另外，到目前为止我们谈论了模块。这是我写的一篇关于这个话题的文章：

[ ## 掌握模块化编程：如何将你的 Python 技能提升到下一个层次

编写模块化 Python 代码的最佳实践

towardsdatascience.com

结论

在这篇文章中，我们看到了一个关于类的综合指南，希望它能阐明相关的主要主题。

你现在唯一需要做的就是多加练习，希望这个指南在你需要时能帮助到你。

免费 Python 电子书：

开始学习 Python 数据科学但遇到困难？ 订阅我的通讯，获取我的免费电子书：这将为你提供正确的学习路径，以便通过动手实践学习 Python 数据科学。

喜欢这个故事吗？通过我的推荐链接成为 Medium 会员，每月 5 美元点击这里：我将获得一小笔佣金，对你没有额外费用：

[## 使用我的推荐链接加入 Medium — Federico Trotta

阅读 Federico Trotta 的每一个故事（以及 Medium 上成千上万的其他作家的故事）。您的会员费直接支持…

medium.com](https://medium.com/@federicotrotta/membership?source=post_page-----881ed609fb6--------------------------------)

参考文献和视频资料：

[1] Python 面向对象编程 — S.F. Lott, D. Phillips

[2] 如果 name == “main” 对于 Python 开发者 (视频)

我的 Python 脚本如何更像自然对话

原文：towardsdatascience.com/python-code-like-natural-english-ff5cb09e97b9

管道是一种非常出色的技术，可以使代码更加人性化。

Thuwarakesh Murallie

·发布在 Towards Data Science ·5 min 阅读·2023 年 3 月 22 日

图片由 Pavel Danilyuk 提供，来自 Pexels。

你的代码也是你的文档。

人们说伟大的程序员不会给代码添加注释。他们相信，如果代码难以编写，其他人也应该很难理解和修改。因此，他们编写简单明了的代码。

虽然我并不主张完全不添加注释，但这句话中确实有一部分真理，我无法否认。代码应该能够被任何人阅读！

这就是为什么 SQL 代码很棒的原因。声明式语法比任何通用编程语言都要更具可读性。我们清楚地知道我们选择了什么，过滤条件，如何汇总等。

## 这 5 种 SQL 技术覆盖了 ~80% 的现实项目

加快你的 SQL 学习曲线。

towardsdatascience.com

我们能否组织我们的 Python 脚本以提高可读性？如果我们能使 Python 代码看起来更声明式，这会改善代码质量吗？而且会更有趣吗？

我一直在为我的一些项目尝试不同的代码风格。使用管道操作符提高了可读性到一个极致的水平。慢慢地，我将大部分代码库转换为利用这种技术。

但在深入了解管道之前，

什么让你的代码库难以阅读？

进化使我们在日常任务的各个方面创造了可接受的规范。我们可能没有意识到这些规范，但以不同方式进行会让我们和周围的人生活变得困难。

在编程中，我们也制定了可接受的规范。软件设计原则、模式和代码风格指南就是这些规范。

当我们在代码中遵循这些规范时，读者可以轻松理解我们代码的结构。如果不遵循这些规范，会给你和其他人带来困难。

如果这些是新的，可以查看 SOLID 设计原则和 PEP 8 风格指南。

在使用管道操作符重构代码时，单一职责原则（SRP）具有特别重要的意义。它指出我们代码的每个块（一个函数、一个类等）应该处理代码中的一个且仅有一个方面。

这是一个违反 SRP 的代码示例：

import requests

def calculate_transaction_value(amount):
    response = requests.get('https://api.exchangeratesapi.io/latest?base=USD&symbols=EUR')
    exchange_rate = response.json()['rates']['EUR']
    transaction_value = amount * exchange_rate
    return transaction_value

上述代码查询 API 以获取最新的汇率，并计算以美元为单位的交易值。虽然这个函数很简单，但它处理了两个方面——从外部 API 获取汇率和计算值。

这种方法存在几个实际问题。由于这不是文章的范围，我将为另一篇文章保存这些问题。但最重要的是，我们可以通过引入模块化来提高代码的可读性。

这是应用 SRP 后的代码（仍未应用其他原则）。

import os
import requests

def get_exchange_rate():
    url = "https://api.apilayer.com/exchangerates_data/latest?symbols=EUR&base=USD"

    payload = {}
    headers = {"apikey": os.environ["API_KEY"]}

    response = requests.request("GET", url, headers=headers, data=payload)
    result = response.json()["rates"]["EUR"]
    return result

def calculate_transaction_value(exchange_rate, amount):
    transaction_value = amount * exchange_rate
    return transaction_value

这是你在代码中使用它的方式：

exchange_rate = get_exchange_rate()
transaction_value = calculate_transaction_value(100, exchange_rate)
print(f'Transaction value in EUR: {transaction_value}')

>> Transaction value in EUR: 93.71199999999999

现在，任何人都可以轻松阅读这些步骤并理解它们。主要的代码块非常简单。而且每当他们需要更多细节时，可以查看函数定义。

然而，当代码库变得庞大时，这在大多数实际项目中是如此，跟踪所有创建的变量并跟随进展是困难的。

这时管道就派上用场了。

管道提升我们代码库的可读性。

如果你使用 shell 命令，其中一个惊人的地方是我们可以将一个操作的输出传递给下一个操作。这为指令提供了逻辑流程。

我们还可以重构我们的 Python 代码，使其具有逻辑流程。我们可以使用 pipe 包来做到这一点。我们可以从 PyPI 安装它：

pip install pipe

我们现在可以将函数转换为管道操作符。我们只需用管道装饰器标注函数即可。

## 我在几乎所有数据科学项目中使用的 5 个 Python 装饰器

装饰器提供了一种新的便利方式，从缓存到发送通知都可以使用它们。

[towardsdatascience.com

import os
import requests
from pipe import Pipe

def get_exchange_rate():
    url = "https://api.apilayer.com/exchangerates_data/latest?symbols=EUR&base=USD"

    payload = {}
    headers = {"apikey": os.environ["API_KEY"]}

    response = requests.request("GET", url, headers=headers, data=payload)
    result = response.json()["rates"]["EUR"]
    return result

@Pipe
def calculate_transaction_value(exchange_rate, amount):
    transaction_value = amount * exchange_rate
    return transaction_value

这是我们如何按顺序组织和调用函数的示例。

transaction_value = (
    get_exchange_rate() 
    | calculate_transaction_value(100)
)

在上述示例中，请注意管道操作会自动从前一个操作中提取函数的第一个参数。我们并没有将exchange_rate参数传递给calculate_transaction_value函数。相反，我们只传递了金额。

我有意将这个示例保持简单。但在实际项目中，你可能会遇到更长的构造。

这是我最近项目中修改的摘录（仍然是简化版）。

sales_regional_lead_data = (
    get_sales_leads(region="EMEA")
    | create_placeholder_dataframe(
        years=3
    )  # Create a dataset replicating each sales lead for 12 months x years
    | merge_budgets_to_sales_leads(
        get_project_budgets() | aggregate_project_budgets_to_sales_leads()
    )
    | merge_crm_data_to_sales_leads(
        get_crm_data() | aggregate_crm_data_to_sales_leads()
    )
    | merge_invoice_data_to_sales_leads(
        get_project_invoices() | aggregate_invoices_to_sales_leads()
    )
    | merge_work_in_progress_to_sales_leads(
        get_project_work_in_progress() | aggregate_work_in_progress_to_sales_leads()
    )
    | recognize_partial_invoices(finished_pct_cutoff=.8)
    | compute_sales_for_each_sales_lead()
    | compute_delivery_for_each_sales_lead()
    | compute_margin_for_each_sales_lead()
    | compute_average_margin_for_each_sales_lead()
    | compute_average_delivery_for_each_sales_lead()
    | compute_average_sales_for_each_sales_lead()
    | load_sales_leads_to_database(
        db_config, table_name="sales_leads", if_exists="append"
    )
)

这种代码版本更容易理解，因为它更接近自然对话。任何人都可以理解每个步骤及其改变行为的参数。即使是非技术人员的利益相关者也能愉快地将其作为小说阅读。

组织代码的最佳方法是将其拆分为模块并保存在单独的文件中。然后，这些文件在文件系统中以逻辑文件夹结构进行组织。

7 种方法使你的 Python 项目结构更优雅

以下是可管理、可扩展且易于理解的 Python 项目结构的最佳实践。

towardsdatascience.com

因此，只有这段代码存在于模块的__init__.py文件中。我从子模块中导入函数。因此，文件夹结构大致如下：

sales/
├── __init__.py
├── crm_data.py
├── invoices.py
├── budgets.py
├── work_in_progress.py
├── sales_leads.py
├── matrices.py
├── db.py

结论

作为程序员，我们的首要任务往往是让事情运作起来。但如果这是唯一的目标，我们就会错过重点。

我们的代码应该足够容易阅读和理解，让其他人无需我们的帮助或不断查看文档页面。

尝试了几种技术后，给我留下深刻印象的是管道操作。本文主要讲述为什么我认为这种操作很棒。但这里并没有涵盖管道操作的全部范围。

我已经写了一篇关于管道操作的全面文章。请查看以获取更多使用方法。

在 Python 中使用管道操作以获得更可读和更快的编码

一个方便的 Python 包，可以节省大量编码时间，并通过类 Unix 风格的管道操作提高可读性。

towardsdatascience.com

感谢阅读，朋友！在 LinkedIn、Twitter 和 Medium 上和我打个招呼吧。

还不是 Medium 会员？请使用这个链接来 成为会员，因为这样你不会增加额外费用，我将因推荐你而获得少量佣金。

Python：正确计算积分

原文：towardsdatascience.com/python-computing-integrals-the-right-way-22e9257a5836

用 Python 提升你的积分能力

Yoann Mocquin

·发表于 Towards Data Science ·7 分钟阅读·2023 年 9 月 3 日

在处理科学计算或物理问题时，计算一些函数的积分是非常常见的。

图片由 Jeswin Thomas 提供，来自 Unsplash

在这篇简短的文章中，我想展示三种在 Python 中计算一维函数积分的方法。我们将把这些方法分为两种情况：

第一种情况：计算采样函数的积分
第二种情况：计算通用函数的积分

在第一种情况下，我们想要积分的函数已经被采样到一些样本点上，我们无法访问底层的“真实”函数。例如，我们不知道该函数的“公式”，也不能再对该函数采样其他点。换句话说，我们只有 x 数组和相应的 y 值。

在第二种情况下，我们考虑有一个函数对象，我们可以传递一个样本点，它会返回该点的函数值。这是理想的方法，因为我们可以访问函数的所有信息。

请注意，我们始终可以使用采样方法：如果我们仍然可以访问函数，我们可以选择样本点并使用它们对函数进行采样，并使用第一种方法。但正如我们将看到的，选择这些样本点正是计算干净积分的重要部分。

积分定义

在这篇文章中，我们将重点讨论一个返回单一值的单变量函数。我们想要计算的积分是标准定义：

现在我们的目标是尽可能准确地计算 I —— 在我们所知道的“f”的范围内。作为例子，我们将尝试计算以下积分：

使用基本数学，可以显示该积分的值为

在这篇文章中，我们将探讨不同的积分计算方法，并看看我们离真实值有多近。

第一种方法：对采样函数进行积分

假设我们从一个采样函数中提取数据，形式为 X 数组及相应的 Y 数组。你将如何计算 (X,Y) 曲线下的积分？

由于函数已经被采样，我们处理的不是连续信号，而是离散信号。换句话说，我们不知道“f”，只知道 f 的一系列值：

因此，将积分公式转化为离散符号形式似乎是合理的，其中积分符号变成离散符号，而 ‘dx’ 变成每个 x 样本之间的距离：

看起来很合理，对吗？让我们看看在我们的例子中效果如何。为了计算 xs 的差值，我们将使用 numpy 的 diff 函数。为简化起见，我们将使用 numpy 的 linspace 函数生成等间隔的 xs：

import numpy as np

def f(x):
    return 2*x + np.cos(2*np.pi/4*x)

expected_value = 1 + 2/np.pi

N = 101
xs = np.linspace(0, 1, N)
ys = f(xs)
I = np.sum(np.diff(xs) * ys[1:])
print(f"Integral estimated to: {I}")
print(f"Error: {I/expected_value-1:.4%}")

Integral estimated to: 1.641606682344361
Error: 0.3047%

所以仅有 0.3% 的误差已经相当不错，我们应该能通过更多点来改进积分，对吗？

N = 1000
xs = np.linspace(0, 1, N)
ys = f(xs)
I = np.sum(np.diff(xs) * ys[1:])
print(f"Integral estimated to: {I}")
print(f"Error: {I/expected_value-1:.4%}")

Integral estimated to: 1.6371201417061898
Error: 0.0306%

更好，但仍不完美。

误差源于边界效应：注意我们没有使用 y 的第一个值（y_0），每个 x 之间的距离（x_i+1 — x_i）与 x_i 的 f 值相乘。这种方法被称为“矩形”法则或“黎曼和”，对应于以下几何形状：

（右侧）矩形法则，来自公共领域的图片托管在维基百科

这基本上是从采样值估计积分的最简单——也是最差——的方法。

为了改进我们的方法，一个好步骤是使用 numpy 的 trapz，它专门针对这个问题设计：它使用梯形法则从 X 向量和 Y 向量计算积分。基本上，它使用以下几何形状计算积分：

来自公共领域的图片，托管在维基百科

让我们看看它的表现：

I = np.trapz(ys, x=xs)
print(f"Integral estimated to: {I}")
print(f"Error: {I/expected_value-1:.8%}")

Integral estimated to: 1.6366196412056895
Error: -0.00079982% # compared to 0.3047% for the rectangle rul

因此误差约为 1e-3%！与矩形法则的 0.3% 相比，已经相当不错了。

使用更多点（假设我们可以有更多点，这并不总是可能的），我们得到：

# for N = 1000
Integral estimated to: 1.6366196412056895
Error: -0.00000801%

误差约为 1e-5%，开始变得相当不错。

要进一步改进，可以采取以下措施：

增加采样点数量（如果可能）：作为一般规则，增加点的数量通常会减少误差，但减少的程度各不相同。换句话说，增加样本数量可以将误差减少到一定程度——它变得越来越低效。请注意，这需要仍然“访问”函数——如果可以的话，你最好使用第二种方法。此外，计算 f 的值有时会耗时。
做出假设：在使用矩形或梯形规则时，我们做出一个基本假设，即函数在每个 x 采样点之间是“常数”的。如果我们“允许”这样做，我们可以做出其他假设，例如函数表现得像某个阶数的多项式，并利用这些信息来计算积分。鉴于我们使用的是“采样方法”，通常我们无法获得有关真实函数的更多信息，因此做出不同的假设（常数、多项式）并没有比其他方法更好，只是不同而已。

最终，这两种方法都需要对真实函数有访问和/或更多的了解。这就是为什么我们要转向第二种方法！

第二种方法：对连续函数进行积分

在这种情况下，我们仍然可以访问函数 f。

对于这种情况，有很多计算积分的可能性。尝试理解这些方法，它们的工作原理、优缺点，是掌握这些问题复杂性的良好起点。

这就是scipy.integrate发挥作用的地方：这个模块提供了很多积分方案，默认设置大多数情况下已经足够。

在我们的例子中，我们将使用quad函数，它是用于一维函数的通用积分函数。

我们来看看它对我们的问题的表现：

from scipy.integrate import quad
I = quad(f, 0, 1)[0] # integrate f between 0 and 1
print("Best integral value", I)
print(f"Error {I/expected_value-1:.16%}")

Best integral value 1.6366197723675815
Error 0.0000000000000000%

啦啦！数值精度积分，直接开箱即用。所以记住，与其自己对函数 f 进行采样，并使用梯形法计算积分，不如让 scipy 做繁重的工作！

Scipy 确实充满了许多非常有用的工具，适用于许多应用。偶尔查看一下其文档。

总结

所以记住：

如果你只有从未知函数 f 中采样的 X 和 Y 向量，请使用 numpy 的 trapz 以梯形法快速且安全地计算其积分。这可能是复杂性和准确性之间最好的折中选择。
如果你可以访问 f，请使用 scipy 的 quad 函数来计算积分： 它可能会直接给你惊人的结果，如果需要，你还可以进一步自定义积分方案的参数。

在下一篇文章中，我会展示如何计算复值函数的积分，敬请期待！

如果你考虑加入 Medium，请使用这个链接快速订阅并成为我的推荐会员：

[## 使用我的推荐链接加入 Medium - Yoann Mocquin

作为 Medium 会员，你的部分会员费将用于你阅读的作者，同时你可以全面访问每个故事…

并订阅以便在我发布新文章时获得通知：

[## 每次发布时都通过邮件通知我！

每次发布时都通过邮件通知我！新发布的内容将包括数据变换、先进的绘图和模拟…

mocquin.medium.com

最后，你可以查看我的其他一些文章，关于傅里叶变换或数据科学的线性代数技术：

## 时间序列的傅里叶变换：去趋势处理

对你的时间序列进行去趋势处理可能会改变游戏规则。

[towardsdatascience.com ## PCA/LDA/ICA：成分分析算法比较

复习这些著名算法的概念和差异。

[towardsdatascience.com ## PCA 白化与 ZCA 白化：numpy 2D 可视化

数据白化过程包括一种变换，使得变换后的数据具有单位矩阵作为…

[towardsdatascience.com ## 使用 numpy 的有限差分法解决方案提高了 300 倍

有限差分法是一种强大的技术来解决复杂问题，而 numpy 使其变得更快！

[towardsdatascience.com

Python 装饰器：全面指南

原文：towardsdatascience.com/python-decorators-a-comprehensive-guide-5bde06d2fb27

PYTHON 编程

文章介绍了 Python 的强大语法糖：装饰器。

github.com](https://github.com/nyggus/easycheck/blob/master/easycheck/easycheck.py?source=post_page-----5bde06d2fb27--------------------------------)

·发布在 Towards Data Science ·阅读时间 11 分钟·2023 年 10 月 19 日

做一个优秀的装饰器设计师——以及 Python 代码设计师。照片由 Spacejoy 提供，来源于 Unsplash

Python 装饰器是那些看似简单但如果不了解就非常困难的概念之一。许多 Python 初学者将它们视为一种神奇的工具，必须学习并在自己的代码中使用，以便实现真正的魔法。但使用内置的装饰器或来自第三方库的装饰器是不够的；这就像用儿童商店买来的魔法盒子做魔法一样。真正的魔法来自于编写自己的装饰器。

我记得当时我迫切想学习如何在真实项目中编写和使用自己的装饰器，而不仅仅是为了好玩。当那个时刻终于到来时，我感受到的愉悦是巨大的。这段经历让我渴望寻找更多机会来实现自己的装饰器。

我希望在阅读本文后，你对 Python 装饰器不会再有任何困惑。因此，本文旨在向那些尚未理解 Python 装饰器概念的人介绍这个话题。我希望以一种易于理解的方式揭示其背后的魔力。

装饰器的内容远不止这些。我们将讨论基础知识，但好消息是，这些基础知识应该足以让你实现即使是复杂而实用的装饰器。在未来的文章中，我们将深入探讨装饰器的复杂细节及其各种应用场景。

各个水平的 Python 程序员都能从这篇文章中受益。初学者将学习装饰器的基础知识，而中级程序员将获得更深入的理解；高级程序员可以利用这篇文章来刷新记忆。此外，有时从不同的角度看待某个特定概念是好的，不仅仅是我们多年来使用的角度——在这里，我提供了对装饰器及其有用性的观点，希望能对各个水平的读者有所帮助。

装饰器简介

Python 装饰器是一个强大而多用途的工具，但应谨慎使用以避免过度使用和滥用。装饰器是一个函数，允许你修改另一个函数的行为。装饰器也可以作为类来编写，但这种情况较少见，本文将不予讨论。

当你有一个装饰器，比如my_decorator()时，你可以用它来装饰另一个函数，比如foo()，如下所示：

@my_decorator
def foo(x, y):
    # do something; in result,
    # you obtain changed_x and changed_y
    return changed_x, changed_y

在装饰了foo()函数后，我们不能再知道它的行为，而不了解my_decorator装饰器的作用。装饰器可能会添加新的行为，比如日志记录，或者完全改变函数的行为和返回值。例如，装饰过的foo()函数可能返回一个字典而不是一个元组，或者可能返回None。要了解装饰后的foo()函数的行为，我们必须检查my_decorator装饰器的定义。

我不知道“装饰器”一词在 Python 上下文中的词源。在 Python 中，这个词源自装饰器模式，但这并没有解释其原始词源。如果你知道，请在评论中与我们分享。

我个人认为 Python 装饰器是一种美妙的语法糖。它们被称为装饰器也不奇怪，因为它们装饰了被装饰的函数。我欣赏装饰器的外观和功能。

不过，我了解装饰器可能带来的困难。如上所述，我们不能知道一个装饰过的函数的行为，而不了解其装饰器的定义。此外，多个装饰器可以作用于一个函数，这使得事情变得更加复杂。

让我将装饰器背后的思想整理成三步：

需求。你有一个函数，但你需要改变它的行为。这可能由于各种原因。例如，你可能需要为应用程序中的所有函数添加日志记录，或改变外部模块中函数的行为。
定义。你编写一个装饰器函数，负责这种更新的行为。它可以接受一个或多个参数，除了原始函数之外。装饰器函数通常会调用原始函数，但这并不是必须的。
使用。你用新函数覆盖原函数。这可以通过装饰或赋值的方式完成，但装饰更为常见。使用原始名称调用装饰函数意味着调用新函数，因为原函数不再存在，除非它被复制。

这三步中的每一步都同样重要，所以我们逐步讨论这三步。

第 1 步：需求

好的，所以你需要改变函数的行为。

为什么使用装饰器来改变函数的行为而不是简单地重写它？有几个原因：

你可能无法重写函数。例如，它可能是来自外部模块的函数。
你可能不想重写函数。例如，它可能是一个大型或复杂的函数，或者是一个在许多不同地方使用的函数。
重写函数可能很麻烦。例如，它可能被许多不同的函数调用。
你可能只需要在开发中改变函数的行为，但希望在生产中使用原函数。
你可能需要改变许多函数的行为。在这种情况下，编写装饰器比逐个重写每个函数要高效得多。

最常见的场景是你需要改变许多函数的行为。在这种情况下，你可以编写一个装饰器，并将其应用到所有需要改变的函数上。这可以节省大量时间和代码。

以下是一些装饰器可以使用的例子：

向项目中所有现有函数添加日志记录。
测量并记录应用中每个函数的执行时间。
向应用中调用的函数添加身份验证和授权。
缓存函数返回的输出。
将函数从写入本地文件的数据更改为写入远程数据库的数据。
在测试中使某个特定函数静默。例如，你可以使用装饰器防止函数在测试期间写入远程数据库。

装饰器在 Python 中也被广泛用于模拟。模拟允许你创建假对象来模拟真实对象的行为。这对于测试依赖于外部资源的代码（如数据库和网络服务）非常有用。

第 2 步：定义

你是否注意到，在用@语法装饰一个函数后，装饰过的函数是用原函数的名称来调用的？这就是使函数成为装饰器的原因。如果原函数，比如foo()，仍然可以作为foo()使用，并且有一个新的函数，比如foo_changed()，其行为是foo()的改变后的行为，这里并没有涉及装饰。因此，装饰一个函数涉及到覆盖原函数。你可以用一个新名称保留原函数的副本，但原函数本身已被装饰函数替代。

装饰涉及到覆盖原函数。

是时候离开抽象的世界，转向实际操作了。让我们创建一个简单的装饰器，称为 scream()，使函数尖叫：

from typing import Callable

(1) def scream(func: Callable) -> Callable:
(2)     def inner(*args, **kwargs):
(3)         print("SCREAM!!!")
(4)         return func(*args, **kwargs)
(5)     return inner

这个装饰器接受一个可调用对象（func）作为输入，并返回一个可调用对象（inner）。inner 函数在调用原始函数（func）之前，会向控制台打印“SCREAM!!!”。为了简化代码，我放弃了文档字符串，但在实际工作中，你应该为装饰器添加文档字符串。

在实际工作中，你应该为装饰器添加文档字符串。

这里是 scream() 装饰器逐行的解析：

def scream(func: Callable) -> Callable: → 这是函数签名。scream() 装饰器可以用于装饰任何可调用对象（func），并且它也返回一个可调用对象。¹
def inner(*args, **kwargs): → 这是内层函数。它打印“SCREAM!!!”；你可以使用任何你想要的名字，但我通常使用 inner，像这里一样。装饰函数时，你可以使用被装饰函数接受的任何参数。例如，scream() 装饰器可以用于任何函数，接受任何数量和类型的参数（因此使用了 *args, **kwargs）。
print("SCREAM!!!") → 这是添加到被装饰函数原始行为中的新行为。不管函数做什么，它将首先尖叫（通过打印"SCREAM!!!"），然后执行它最初应该做的事情。注意，在这个装饰器中，新行为是之前添加的，但它也可以之后添加，之前和之后都添加，甚至代替原始行为。
return func(*args, **kwargs) → 这是函数的原始行为。
return inner → 任何装饰器的标准行：返回 inner 函数。这意味着当 scream() 装饰器被使用时，它会用内层函数替换原始函数。

在附录 1 中，你会找到 scream() 装饰器的两个其他版本：

尖叫两次：在原始行为之前和之后
嚎叫代替了原始函数应该做的事情。

第三步：使用

要装饰一个函数，你可以用两种方式使用装饰器。本小节描述了这两种方式。

方法 1：将装饰器用作 *@decorator*

首先，我们需要一个要装饰的函数。让我们使用两个函数来说明你可以对任意多的函数使用相同的装饰器，并且这些函数可以非常不同。

我们想要装饰的第一个函数是 foo()：

def foo():
    return "foo tells you that life is great"

当我们调用这个函数时，我们将看到以下输出：

>>> foo()
'foo tells you that life is great'

这是几乎最简单的 Python 函数：它不接受任何参数并返回一个字符串。这是我们想要装饰的第二个函数，bar()：

from typing import List

def bar(
    x: int,
    string: str,
    func: Callable = lambda a, b: a * b,
    **kwargs
) -> List[str]:
    """Applies a callable to each character in the given string.

    It does so, passing in the given integer and any additional
    keyword arguments. Returns a list of the results.
    """
    return [func(x, s_i, **kwargs) for s_i in string]

这个函数比foo()复杂。它有三个参数：一个整数x、一个字符串string和一个可调用的func。它还接受任何额外的关键字参数。该函数将func()应用于string中的每个字符和x，如果有额外的关键字参数，也会传递进去。最后，它返回一个结果列表。

一个简单的调用可能是这样的：

>>> bar(3, "abc")
['aaa', 'bbb', 'ccc']

让我们使用不同的可调用对象作为func：

>>> def concatenate(i: int, s: str, sep: Optional[str] = "-") -> str:
...     return f"{str(i)}{sep}{s}"
>>> bar(5, "abc", func=concatenate)
['3-a', '3-b', '3-c']
>>> bar(3, "abc", func=concatenate, sep=":")
['3:a', '3:b', '3:c']

对于我们的目的来说，foo()和bar()的功能并不重要。重要的是foo()是一个非常简单的函数，而bar()虽然简洁但更复杂。

我们可以使用装饰器语法装饰这两个函数，这在以@字符开头的两行中显示。为了完整性和清晰性，我将展示完整代码，因此我会重复函数的代码：

from typing import Callable, List

@scream
def foo():
    return "foo tells you that life is great"

@scream
def bar(
    x: int,
    string: str,
    func: Callable = lambda a, b: a * b,
    **kwargs
) -> List[str]:
    return [func(x, s_i, **kwargs) for s_i in string]

让我们运行这两个函数：

>>> foo()
SCREAM!!!
'foo tells you that life is great'
>>> bar(5, "abc", func=concatenate)
SCREAM!!!
['3-a', '3-b', '3-c']
>>> bar(3, "abc", func=concatenate, sep=":")
SCREAM!!!
['3:a', '3:b', '3:c']

方法 2：将装饰器用作 *function()*

使用装饰器函数最常见的方式是作为装饰器。然而，还有一种不太常见的方式：

def foo():
    return "foo tells you that life is great"

foo = scream(foo)

这样，你只需将要装饰的函数作为参数调用装饰器函数。

无论你使用哪种方法来应用scream()装饰器，当你运行foo()时，装饰后的函数将会尖叫，然后做它最初要做的事情。

结论

这篇文章解释了 Python 装饰器的基础知识。我尽力做到全面，但仍有许多装饰器的细节我们没有讨论。我们将在未来的文章中深入探讨这些问题。

学习 Python 装饰器的重要性有几个原因，不仅仅是如何使用它们，还包括如何编写新的装饰器。首先，装饰器是一个强大的工具，可以帮助你编写简洁且易读的代码。如果你知道如何编写自定义装饰器，你会发现它们往往能为你节省大量时间和精力。

其次，装饰器可以用来快速更新遗留代码。例如，如果你需要更改一个或多个函数的行为，但修订这些函数本身不可行，你可以使用装饰器。虽然总是可以重写这些函数，但如果所有函数的行为都是相同的，一个装饰器可能就足够了。

第三，装饰器是 Python 中最重要的语法糖之一。如果你不理解它们，你可能会被认为是 Python 初学者。我无法想象一个不知道如何使用装饰器的 Python 开发者，更不用说理解它们了。

最后，装饰器在 Python 代码库中非常常见。如果你不熟悉装饰器，你将无法理解许多现有的代码。

因此，所有中级和高级 Python 开发者应该了解装饰器的概念，理解如何使用它们，并能够编写它们。

尽管装饰器乍看起来可能很复杂，但我相信如果你读到这篇文章的这个部分，你会同意一旦理解了基本原理，它们其实并不是那么复杂。事实上，它们可以是一个非常简单且实用的编码工具。

脚注

¹ 为了简便起见，我将使用“装饰器函数”这一术语，而不是“装饰器可调用对象”。但请注意，这只是对以函数和类两种方式定义的装饰器的简写。我只是想避免过度使用“可调用对象”这个词，即使它在 Python 文本中经常出现。

附录

附录 1：`scream()`装饰器的两个其他版本

版本 2：在运行函数之前和之后尖叫

from typing import Callable

def scream(func: Callable) -> Callable:
    def inner(*args, **kwargs):
        print("SCREAM!!!")
        output = func(*args, **kwargs)
        print("SCREAM AGAIN!!!")
        return output
    return inner

你将看到用上述装饰器装饰后的foo()的输出：

>>> foo()
SCREAM!!!
'foo tells you that life is great'
SCREAM AGAIN!!!

版本 3：尖叫代替运行函数

from typing import Callable

def scream(func: Callable) -> Callable:
    def inner(*args, **kwargs):
        print("SCREAM, JUST SCREAM!!!")
    return inner

以及：

>>> foo()
SCREAM, JUST SCREAM!!!

这个版本的scream()装饰器完全覆盖了被装饰函数的原始行为。被装饰的函数现在只会尖叫，原始行为完全被移除。这种结构在许多不同情况下都非常有用。例如，你可以用它来完全静音一个函数：

from typing import Callable

def silence(func: Callable) -> Callable:
    def inner(*args, **kwargs):
        pass
    return inner

你可以在[easycheck](https://pypi.org/project/easycheck/) Python 包的代码中看到这种静音器的例子：

[## easycheck/easycheck/easycheck.py 在主分支 · nyggus/easycheck

一个模块提供了 Python 函数用于简单且可读的断言式检查，可在代码内部以及其他地方使用…

在这段代码中查找switch函数。

你还会看到，你可以堆叠装饰器；以下是来自上面easycheck库的一个例子：

@switch
@make_it_true_assertion
def assert_paths(*args: Any, handle_with: type = AssertionError, **kwargs: Any) -> None:
    return check_if_paths_exist(*args, handle_with=handle_with, **kwargs)

我们将在未来的文章中讨论装饰器的这些细节。

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里查看它们。如果你想加入 Medium，请使用我下面的推荐链接：

[## 使用我的推荐链接加入 Medium - Marcin Kozak

阅读 Marcin Kozak 的每一个故事（以及 Medium 上的其他成千上万的作者）。你的会员费用直接支持…

medium.com](https://medium.com/@nyggus/membership?source=post_page-----5bde06d2fb27--------------------------------)

我在几乎所有数据科学项目中使用的 5 个 Python 装饰器

原文：towardsdatascience.com/python-decorators-for-data-science-6913f717669a

装饰器提供了一种新颖且便捷的方法，从缓存到发送通知应有尽有。

Thuwarakesh Murallie

·发表于 Towards Data Science ·6 分钟阅读·2023 年 3 月 13 日

图片由 Elena Mozhvilo 提供，来源于 Unsplash

一开始，每个开发者的目标都是让事情运作起来。逐渐地，我们开始关注可读性和可扩展性。这时我们开始考虑装饰器。

装饰器是为函数提供额外行为的绝佳方式。作为数据科学家，我们经常需要将一些小功能注入到函数定义中。

使用装饰器，你会惊讶于你能减少多少代码重复并提高可读性。我确实感到惊讶。

[## 使用 Streamlit 在几分钟内创建 GPT3 驱动的应用程序

学会构建智能应用程序，而无需过多担心软件开发。

levelup.gitconnected.com](https://levelup.gitconnected.com/streamlit-openai-gpt3-example-app-b333da955ceb?source=post_page-----6913f717669a--------------------------------) ## 如何使用 GitHub Actions 构建简单的 ETL 流水线

ETL 不必复杂。如果是这样的话，可以使用 GitHub Actions。

towardsdatascience.com

这是我在几乎每个数据密集型项目中使用的五种最常见的装饰器。

1. 重试装饰器

在数据科学项目和软件开发项目中，我们经常依赖外部系统。事情并不总是在我们的控制之下。

## 3 SQL 优化技巧，能立即提升查询速度

在完全转到不同的数据模型之前，可以尝试一些简单的技巧。

[towardsdatascience.com [## Python 网络抓取的宁静交响曲——三重奏

在 Python 中进行网络抓取的最简单、最灵活和最全面的方法

levelup.gitconnected.com

当发生意外事件时，我们可能希望我们的代码等待一段时间，以便外部系统自行修正并重新运行。

我倾向于在 Python 装饰器中实现这个重试逻辑，以便可以注解任何函数来应用重试行为。

这是一个重试装饰器的代码。

import time
from functools import wraps

def retry(max_tries=3, delay_seconds=1):
    def decorator_retry(func):
        @wraps(func)
        def wrapper_retry(*args, **kwargs):
            tries = 0
            while tries < max_tries:
                try:
                    return func(*args, **kwargs)
                except Exception as e:
                    tries += 1
                    if tries == max_tries:
                        raise e
                    time.sleep(delay_seconds)
        return wrapper_retry
    return decorator_retry@retry(max_tries=5, delay_seconds=2)
def call_dummy_api():
    response = requests.get("https://jsonplaceholder.typicode.com/todos/1")
    return response

在上述代码中，我们尝试获取 API 响应。如果失败，我们重试相同的任务 5 次。每次重试之间，我们等待 2 秒。

2. 缓存函数结果

我们的代码库中有些部分很少改变其行为。然而，它们可能会占用大量计算资源。在这种情况下，我们可以使用装饰器来缓存函数调用。

## 你还在使用 Virtualenv 吗？

有一种更好的方法来管理依赖关系、打包和发布 Python 项目。

[towardsdatascience.com

如果输入相同，函数只会运行一次。在每次后续运行中，结果将从缓存中获取。因此，我们不必一直进行昂贵的计算。

def memoize(func):
    cache = {}
    def wrapper(*args):
        if args in cache:
            return cache[args]
        else:
            result = func(*args)
            cache[args] = result
            return result
    return wrapper

装饰器使用字典来存储函数参数和返回值。当我们执行这个函数时，装饰器会检查字典中的先前结果。实际函数只有在没有存储值时才会被调用。

以下是一个计算斐波那契数的函数。由于这是一个递归函数，相同的函数调用会被执行多次。但有了缓存，我们可以加速这个过程。

@memoize
def fibonacci(n):
    if n <= 1:
        return n
    else:
        return fibonacci(n-1) + fibonacci(n-2)

以下是这个函数在有缓存和无缓存情况下的执行时间。请注意，缓存版本的运行时间只有毫秒的一小部分，而未缓存版本几乎花了一分钟。

Function slow_fibonacci took 53.05560088157654 seconds to run.
Function fast_fibonacci took 7.772445678710938e-05 seconds to run.

使用字典来保存先前的执行数据是一种直接的方法。然而，还有一种更复杂的方式来存储缓存数据。你可以使用内存数据库，比如 Redis。

3. 计时函数

这并不令人惊讶。当处理数据密集型函数时，我们渴望了解运行所需的时间。

通常的做法是收集两个时间戳，一个在函数开始时，一个在函数结束时。然后我们可以计算持续时间，并将其与返回值一起打印出来。

但对多个函数重复进行这项工作是很麻烦的。

相反，我们可以让装饰器来完成这件事。我们可以对任何需要打印持续时间的函数进行注解。

这是一个示例 Python 装饰器，当函数被调用时，它会打印运行时间：

import time

def timing_decorator(func):
    def wrapper(*args, **kwargs):
        start_time = time.time()
        result = func(*args, **kwargs)
        end_time = time.time()
        print(f"Function {func.__name__} took {end_time - start_time} seconds to run.")
        return result
    return wrapper

你可以使用这个装饰器来计时函数的执行时间：

@timing_decorator
def my_function():
    # some code here
    time.sleep(1)  # simulate some time-consuming operation
    return

调用函数将打印运行所需的时间。

my_function()

>>> Function my_function took 1.0019128322601318 seconds to run.

4. 记录函数调用

这个装饰器很大程度上是对前一个装饰器的扩展。但它有一些特定的用途。

如果你遵循软件设计原则，你会欣赏单一职责原则。这本质上意味着每个函数将有其唯一的责任。

## 这是我如何仅用 Python 创建炫目仪表盘的方法。

Plotly dash 应用程序是用 Python 构建生产级仪表盘的最快方式。

[

当你以这种方式设计你的代码时，你还会希望记录函数的执行信息。这就是日志记录装饰器派上用场的地方。

以下示例说明了这一点。

import logging
import functools

logging.basicConfig(level=logging.INFO)

def log_execution(func):
    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        logging.info(f"Executing {func.__name__}")
        result = func(*args, **kwargs)
        logging.info(f"Finished executing {func.__name__}")
        return result
    return wrapper

@log_execution
def extract_data(source):
    # extract data from source
    data = ...

    return data

@log_execution
def transform_data(data):
    # transform data
    transformed_data = ...

    return transformed_data

@log_execution
def load_data(data, target):
    # load data into target
    ...

def main():
    # extract data
    data = extract_data(source)

    # transform data
    transformed_data = transform_data(data)

    # load data
    load_data(transformed_data, target)

上面的代码是一个简化版的 ETL 流水线。我们有三个独立的函数来处理提取、转换和加载。我们用我们的log_execution装饰器包装了它们。

现在，每当代码被执行时，你会看到类似这样的输出：

INFO:root:Executing extract_data
INFO:root:Finished executing extract_data
INFO:root:Executing transform_data
INFO:root:Finished executing transform_data
INFO:root:Executing load_data
INFO:root:Finished executing load_data

我们也可以让执行时间在这个装饰器中打印出来。但我更喜欢将它们分开到不同的装饰器中。这样，我可以选择在函数中使用哪一个（或两个）。

以下是如何在一个函数上使用多个装饰器的方法。

@log_execution
@timing_decorator
def my_function(x, y):
    time.sleep(1)
    return x + y

5. 通知装饰器

最后，一个在生产系统中非常有用的装饰器是通知装饰器。

再次，即使经过多次重试，即使是经过良好测试的代码库也会失败。当这种情况发生时，我们需要通知某人以便快速采取行动。

如果你曾经构建过数据管道并希望它能永久稳定工作，这并不新鲜。

以下装饰器会在内部函数执行失败时发送一封电子邮件。在你的情况下，它不一定是电子邮件通知。你可以配置它发送 Teams/slack 通知。

import smtplib
import traceback
from email.mime.text import MIMEText

def email_on_failure(sender_email, password, recipient_email):
    def decorator(func):
        def wrapper(*args, **kwargs):
            try:
                return func(*args, **kwargs)
            except Exception as e:
                # format the error message and traceback
                err_msg = f"Error: {str(e)}\n\nTraceback:\n{traceback.format_exc()}"

                # create the email message
                message = MIMEText(err_msg)
                message['Subject'] = f"{func.__name__} failed"
                message['From'] = sender_email
                message['To'] = recipient_email

                # send the email
                with smtplib.SMTP_SSL('smtp.gmail.com', 465) as smtp:
                    smtp.login(sender_email, password)
                    smtp.sendmail(sender_email, recipient_email, message.as_string())

                # re-raise the exception
                raise

        return wrapper

    return decorator

@email_on_failure(sender_email='your_email@gmail.com', password='your_password', recipient_email='recipient_email@gmail.com')
def my_function():
    # code that might fail

结论

装饰器是一种非常方便的方式来为我们的函数应用新行为。如果没有它们，将会有很多代码重复。

在这篇文章中，我讨论了我最常用的装饰器。你可以根据你的特定需求扩展这些装饰器。例如，你可以使用 Redis 服务器来存储缓存响应，而不是使用字典。这将使你对数据有更多的控制，比如持久性。或者，你可以调整代码，逐步增加重试装饰器中的等待时间。

在我所有的项目中，我都会使用这些装饰器的某个版本。尽管它们的行为略有不同，但这些是我经常使用装饰器的共同目标。

希望这篇文章对你有所帮助。

感谢阅读，朋友！如果你喜欢我的文章，请在 LinkedIn、Twitter 和 Medium 上保持联系。

还不是 Medium 的会员？请使用这个链接 成为会员，因为在不增加额外费用的情况下，我可以获得一小部分推荐佣金。

Python dictcomp 管道示例

原文：towardsdatascience.com/python-dictcomp-pipelines-in-examples-4c4ec4e66f3

PYTHON 编程

见识 dictcomp 管道的威力

## An OptionalBool Type for Python: None, False or True

·发表于Towards Data Science ·11 分钟阅读·2023 年 4 月 20 日

管道一个接一个地处理任务。图片来源于Daniel Schludi在Unsplash

这篇文章的灵感来源于几年前我在一个实际项目中参与的任务。在提出理解管道的概念后，我注意到这个解决方案可以通过使用OptionalBool数据结构，并结合 dictcomp 管道来很好地实现，OptionalBool是我在另一篇文章中提出的。

这篇文章旨在展示我们如何实现这样的管道。我将详细讲解一些细节，以便代码变得清晰且令人信服。你可以将其视为一个案例研究，展示 dictcomp 管道的实现。

我们已经讨论了 Python 中生成器管道的威力：

## 在 Python 中构建生成器管道

这篇文章提出了一种优雅的方式来构建生成器管道

towardsdatascience.com

后来，我提出了一个 Python 特有的理解管道概念：

## 在 Python 中构建理解管道

理解管道是一个 Python 特有的构建管道的概念

towardsdatascience.com

理解式管道构成了生成器管道的泛化。它们类似于生成器管道，但前者创建一个带有结果的生成器，而后者则以任何类型的理解式形式输出结果：

一个生成器，来自一个生成器管道
一个列表，来自一个列表推导式管道
一个字典，来自一个字典推导式管道
一个集合，来自一个集合推导式管道

在上述文章中，我专注于展示这种管道的工作原理以及如何构造它们。在此过程中，我使用了一些比较简单的示例。在这里，我们将使用一个更复杂的示例，其中我们将使用一个字典推导式管道。

任务：文档过滤

想象一下你的公司有大量的标准操作程序（SOP）。它们混乱不堪，使用了一个过时的系统进行组织。你需要使用特定的键来过滤它们。例如，你需要找出哪些包含“Python”一词。

当然，这种过滤可以复杂得多，因此你需要编写一个程序，以便将来能够更改过滤逻辑。此外，目前标准以本地文件的形式存储在你从本地计算机可以访问的共享驱动器中。然而，这种情况应该很快会改变，因此你还需要使读取逻辑易于更改。

如上所述，我们的过滤任务也很简单。然而，下一任务可能需要更高级的解析逻辑，例如特定字段或表格等。再次强调，整体机制将类似，我们只需重写解析器。在实现时，你应该考虑到这一点。

实现

我们可以将该任务的算法描述如下：

我们有一个documents的列表（或其他序列）；documents中的每个document可以被读取为一个字符串（这取决于文档的类型）。在我们的第一个例子中，这将是文件路径的列表。但文档也可以通过其他方式访问，例如从数据库中。
在读取一个document后，解析文本并应用过滤逻辑。在我们的例子中，这归结为检查文本是否包含“Python”一词。如果包含，返回True；否则，返回False。
对documents中的所有文档执行上述步骤。
作为输出，返回一个字典，其中文档的字符串表示作为键（在我们的示例中为字符串形式的路径），这些布尔值作为对应的值。

下面的代码块展示了dictcomp_pipeline模块的内容。它以通用方式实现了上述逻辑。

# dictcomp_pipeline.py

from pathlib import Path
from collections.abc import Sequence

from typing import Any, Optional

# Type aliases
Paths = Sequence[Path]
KeywordArgs = Optional[dict[str, Any]]

def read_text(path: Path) -> str:
    """Read text from path and return a string."""
    return path.read_text()

def parse_text(text: str, word: str) -> bool:
    """Parse text from string and return a bool value."""
    return word.lower() in text.lower()

def run_dictcomp_pipeline(
    documents: Any,
    read_text_kwargs: KeywordArgs = None,
    parse_text_kwargs: KeywordArgs = None) -> dict[str, bool]:
    read_text_kwargs = read_text_kwargs or {}
    parse_text_kwargs = parse_text_kwargs or {}

    texts = {
        doc: read_text(doc, **read_text_kwargs)
        for doc in documents
    }
    return {
        str(doc): parse_text(text, **parse_text_kwargs)
        for doc, text in texts.items()
    }

在附录 1 中，你会发现这个代码包含了扩展版的文档字符串，它们解释了一些关键细节，我们也将在下文中涵盖这些细节。

泛化体现在两个方面：数据读取器的实现方式和数据解析器的实现方式。我们将在下一节中讨论这些方面，并逐一讨论这三个函数。

函数

读取数据

这个特定的实现接受一个参数path，它是一个pathlib.Path实例。尽管我们以特定方式实现了read_text()函数，但管道函数（get_dictcomp_pipeline()）并未固定在这个实现上。你可以重新实现read_text()以满足你的需求；例如，它可以从 PDF 文件、网页或数据库中读取文档。

你可以自由更改函数，但必须保持以下几点不变：

函数必须将get_dictcomp_pipeline()中的一个documents元素作为第一个参数。它作为位置参数传递，因此你可以根据函数要完成的任务为其命名。在这个特定实现中，它是path。
如果函数接受更多参数，它们必须作为关键字参数，并且在所有read_text()的调用中都应相同。
函数应返回一个字符串形式的文本。

解析数据

尽管在我们的任务中，我们在文档中查找“Python”这个词，管道使得用户能够查找任何单词，这要归功于parse_data()函数的签名。它接受两个参数，text和word，都是字符串。如果在text中找到word，函数返回True；否则返回False。

这个解析逻辑忽略了单词的大小写，通过对文本和搜索的单词都使用.lower()字符串方法来简单实现。

与read_data()的情况类似，你可以更改函数的逻辑以及其签名，但需记住以下条件：

第一个参数，作为位置参数使用，是read_text()返回的文本，类型为str。
如果函数接受更多参数，它们在所有parse_text()的调用中都应相同。这些额外的参数必须作为关键字参数。
函数返回一个布尔值。

管道

run_dictcomp_pipeline()函数的实现方式使得上述两个函数可以有不同的实现，取决于数据源和解析逻辑。这是通过将这些函数作为关键字参数传递，从而解包相应的字典来完成的。

正如上述两个小节提到的一个限制，任何额外的参数必须对所有文档具有相同的值。如果你觉得这过于限制，你需要重新实现run_dictcomp_pipeline()函数，代价是增加额外的复杂性。

单元测试：管道在行动中

为了检查管道是否有效，让我们使用pytest实现一些单元测试。我将在这里跳过read_text()和parse_text()函数的单元测试，但可以随意将它们作为练习添加。

在这里，我们有一个测试来检查应用程序是否按预期工作。

# test_dictcomp_pipeline.py

import pathlib
import pytest

from dictcomp_pipeline import get_dictcomp_pipeline

@pytest.fixture
def files():
    n_files = 11
    paths = [pathlib.Path(".") / f"txt_file_{i}.txt"
             for i in range(n_files)]
    for i, path in enumerate(paths):
        text = "Shout Bamalama!\nI'm an elephant, and so what?\n\n"
        if i % 2 == 0:
            text = f"{text}Python"
        path.write_text(text)
    yield paths
    for path in paths:
        path.unlink()

def test_get_dictcomp_pipeline(files):
    isPython = get_dictcomp_pipeline(
        files,
        parse_text_kwargs={"word": "Python"}
    )
    assert isPython == {
        'txt_file_0.txt': True,
        'txt_file_1.txt': False,
        'txt_file_2.txt': True,
        'txt_file_3.txt': False,
        'txt_file_4.txt': True,
        'txt_file_5.txt': False,
        'txt_file_6.txt': True,
        'txt_file_7.txt': False,
        'txt_file_8.txt': True,
        'txt_file_9.txt': False,
        'txt_file_10.txt': True
        }

让我们看看测试是如何工作的。files固定装置创建了 11 个文本文件，其中六个文件的内容包含了“Python”这个词。这些文件在调用test_get_dictcomp_pipeline()时创建。然后测试运行管道函数并断言输出是否符合预期。最后，测试文本文件被删除，你将在固定装置代码的最后两行看到这些操作。

运行测试后，你应该会看到来自pytest的点赞：

一个管道将多个功能整合为一个，因此上面对我们管道函数的测试可以被视为，至少在某种程度上，是一个集成测试。

即使有非常多的文档，字典也应能很好地保存输出，因为它的类型是dict[str, bool]，这样的字典不会占用太多内存。当然，你可能还是希望将其处理为生成器；在这种情况下，你应该将管道函数修订为生成器管道。一个解决方案是使生成器生成tuple[str, bool]类型的值。这样，它将是一个包含表示文档的字符串和布尔值的元组，布尔值表示解析函数是否找到了所搜索的词。

扩展示例

在上面的示例中，我们使用了一个bool值，但在某些任务中，这可能过于限制。例如，你可能需要考虑并非所有文档都是 SOP。换句话说，你有一些文档，其中有些是 SOP，有些不是；任务是检查文档是否为 SOP，如果是，则检查是否包含特定的词、短语或多个词/短语。在这种情况下，你可以使用更复杂的数据结构，如本文中提出的OptionalBool数据结构和类型：

使用`OptionalBool`而不是`Optional[bool]`。

medium.com](https://medium.com/pythoniq/an-optionalbool-type-for-python-none-false-or-true-7667e9cc6dd8?source=post_page-----4c4ec4e66f3--------------------------------)

在我们的任务中，OptionalBool值为None意味着相应的文档不是 SOP；False，表示它是 SOP 但不包含所搜索的短语；而True，表示它是 SOP 并且包含了所搜索的短语。

本文的动机来自一个真实的例子，当时我遇到了类似的情况。那时，我完全不同地实现了解决方案，但今天我肯定会考虑使用OptionalBool和字典推导管道。为了使用OptionalBool，run_dictcomp_pipeline()的签名需要稍作修改，因为我们将用OptionalBool替代bool。

你可以在附录 2 中找到修订后的代码版本，包括测试文件。

结论

我们讨论了使用 dictcomp 流水线的实际例子。虽然我们实现的任务相当简单，但解决方案更为通用，使得用户可以重新实现创建流水线的两个函数——而不需要更改流水线函数本身。

你可能已经注意到，我们实现的 dictcomp 流水线看起来只是一个字典推导式。因为它确实就是一个字典推导式。就像生成器流水线是一个生成器一样。流水线隐藏在正在进行的操作中：输入 → 函数 → 函数 → … → 函数 → 输出。在我们的例子中，流水线非常简短，但在许多其他场景中，它可以包含更多步骤。

我想向你展示在什么样的场景下这样的推导式流水线可以发挥作用。然而，这个特定的任务可以以多种方式实现。选择哪种方式应主要取决于你希望生成什么样的代码。如果你只是需要实现一个特定的任务，那么没有必要像我们这样对函数进行泛化。如果你打算编写一个供他人使用的框架，你可能会更进一步地泛化它。

附录 1

第一个示例中 run_dictcomp_pipeline() 的代码，带有完整的文档字符串：

# dictcomp_pipeline.py

from pathlib import Path
from collections.abc import Sequence

from typing import Any, Optional

# Type aliases
Paths = Sequence[Path]
KeywordArgs = Optional[dict[str, Any]]

def read_text(path: Path) -> str:
    """Read text from path and return a string.

    You can rewrite this function to read from another source.
    The function must return a string, but it can take any
    number of keyword arguments. The first argument must
    work as positional, and it must represent a document
    from the `documents` sequences from `run_dictcomp_pipeline()`.
    """
    return path.read_text()

def parse_text(text: str, word: str) -> bool:
    """Parse text from string and return a bool value.

    You can rewrite this function to use different
    parsing logic. The function must return a bool,
    but it can take any number of keyword arguments.
    The first argument must remain unchanged, and must
    work as a positional argument.
    """
    return word.lower() in text.lower()

def run_dictcomp_pipeline(
    documents: Any,
    read_text_kwargs: KeywordArgs = None,
    parse_text_kwargs: KeywordArgs = None) -> dict[str, bool]:
    """Run dictcomp pipeline.

    The function does not handle exceptions: if anything goes
    wrong, the pipeline breaks and the corresponding exception
    is raised.

    Args:
        paths (Paths): sequence with paths to files with
            documents to read
        word (str): word to look for in documents
        read_text_kwargs (KeywordArgs, optional): dictionary with
            keyword arguments to be used in a call to `read_text()`,
            if needed. Defaults to None, meaning that no arguments
            are passed.
        parse_text_kwargs (KeywordArgs, optional): dictionary with
            keyword arguments to be used in a call to `parse_text()`,
            if needed. Defaults to None, meaning that no arguments
            are passed.

    Returns:
        dict[Path, bool]: dictionary with the output of
            the pipeline; its result represent the parsing logic
            used in the documents
    """
    read_text_kwargs = read_text_kwargs or {}
    parse_text_kwargs = parse_text_kwargs or {}

    texts = {
        doc: read_text(doc, **read_text_kwargs)
        for doc in documents
    }
    return {
        str(doc): parse_text(text, **parse_text_kwargs)
        for doc, text in texts.items()
    }

附录 2

在本附录中，你将找到处理OptionalBool值的解决方案的扩展代码。你还需要 optionalbool 模块中的 OptionalBool 类的代码，你可以从以下文章中复制粘贴：

[## 一个可选布尔类型（OptionalBool）：None、False 或 True]

使用 OptionalBool 替代 Optional[bool]。

这里是代码：

# optionalbool_dictcomp_pipeline.py

from pathlib import Path
from collections.abc import Sequence

from typing import Any, Optional

from optionalbool import OptionalBool

# Type aliases
Paths = Sequence[Path]
KeywordArgs = Optional[dict[str, Any]]

def read_text(path: Path) -> str:
    """Read text from path and return a string."""
    return path.read_text()

def parse_text(text: str,
               word: str,
               standards_phrases: Sequence[str]
               ) -> OptionalBool:
    """Parse text from string and return a bool value."""
    if not any(phrase.lower() in text.lower() for phrase in standards_phrases):
        return OptionalBool(None)
    return OptionalBool(word.lower() in text.lower())

def run_dictcomp_pipeline(
    documents: Any,
    read_text_kwargs: KeywordArgs = None,
    parse_text_kwargs: KeywordArgs = None
    ) -> dict[str, OptionalBool]:
    read_text_kwargs = read_text_kwargs or {}
    parse_text_kwargs = parse_text_kwargs or {}

    texts = {
        doc: read_text(doc, **read_text_kwargs)
        for doc in documents
    }
    return {
        str(doc): parse_text(text, **parse_text_kwargs)
        for doc, text in texts.items()
    }

以及测试文件：

# test_optionalbool_dictcomp_pipeline.py

import pathlib
import pytest

from optionalbool_dictcomp_pipeline import run_dictcomp_pipeline

from optionalbool import OptionalBool

@pytest.fixture
def files():
    n_files = 11
    paths = [pathlib.Path(".") / f"doc_file_{i}.txt"
             for i in range(n_files)]
    for i, path in enumerate(paths):
        text = "Shout Bamalama!\nI'm an elephant, and so what?\n\n"
        if i % 2 == 0:
            text = f"{text}Python"
        if i % 3 != 0:
            text = (
                "This is a Standard Operating Procedure\n"
                f"{text}"
            )
        path.write_text(text)
    yield paths
    for path in paths:
        path.unlink()

def test_get_dictcomp_pipeline(files):
    standards_phrases = ["Standard Operating Procedure", "SOP",]
    isPython = run_dictcomp_pipeline(
        files,
        parse_text_kwargs={"word": "Python",
                           "standards_phrases": standards_phrases}
    )
    for v in isPython.values():
        assert isinstance(v, OptionalBool)
    assert isPython == {
        'doc_file_0.txt': None,
        'doc_file_1.txt': False,
        'doc_file_2.txt': True,
        'doc_file_3.txt': None,
        'doc_file_4.txt': True,
        'doc_file_5.txt': False,
        'doc_file_6.txt': None,
        'doc_file_7.txt': False,
        'doc_file_8.txt': True,
        'doc_file_9.txt': None,
        'doc_file_10.txt': True
    }

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里查看。如果你想加入 Medium，请使用下面的推荐链接：

[## 使用我的推荐链接加入 Medium - Marcin Kozak]

阅读 Marcin Kozak 的每一个故事（以及 Medium 上其他成千上万的作者的故事）。你的会员费用将直接支持…

medium.com](https://medium.com/@nyggus/membership?source=post_page-----4c4ec4e66f3--------------------------------)

Python enumerate() 函数解释

原文：towardsdatascience.com/python-enumerate-function-explained-7907837e171c

在这篇文章中，我们将探索如何使用 Python enumerate()函数

·发布于Towards Data Science ·3 分钟阅读·2023 年 2 月 20 日

照片由Nick Fewings提供，来源于Unsplash

介绍
使用 enumerate()与列表
使用 enumerate()与字符串
使用 enumerate()与字典
使用 enumerate()与 zip()
结论

介绍

Python enumerate()函数是一个内置函数，可以在遍历 Python 可迭代对象时跟踪其索引。

Python enumerate()函数的语法是：

enumerate(iterable, start=0)

在哪里：

iterable — 可以是任何可迭代的 Python 对象，如字符串、元组、列表、集合、字典等。
start — 指定起始索引的参数（可选）。默认为 0。

使用 enumerate()与列表

作为一个简单的例子，我们将创建一个Python 列表，然后使用带有enumerate()函数的 for 循环打印列表的每个元素及其索引：

my_list = ['Apple', 'Banana', 'Orange', 'Pineapple']

for i, elem in enumerate(my_list):
    print(i, elem)

你应该得到：

0 Apple
1 Banana
2 Orange
3 Pineapple

使用 enumerate()与字符串

enumerate()函数也适用于 Python 字符串，因为它们是可迭代对象。

它的工作方式类似于与 Python 列表的示例。不同之处在于，对于字符串，我们将遍历字符串中的每个字符，并将其与在字符串中的索引（位置）一起打印出来：

my_string = 'Apple'

for i, char in enumerate(my_string):
    print(i, char)

你应该得到：

0 A
1 p
2 p
3 l
4 e

使用 enumerate()与字典

另一个有趣的例子是使用enumerate()函数与Python 字典。

虽然字典中的键值对是无序的且未索引，但使用enumerate()对你的代码来说是一个非常有用的选项。

输出的主要区别在于，当遍历字典时，你可以选择遍历字典的键、字典的值或字典的键值对。

遍历字典键

my_dict = {
    'Apple': 3,
    'Banana': 1,
    'Orange': 2,
    'Pineapple': 5
    }

for i, key  in enumerate(my_dict.keys()):
    print(i, key)

你应该得到：

0 Apple
1 Banana
2 Orange
3 Pineapple

遍历字典值

my_dict = {
    'Apple': 3,
    'Banana': 1,
    'Orange': 2,
    'Pineapple': 5
    }

for i, value  in enumerate(my_dict.values()):
    print(i, value)

你应该得到：

遍历字典键值对

当将键值对遍历与enumerate()功能结合使用时，输出将是每个索引和一个元组，其中包含字典中每个条目的键值对：

my_dict = {
    'Apple': 3,
    'Banana': 1,
    'Orange': 2,
    'Pineapple': 5
    }

for i, (key, value) in enumerate(my_dict.items()):
    print(i, (key, value))

你应该得到：

0 ('Apple', 3)
1 ('Banana', 1)
2 ('Orange', 2)
3 ('Pineapple', 5)

使用 enumerate() 和 zip()

一个稍微高级的示例是将enumerate()与其他 Python 函数一起使用，例如。

两个函数组合的功能允许同时遍历多个列表，同时跟踪元素对的索引：

fruits = ['Apple', 'Banana', 'Orange', 'Pineapple']
prices = [3, 1, 2, 5]

for i, (fruit, price) in enumerate(zip(fruits, prices)):
    print(i, fruit, price)

你应该得到：

0 Apple 3
1 Banana 1
2 Orange 2
3 Pineapple 5

结论

在这篇文章中，我们探讨了 Python enumerate() 函数。

现在你知道了基本功能，你可以尝试将其与其他可迭代的数据结构一起使用，以处理更复杂的用例。

如果你有任何问题或有编辑建议，请随时在下方留言，并查看更多我的 Python Functions 教程。

原文发布于 https://pyshark.com 于 2023 年 2 月 20 日。

Python 异常测试：清晰而有效的方法

原文：towardsdatascience.com/python-exception-testing-clean-and-effective-methods-86799da86b90?source=collection_archive---------5-----------------------#2023-07-24

超越基础：针对 Pytest 和 Unittest 的高级 Python 异常测试

Naomi Kriger

关注发布于 Towards Data Science ·4 min read·Jul 24, 2023

图片由 chenspec 在 pixabay 上提供

测试异常不仅仅是一种形式 - 它是编写可靠代码的关键部分。在本教程中，我们将探讨测试 Python 代码的方法，这些方法包括处理和不处理异常，验证异常消息的准确性，涵盖pytest和unittest，并为每个框架提供带有和不带参数化的测试。

在本教程结束时，你将对如何为代码编写干净、高效和有用的异常测试有一个扎实的理解。

让我们查看以下示例：

def divide(num_1: float, num_2: float) -> float:
    if not isinstance(num_1, (int, float)) \
            or not isinstance(num_2, (int, float)):
        raise TypeError("at least one of the inputs "
                        f"is not a number: {num_1}, {num_2}")

    return num_1 / num_2

我们可以为上述函数测试几种情况——正常流、零分母和非数字输入。

现在，让我们看看这样的测试在使用pytest时会是什么样子：

pytest

from contextlib import nullcontext as does_not_raise

import pytest

from operations import divide

def test_happy_flow():
    with does_not_raise():
        assert divide(30, 2.5) is not None
    assert divide(30, 2.5) == 12.0

def test_division_by_zero():
    with pytest.raises(ZeroDivisionError) as exc_info:
        divide(10.5, 0)
    assert exc_info.value.args[0] == "float division by zero"

def test_not_a_digit():
    with pytest.raises(TypeError) as exc_info:
        divide("a", 10.5)
    assert exc_info.value.args[0] == \
           "at least one of the inputs is not a number: a, 10.5"

我们还可以进行一个合理性检查，看看当我们测试无效流时，错误的异常类型或尝试检查在正常流中抛出的异常时会发生什么。在这些情况下，测试将失败：

# Both tests below should fail

def test_wrong_exception():
    with pytest.raises(TypeError) as exc_info:
        divide(10.5, 0)
    assert exc_info.value.args[0] == "float division by zero"

def test_unexpected_exception_in_happy_flow():
    with pytest.raises(Exception):
        assert divide(30, 2.5) is not None

那么，上面的测试为什么会失败呢？with上下文捕获请求的特定类型异常，并验证异常类型是否确实是我们要求的。

在test_wrong_exception_check中，抛出了一个异常（ZeroDivisionError），但未被TypeError捕获。因此，在堆栈跟踪中，我们会看到ZeroDivisionError被抛出但未被TypeError上下文捕获。

在test_redundant_exception_context中，我们的with pytest.raises上下文尝试验证请求的异常类型（在这种情况下我们提供了Exception），但由于没有异常被抛出——测试失败，并显示Failed: DID NOT RAISE <class Exception>。

现在，进入下一个阶段，让我们探索如何通过使用parametrize使我们的测试更加简洁和清晰。

参数化

from contextlib import nullcontext as does_not_raise

import pytest

from operations import divide

@pytest.mark.parametrize(
    "num_1, num_2, expected_result, exception, message",
    [
        (30, 2.5, 12.0, does_not_raise(), None),

        (10.5, 0, None, pytest.raises(ZeroDivisionError),
         "float division by zero"),

        ("a", 10.5, None, pytest.raises(TypeError),
         "at least one of the inputs is not a number: a, 10.5")

    ],
    ids=["valid inputs",
         "divide by zero",
         "not a number input"]
)
def test_division(num_1, num_2, expected_result, exception, message):
    with exception as e:
        result = divide(num_1, num_2)
    assert message is None or message in str(e)
    if expected_result is not None:
        assert result == expected_result

ids参数更改显示在 IDE 测试栏视图中的测试用例名称。在下面的截图中，我们可以看到它的实际效果：左侧有ids，右侧没有ids。

作者截图

既然我们已经覆盖了pytest框架，让我们看看如何使用unittest编写相同的测试。

unittest

from unittest import TestCase

from operations import divide

class TestDivide(TestCase):
    def test_happy_flow(self):
        result = divide(0, 10.5)
        self.assertEqual(result, 0)

    def test_division_by_zero(self):
        with self.assertRaises(ZeroDivisionError) as context:
            divide(10, 0)
        self.assertEqual(context.exception.args[0], "division by zero")

    def test_not_a_digit(self):
        with self.assertRaises(TypeError) as context:
            divide(10, "c")
        self.assertEqual(context.exception.args[0],
                         "at least one of the inputs "
                         "is not a number: 10, c")

如果我们想在unittest中使用parameterized，我们需要安装该包。让我们看看在unittest中参数化的测试会是什么样的：

参数化

import unittest

from parameterized import parameterized  # requires installation

from operations import divide

def get_test_case_name(testcase_func, _, param):
    test_name = param.args[-1]
    return f"{testcase_func.__name__}_{test_name}"

class TestDivision(unittest.TestCase):

    @parameterized.expand([
        (30, 2.5, 12.0, None, None, "valid inputs"),
        (10.5, 0, None, ZeroDivisionError,
         "float division by zero", "divide by zero"),
        ("a", 10.5, None, TypeError,
         "at least one of the inputs is not a number: a, 10.5",
         "not a number input")
    ], name_func=get_test_case_name)
    def test_division(self, num_1, num_2, expected_result, exception_type,
                      exception_message, test_name):
        with self.subTest(num_1=num_1, num_2=num_2):
            if exception_type is not None:
                with self.assertRaises(exception_type) as e:
                    divide(num_1, num_2)
                self.assertEqual(str(e.exception), exception_message)
            else:
                result = divide(num_1, num_2)
                self.assertIsNotNone(result)
                self.assertEqual(result, expected_result)

在unittest中，我们也修改了测试用例名称，类似于上面的pytest示例。然而，为了实现这一点，我们使用了name_func参数以及一个自定义函数。

总结一下，今天我们探讨了测试 Python 异常的有效方法。我们学会了如何识别预期的异常是否被抛出，并验证异常消息是否符合我们的期望。我们检查了多种测试divide函数的方法，包括使用pytest的传统方法和使用parametrize的更清晰方法。我们还探索了unittest等效的parameterized，它需要安装该库，以及不使用它的情况。使用ids和自定义测试名称在 IDE 的测试栏中提供了更清晰和更有信息量的视图，使我们更容易理解和导航测试用例。通过使用这些技术，我们可以改进单元测试，确保代码适当地处理异常。

祝测试愉快！

图片来自 jakob5200 在 pixabay

Python 数据工程师

原文：towardsdatascience.com/python-for-data-engineers-f3d5db59b6dd

初学者的高级 ETL 技巧

💡Mike Shakhomirov

·发布于 Towards Data Science ·阅读时间 17 分钟·2023 年 10 月 21 日

图片由 Boitumelo 提供，来自 Unsplash

在这个故事中，我将讲述 Python 中的高级数据工程技术。毫无疑问，Python 是最受欢迎的数据编程语言。在我近十二年的数据工程职业生涯中，我遇到过各种代码问题。这个故事简要总结了我如何解决这些问题并学会写出更好的代码。我将展示一些使我们的 ETL 更快并有助于提高代码性能的技术。

列表推导式

想象一下你正在遍历一个表的列表。通常，我们会这样做：

data_pipelines = ['p1','p2','p3']
processed_tables = []
for table in data_pipelines:
    processed_tables.append(table)

但我们可以使用列表推导式。它们不仅更快，还减少了代码，使其更简洁：

processed_tables = [table for table in data_pipelines]

例如，循环处理一个超大的文件以转换（ETL）每一行，从未如此简单：

def etl(item):
    # Do some data transformation here
    return json.dumps(item)

data = u"\n".join(etl(item) for item in json_data)

列表推导式对于 ETL 处理大数据文件非常有用。假设我们有一个需要转换为换行符分隔格式的数据文件。在你的 Python 环境中尝试运行这个示例：

 import io
import json

def etl(item):
    return json.dumps(item)

# Text file loaded as a blob
blob = """
        [
{"id":"1","first_name":"John"},
{"id":"2","first_name":"Mary"}
]
"""
json_data = json.loads(blob)
data_str = u"\n".join(etl(item) for item in json_data)

print(data_str)
data_file = io.BytesIO(data_str.encode())

# This data file is ready for BigQuery as Newline delimited JSON
print(data_file)

输出将是换行符分隔的 JSON。这是 BigQuery 数据仓库中的一种标准格式，准备好加载到表中了：

{"id": "1", "first_name": "John"}
{"id": "2", "first_name": "Mary"}
<_io.BytesIO object at 0x10c732430>

生成器

如果我们处理的是逐行存储的 CSV 和 DAT 文件，那么我们的文件对象已经是一个生成器，我们可以使用列表推导式来处理数据，不会消耗太多内存：

for line in open('very_big_file.csv'):
    validate_schema(line)

# or the same using list comprehension:
data_errors = [validate_schema(line) for line in open('very_big_file.csv')]

在我们实际将记录插入数据仓库表之前验证记录，对于批量数据处理管道可能是有用的。

我们经常需要在将数据文件加载到数据仓库之前验证它们。如果一个记录失败，那么整个批次都会失败。

我们可以用它来创建接近实时的分析管道。这也是一种非常经济高效的方式来处理数据，相比于流数据管道设计模式。我之前在这里写过：

## 数据管道设计模式

选择合适的架构和示例

[towardsdatascience.com

或者，在处理大数据时，如果我们的文件不是换行符分隔的文本，我们可以使用yield。这始终是一个好习惯，因为我们希望以内存高效的方式处理数据文件。例如：

# Create a file first: ./very_big_file.csv as:
# transaction_id,user_id,total_cost,dt
# 1,John,10.99,2023-04-15
# 2,Mary, 4.99,2023-04-12

# Example.py
def etl(item):
    # Do some etl here
    return item.replace("John", '****') 

# Create a generator 
def batch_read_file(file_object, batch_size=19):
    """Lazy function (generator) can read a file in chunks.
    Default chunk: 1024 bytes."""
    while True:
        data = file_object.read(batch_size)
        if not data:
            break
        yield data
# and read in chunks
with open('very_big_file.csv') as f:
    for batch in batch_read_file(f):
        print(etl(batch))

# In command line run
# Python example.py

这将读取一个本地文件并以 19 字节为块进行处理。输出将是：

transaction_id,user
_id,total_cost,dt
1
,****,10.99,2023-04
-15
2,Mary, 4.99,20
23-04-12

这只是处理二进制数据的一个示例。在现实生活中，将文件内容分割成段使用分隔符（即换行符'\n’或'}{'）可能会更容易，这取决于我们的数据结构。

假设文本数据来自某个外部位置，即云存储。我们也可以将其处理为流。我们不希望加载整个数据文件并运行split('\n')逐行处理，这会消耗大量内存。我们可以使用re.finditer，它像生成器一样，以块的方式读取数据文件，这样我们就可以运行所需的 ETL 而不会消耗太多内存。

import io
import re
def etl(item):
    print(f'Transforming item: {item}')
    return item.replace("John", '****')

# Helper function to split our text file into chunks
# using separator
def splitStr(string, sep="\s+"):
    if sep=='':
        return (c for c in string)
    else:
        return (_.group(1) for _ in re.finditer(f'(?:^|{sep})((?:(?!{sep}).)*)', string))

# Text file loaded as a blob
blob = """transaction_id,user_id,total_cost,dt
1,John,10.99,2023-04-15
2,Mary, 4.99,2023-04-12
"""

# data = blob.split("\n") # We wouldn't want to do this on large datasets 
# as it would require to load big data file as a whole in the first place
# consuming lots of memory

# We would want to use our generator helper function
# and process data in chunks
data = splitStr(blob, sep='\n')
data_str = u"\n".join(etl(item) for item in data)

print('New file contents:')
print(data_str)
data_file = io.BytesIO(data_str.encode())

print('This data file is ready for BigQuery:')
print(data_file)

输出：

python example.py                                  ✔  48  19:52:06  dataform_env
Transforming item: transaction_id,user_id,total_cost,dt
Transforming item: 1,John,10.99,2023-04-15
Transforming item: 2,Mary, 4.99,2023-04-12
Transforming item:
New file contents:
transaction_id,user_id,total_cost,dt
1,****,10.99,2023-04-15
2,Mary, 4.99,2023-04-12

This data file is ready for BigQuery:
<_io.BytesIO object at 0x103672980>

Python 数据验证属性

我们可以使用Python 属性 [2]来验证数据记录。如果记录不是我们定义的类的实例，则必须抛出异常。

我们可以将数据存储为数据类的对象。

就是这么简单。假设我们有一个流数据管道，我们想要验证记录中的一些字段。

简单来说——它们必须匹配现有的表格模式。

我们可以使用 Python 属性来实现。请看下面的示例。

class ConnectionDataRecord(object):
    def __init__(self, user, ts):
        self.user = user
        self.ts = ts

    @property
    def user(self):
        return self._user

    @description.setter
    def user(self, d):
        if not d: raise Exception("user cannot be empty")
        self._user = d

    @property
    def ts(self):
        return self._ts

    @value.setter
    def ts(self, v):
        if not (v > 0): raise Exception("value must be greater than zero")
        self._ts = v

如果我们选择打破规则并分配一些不符合我们标准的值，则会抛出异常。例如，如果我们尝试调用ConnectionDataRecord('', 1)，将会抛出异常。

或者，我们可以使用一个名为Pydantic的库。请看下面的代码。如果我们用不符合要求的对象调用该函数，它将抛出一个错误。

from pydantic import BaseModel

class ConnectionDataRecord(BaseModel):
    user: str
    ts: int

record = ConnectionDataRecord(user="user1", ts=123456789)

装饰器

装饰器的设计目的是使我们的代码看起来更简洁，并为其添加额外的功能。我们可以简单地将一个函数作为参数传递给另一个函数（装饰器），并在这个包装器内部进行一些数据转换。想象一下，我们有很多不同的 ETL 函数来处理数据，但我们只需要一个将结果上传到数据湖的函数。这就是我们如何做到的：

如果一些代码逻辑重复，使用装饰器是一个好习惯。

这有助于更容易维护代码库，并节省了我们在需要更改重复逻辑时的很多时间。

def etl_decorator(func):
    def wrapper():
        result = func()
        return f'Processing {result}' 
    return wrapper

@etl_decorator
def unzip_data():
    return "unzipped data"

print(unzip_data())  # Output: Processing unzipped data

装饰器因其有效性被广泛使用。考虑这个 Airflow DAG 示例：

@dag(default_args=default_args, tags=['etl'])
def etl_pipeline():

    @task()
    def extract():
        return json.loads(data_string)    
    @task(multiple_outputs=True)
    def transform(order_data_dict: dict):
        return {"total_count": len(order_data_dict)}    
    @task()
    def load(total_order_value: float):
        print(f"Total order value is: {total_count}")    

    extracted = extract()
    transformed = transform(extracted)
    load(transformed["total_count"])

与 API 的工作

作为数据工程师，你会经常执行 HTTP 请求，调用各种 API 端点。下面是一个 GET 请求的示例。

response = requests.get('https://api.nasa.gov/neo/rest/v1/feed?start_date=2015-09-07&end_date=2015-09-08&api_key=your_api_key'))
print(response.json())

它从免费的NASA 小行星 API中提取一些数据，并返回所有在该日期接近地球的小行星。只需在上面的 URL 路径中替换你的 API 密钥或使用我创建的密钥。requests库处理所有事情，但还有更好的方法。

我们可以使用会话并以流的形式处理来自我们 API 端点的数据。

这将确保我们不会遇到任何内存问题，并以流式方式处理我们的 GET 请求[3]：

import requests
session = requests.Session()

url="https://api.nasa.gov/neo/rest/v1/feed"
apiKey="your_api_key"
requestParams = {
    'api_key': apiKey,
    'start_date': '2023-04-20',
    'end_date': '2023-04-21'
}
response = session.get(url, params = requestParams, stream=True)
print(response.status_code)

理解 HTTP 请求的工作原理在数据工程中至关重要。

我每天处理各种 API 请求，不必依赖其他框架或库。

例如，就在几周前，我在Dataform 迁移项目上工作，意识到现有的 Google 库（from google.cloud import dataform_v1beta1）无法创建调度。解决方法是使用 Dataform API [4]，这就像向特定端点发出 POST 请求一样简单：

from google.cloud import dataform_v1beta1
import requests
import google.auth.transport.requests
from google.oauth2 import service_account
...
# Get Dataform and BigQuery credentials from encrypted file:
print(f'Getting BigQuery credentials from encrypted file...')
credentials = service_account.Credentials.from_service_account_file(
    './../credentials.json'
    , scopes=['https://www.googleapis.com/auth/cloud-platform'])

def create_dataform_workflow_config(credentials, id, workflow_config, repository_id):
    '''
    The function will create a schedule (workflow) in Dataform configs by making a direct API call
    and using request_params with requests module
    , i.e.
    https://cloud.google.com/dataform/reference/rest/v1beta1/projects.locations.repositories.workflowConfigs/create
    https://cloud.google.com/dataform/reference/rest/v1beta1/projects.locations.repositories.workflowConfigs#WorkflowConfig
    If successful will create a workflow:
    {'name': 'projects/my-project-data-staging/locations/us-central1/repositories/dataform-poc/workflowConfigs/test_live_20230831', 'releaseConfig': 'projects/my-project-data-staging/locations/us-central1/repositories/dataform-poc/releaseConfigs/staging', 'invocationConfig': {'includedTags': ['test']}, 'cronSchedule': '40 13 * * *', 'timeZone': 'Africa/Abidjan'}

    If the workflow exists an error will be sent:
    {'error': {'code': 409, 'message': "Resource 'projects/123456789/locations/us-central1/repositories/dataform-poc/workflowConfigs/test_live_20230831' already exists", 'status': 'ALREADY_EXISTS', 'details': [{'@type': 'type.googleapis.com/google.rpc.ResourceInfo', 'resourceName': 'projects/123456789/locations/us-central1/repositories/dataform-poc/workflowConfigs/test_live_20230831'}]}}

    Accepts workflow_config as request_body, i.e.
     request_body = {
             # "name": "projects/123456789/locations/us-central1/repositories/dataform-poc/workflowConfigs/test_live_20230830",
             "releaseConfig": "projects/my-project-data-staging/locations/us-central1/repositories/dataform-poc/releaseConfigs/staging",
             "invocationConfig": {
                 "includedTags": [
                     "test"
                 ]
             },
             "cronSchedule": "40 13 * * *",
             "timeZone": "Africa/Abidjan"
     }
    '''
    request = google.auth.transport.requests.Request()
    credentials.refresh(request)

    print('Creating a workflow...')
    # Make the request
    try:
        session = requests
        url=f'https://dataform.googleapis.com/v1beta1/projects/123456789/locations/us-central1/repositories/{repository_id}/workflowConfigs/'

        headers = {
            "Authorization": "Bearer " + credentials.token,
            "Content-Type" : "application/json; charset=utf-8"

        }
        query_params = {
            "workflowConfigId": id
        }
        request_body = workflow_config

        page_result = session.post(url, params=query_params, json=request_body, headers=headers)
        print(page_result.json())
    except Exception as e:
        print(e)

这个请求的核心在于我们将workflow_config作为json发送，并使用来自 Google 文档[4]的知识在路径参数中添加workflowConfigId。

这将创建一个必要的调度，以在 BigQuery 的 Dataform 中运行我们的数据转换脚本。

类似地，正如我们在 GET 请求中所做的那样，我们可以使用 Python 生成器将数据流入我们的 POST API 端点：

import time
import requests

def etl_data_generator():
    yield b"Foo"
    time.sleep(3)
    yield b"Bar"

requests.post("http://some.api.endpoint", data=etl_data_generator())

思路很清楚。我们可以以节省内存的方式处理和发送数据。

处理 API 速率限制

所有 API 都有速率限制，我们在提取数据时要记住这一点。我们可以使用装饰器来处理它。简单的装饰可以像这样实现：

from ratelimit import limits
import requests
CALLS = 10
TIME_PERIOD = 900   # time period in seconds

@limits(calls=CALLS, period=TIME_PERIOD)
def call_api():
    response = requests.get('https://api.example.com/data')
    if response.status_code != 200:
        raise Exception('API response: {}'.format(response.status_code))
    return response.json()

使用这个装饰器，我们的函数在 15 分钟内不会发起超过 10 次 API 调用。

处理这种情况的最简单方法是使用time.sleep()，但 Python 速率限制允许我们以这种优雅的方式做到这一点。

Python 中的 Async 和`await`

以异步方式执行 ETL 是另一个极其有用的功能。我们可以使用asyncio库来同时运行任务。让我们考虑这个简单的同步示例，其中我们在for循环中处理表：

import requests

def pull_data(url, requestParams):
    return requests.get(url, params = requestParams, stream=True)

for table in api_endpoints_list:
    data = pull_data(table.api_url, table.requestParams)
    etl(data)

运行这段代码时，我们必须等待每个表完成pull_data()任务，但使用Async，我们可以并行处理它们。

考虑使用以下代码：

import asyncio
import aiohttp

async def pull_data(session, url, requestParams):
  async with session.get(url, params = requestParams, stream=True) as response:
    return await response

async def main():
    async with aiohttp.ClientSession() as session:
        tasks = [pull_data(session, url, requestParams) for table in api_endpoints_list:]
        tasks_data = await asyncio.gather(*tasks)
        for data in tasks_data:
            etl(task_data)

asyncio.run(main())

它将同时从报告 API 中提取数据，并显著提高我们的 ETL 性能。

它帮助管理 ETL 任务，同时系统资源以最佳方式分配。

例如，我们可以同时运行两个 ETL 作业，但我们可以定义执行顺序：

async def etl():
    job1 = asyncio.create_task(perform_etl_script1())
    job2 = asyncio.create_task(read_s3_data())
    job3 = asyncio.create_task(upload_s3_data())

    await job2
    await job1
    await job3

使用 Map 和 Filter

映射和过滤比列表推导式的速度更快。

我们可以逐行转换数据，将map函数应用于数据集中的项目，将其处理为iterable：

import math 
numbers = [10,20]
factorials = list(map(lambda i: math.factorial(int(math.sqrt(i**3))), numbers))
print(factorials)
# Output:
# [8222838654177922817725562880000000, 16507955160908461081216919262453619309839666236496541854913520707833171034378509739399912570787600662729080382999756800000000000000000000]

我们希望使用filter来提取符合特定条件的对象，即

 numbers = [10,21]
even_numbers = list(filter(lambda i: i% 2 == 0, numbers))
print(even_numbers)
# Output:
# [10]

使用 Pandas 处理大型数据集

后来的 Pandas 库版本提供了一个方便的上下文管理器，可以像这样使用：

batchsize = 10 ** 5
with pd.read_csv(filename, chunksize=batchsize) as reader:
    for batch in reader:
        etl(batch)

它将以批处理模式处理数据，假设我们不需要一次性将整个数据集加载到数据框中。

它有广泛的应用，从 OLAP 报告到机器学习（ML）管道。例如，我们可能想要创建一个推荐模型训练任务，并需要像这样准备数据集：

batch_data=pd.read_table('recommendation_data.csv',chunksize=100000,sep=';',\
       names=['group','user','rating','date','id'],index_col='id',\
       header=None,parse_dates=['date'])

df=pd.DataFrame()
%time df=pd.concat(batch.groupby(['group','user',batch['date'].map(lambda x: x.year)])['rating'].agg(['sum']) for batch in batch_data)

这样，Pandas 将确保我们的应用程序始终有足够的内存来处理数据。

使用 joblib 进行管道处理和并行计算

joblib.dump()和joblib.load()方法允许我们高效地管道大型数据集转换。joblib将存储和序列化大数据，处理任意 Python 对象，如numpy数组。

你认为scikit-learn用什么来保存和加载机器学习模型？正确的答案是 - joblib。

首先，为什么要保存模型？——简单来说，因为我们可能在管道后面需要它，即使用新数据进行预测等。

我们不希望重新训练我们的机器学习模型，因为这是一个非常耗时的任务。

另一个原因是我们可能希望保存相同模型的不同版本，以便查看哪个版本表现更好。joblib有助于完成所有这些工作[5]：

from joblib import dump, load
import os
import numpy as np
import joblib

filename = os.path.join(savedir, 'test.joblib')
to_persist = [('foo', [1, 2, 3]), ('bar', np.arange(5))]

# Save a model
joblib.dump(to_persist, filename)  
# ['...test.joblib']

# Load a model
joblib.load(filename)
# [('foo', [1, 2, 3]), ('bar', array([0, 1, 2, 3, 4]))]

这些函数明确连接了我们在磁盘上保存的文件和原始 Python 对象的执行上下文。因此，除了文件名，joblib还接受文件对象：

 # WRITE
with open(filename, 'wb') as fo:
   joblib.dump(model, fo)

# READ
with open(filename, 'rb') as fo:  
   model = joblib.load(fo)

AWS S3 模型转储/加载示例：

import tempfile
import boto3
import joblib

s3_client = boto3.client('s3')
bucket_name = "my-bucket"
key = "model.pkl"

# WRITE
with tempfile.TemporaryFile() as fp:
    joblib.dump(model, fp)
    fp.seek(0)
    s3_client.put_object(Body=fp.read(), Bucket=bucket_name, Key=key)

# READ
with tempfile.TemporaryFile() as fp:
    s3_client.download_fileobj(Fileobj=fp, Bucket=bucket_name, Key=key)
    fp.seek(0)
    model = joblib.load(fp)

# DELETE
s3_client.delete_object(Bucket=bucket_name, Key=key)

使用 joblib 进行并行计算

这非常高效，因为它依赖于多进程，并且会使用多个 Python 工作者在所有 CPU 核心上或跨多台机器并发执行任务。考虑这个例子：

import time 
from joblib import Parallel,delayed 
import math 

t1 = time.time() 

# Normal 
results = [math.factorial(int(math.sqrt(i**3))) for i in range(1000,2000)] 

t2 = time.time() 

print('\nComputing time {:.2f} s'
      .format(t2 - t1))

# Using all CPU cores
t1 = time.time()
results = Parallel(n_jobs=-1)(delayed(math.factorial) (int(math.sqrt(i**3))) for i in range(1000,2000)) 

t2 = time.time()
print('\nComputing time {:.2f} s'
      .format(t2 - t1))

我们可以利用所有 CPU 核心来释放硬件的全部潜力。

在这里，我们告诉Parallel使用所有核心（-1），计算速度提高了 5 倍：

# The output:
Computing time 59.67 s

Computing time 12.18 s

单元测试 ETL 管道

在我整个数据工程师职业生涯中，我学到的最重要的一点是所有东西都必须进行单元测试。这不仅包括SQL，还包括ETL 作业和与我们数据管道中使用的其他服务的集成。

我们可以使用unittest Python 库来测试我们的代码。假设我们有一个助手模块，用于检查一个数字是否是素数：

# ./prime.py
import math

def is_prime(num):
    '''Check if num is prime or not.
    '''
    for i in range(2,int(math.sqrt(num))+1):
        if num%i==0:
            return False
    return True

我们如何测试这个函数内部的逻辑？

unittest使这一切变得非常简单：

# ./test.py
import unittest
from prime import is_prime

class TestPrime(unittest.TestCase):

    def test_thirteen(self):
        self.assertTrue(is_prime(13))

现在如果我们在命令行中运行这个，我们将测试逻辑：

python -m unittest test.py
# Output:
# .
# ----------------------------------------------------------------------
# Ran 1 test in 0.000s

# OK

这是正确的，因为 13 是一个素数。让我们进一步测试一下。我们知道 4 不是一个素数，因此我们希望针对这个特定函数的单元测试在断言为 False 时返回通过：

# ./test.py
import unittest
from prime import is_prime

class TestPrime(unittest.TestCase):

    def test_thirteen(self):
        self.assertTrue(is_prime(13))
    def test_four(self):
        self.assertFalse(is_prime(4))

python -m unittest test.py
# Output:
# ..
# ----------------------------------------------------------------------
# Ran 2 tests in 0.000s

# OK

很简单。让我们看一个更高级的示例。

让我们假设我们有一个 ETL 服务，从某个 API 中提取数据，这需要很多时间。然后我们的服务将转换这个数据集，我们希望测试这个 ETL 转换逻辑是否持续存在。

我们该怎么做呢？

我们可以使用unittest库中的 mock 和 patch 方法。考虑这个应用程序文件asteroids.py

# ./asteroids.py
import requests
API_KEY="fsMlsu69Y7KdMNB4P2m9sqIpw5TGuF9IuYkhURzW"
ASTEROIDS_API_URL="https://api.nasa.gov/neo/rest/v1/feed"

def get_data():
    print('Fetching data from NASA Asteroids API...')
    session = requests.Session()
    url=ASTEROIDS_API_URL
    apiKey=API_KEY
    requestParams = {
        'api_key': apiKey,
        'start_date': '2023-04-20',
        'end_date': '2023-04-21'
    }
    response = requests.get(url, params = requestParams)
    print(response.status_code)
    near_earth_objects = (response.json())['near_earth_objects']
    return near_earth_objects

def save_data():
    # Do some ETL here
    data = get_data()
    return data

print(save_data())

如果我们运行 app.py，输出将会是列出在特定日期接近地球的小行星：

# python ./asteroids.py

Fetching data from NASA Asteroids API...
200
{'2023-04-20': [{'links': {'self': 'http://api.nasa.gov/neo/rest/v1/neo/2326291?api_key=fsMlsu69Y7KdMNB4P2m9sqIpw5TGuF9IuYkhURzW'}, 'id': '2326291', 'neo_reference_id': '2326291', 'name': '326291 (1998 HM3)', 'nasa_jpl_url': 'http://ssd.jpl.nasa.gov/sbdb.cgi?sstr=2326291', 'absolute_magnitude_h': 19.0, 'estimated_diameter': {'kilometers': {'estimated_diameter_min': 0.4212646106, 'estimated_diameter_max': 0.9419763057}, 'meters': {'estimated_diameter_min': 421.2646105562, 'estimated_diameter_max': 941.9763057186}, 'miles': {'estimated_diameter_min': 0.2617616123, 'estimated_diameter_max': 0.5853167591}, 'feet': {'estimated_diameter_min': 1382.1017848971, 'estimated_diameter_max': 3090.4735428537}}, 'is_potentially_hazardous_asteroid': False, 'close_approach_data':
....

从 API 中提取数据可能需要很多时间，但我们希望我们的单元测试运行得更快。我们可以模拟一些假的 API 响应到我们的get_data()函数中，然后使用它来测试 save_data()函数中的 ETL 逻辑：

# ./test_etl.py
import unittest
from asteroids import *

import unittest.mock as mock

class TestEtl(unittest.TestCase):

    def test_asteroids_etl(self): 
        with mock.patch('asteroids.get_data') as GetDataMock:
            GetDataMock.return_value = ['asteroid_1', 'asteroid_2']
            self.assertEqual(['1', '2'], save_data())

输出将是：

AssertionError: Lists differ: ['1', '2'] != ['asteroid_1', 'asteroid_2']

First differing element 0:
'1'
'asteroid_1'

- ['1', '2']
+ ['asteroid_1', 'asteroid_2']

----------------------------------------------------------------------
Ran 1 test in 0.001s

FAILED (failures=1)

在我们的单元测试中，我们替换了（使用mock）asteroids.get_data函数返回的值，并期望它们被转换为（ETL）['asteroid_1', 'asteroid_2']，而我们的 ETL 函数未能做到这一点。单元测试失败了。

单元测试是非常强大的。

它帮助我们处理在 ETL 管道中部署新功能时的人为错误。更多高级示例可以在我之前的故事中找到。我在 CI/CD 管道中非常频繁地使用它 [6]：

## 以有趣和简单的方式测试数据管道

初学者指南：为什么单元测试和集成测试对你的数据平台如此重要

[towardsdatascience.com

监控内存使用情况

我经常使用无服务器部署 ETL 微服务。这是一种非常整洁且具有成本效益的工具。我部署 Lambdas 和 Cloud Functions，不希望它们因内存过多而被过度配置。

我之前在这里写过：

## 初学者的基础设施即代码

使用这些模板像专业人士一样部署数据管道

levelup.gitconnected.com

确实，我们为什么要给我们的 Lambda 配置 3Gb 的内存并支付更多费用，而数据可以在 256Mb 的内存中处理？

有多种方法可以监控我们的 ETL 应用程序内存使用情况。其中一种最受欢迎的方法是tracemalloc [7]库。

它可以跟踪 Python 内存块，并以（, ）字节格式返回结果。考虑这个例子，从小行星 API 中提取数据到一个大块中并保存到磁盘：

# asteroids.py
import requests
import json
import tracemalloc

tracemalloc.start()

API_KEY="fsMlsu69Y7KdMNB4P2m9sqIpw5TGuF9IuYkhURzW"
ASTEROIDS_API_URL="https://api.nasa.gov/neo/rest/v1/feed"

@profile
def get_data():
    print('Fetching data from NASA Asteroids API...')
    session = requests.Session()
    url=ASTEROIDS_API_URL
    apiKey=API_KEY
    requestParams = {
        'api_key': apiKey,
        'start_date': '2023-04-20',
        'end_date': '2023-04-27'
    }
    response = requests.get(url, params = requestParams).text
    with open('out.csv', 'w') as fd:
        fd.write(response)

get_data()

print(tracemalloc.get_traced_memory())

tracemalloc.stop()

输出将是：

Fetching data from NASA Asteroids API...
(85629, 477039)

我们可以看到峰值使用量约为 540Kb。

让我们看看如何通过使用stream来进行简单的优化：

# asteroids_stream.py
import requests
import json
import tracemalloc

tracemalloc.start()

API_KEY="fsMlsu69Y7KdMNB4P2m9sqIpw5TGuF9IuYkhURzW"
ASTEROIDS_API_URL="https://api.nasa.gov/neo/rest/v1/feed"

def get_data():
    print('Fetching data from NASA Asteroids API...')
    session = requests.Session()
    url=ASTEROIDS_API_URL
    apiKey=API_KEY
    requestParams = {
        'api_key': apiKey,
        'start_date': '2023-04-20',
        'end_date': '2023-04-27'
    }
    response = session.get(url, params = requestParams, stream = True)
    print('Saving to disk...')
    with open('out.csv', 'wb') as fd:
        for chunk in response.iter_content(chunk_size=1024):
            fd.write(chunk)

get_data()

print(tracemalloc.get_traced_memory())

tracemalloc.stop()

# asteroids_stream.py
Fetching data from NASA Asteroids API...
Saving to disk...
(85456, 215260)

我们可以看到峰值内存使用量减少了一半。

使用 SDK

作为数据工程师，我们通常需要与云服务提供商频繁合作。简而言之，SDK 是一组服务库，允许以编程方式访问云服务。我们希望学习并掌握市场领导者如 Amazon、Azure 或 Google 的一两个 SDK。

我经常以编程方式访问的服务之一是 Cloud Storage。实际上，在数据工程中，几乎每个数据管道都依赖于云中的数据存储，即 Google Cloud Storage 或 AWS S3。

最常见的数据管道设计是围绕数据存储桶创建的。我在之前的故事中描述了这一模式 [9]。

## 数据管道设计模式

选择合适的架构及示例

[towardsdatascience.com

在云存储中创建的对象可以触发其他 ETL 服务。这在使用这些事件编排数据管道时变得非常有用。

在这种情况下，我们希望能够在用作数据平台的数据湖的云存储中读取和写入数据。

典型的数据管道。作者提供的图像

在这个图示中，我们可以看到我们首先将数据提取并保存到数据湖存储桶中。然后，它将触发数据仓库的数据摄取，并将数据加载到我们的表中，以便使用商业智能（BI）工具进行 OLAP 分析。

下面的代码片段解释了如何使用 AWS SDK 以流的形式保存数据。

# nasa.py
import boto3
import requests
import os
S3_DATA = os.environ['S3_DATA_BUCKET'] #"your.datalake.bucket"
API_KEY="fsMlsu69Y7KdMNB4P2m9sqIpw5TGuF9IuYkhURzW"
ASTEROIDS_API_URL="https://api.nasa.gov/neo/rest/v1/feed"

print('Fetching data from NASA Asteroids API...')
session = requests.Session()
url=ASTEROIDS_API_URL
apiKey=API_KEY
requestParams = {
    'api_key': apiKey,
    'start_date': '2023-04-20',
    'end_date': '2023-04-21'
}
response = session.get(url, params = requestParams, stream=True)
print(response.status_code)
# Perform Multi-part upload to AWS S3 datalake:
s3_bucket = S3_DATA # i.e. 'data.staging.aws'
s3_file_path = 'nasa/test_nasa_.csv' # i.e. "path_in_s3"
s3 = boto3.client('s3')
print('Saving to S3\. Run to download: aws s3 cp s3://{}/{} ./'.format(s3_bucket,s3_file_path))
with response as part:
    part.raw.decode_content = True
    conf = boto3.s3.transfer.TransferConfig(multipart_threshold=10000, max_concurrency=4)
    s3.upload_fileobj(part.raw, s3_bucket, s3_file_path, Config=conf)

在你的命令行中运行以下命令以从 NASA API 提取小行星数据：

S3_DATA_BUCKET="your.staging.databucket" python nasa.py
# Output:
# Fetching data from NASA Asteroids API...
# 200
# Saving to S3\. Run to download: aws s3 cp s3://your.staging.databucket/nasa/test_nasa_.csv ./

结论

这个故事总结了我在 ETL 服务中几乎每天使用的 Python 代码技术。我希望你也能发现它有用。它有助于保持代码的整洁，并高效地执行数据管道转换。无服务器应用模型是一个非常具有成本效益的框架，我们可以在其中部署几乎不花费任何费用的 ETL 微服务。我们只需要优化内存使用，并以原子方式部署它们，以便它们运行得更快。它几乎可以处理我们数据平台中的任何类型的数据管道。在我之前的故事中可以找到这些架构类型和设计模式的良好总结。

## 数据平台架构类型

它在多大程度上满足你的业务需求？选择的困境。

[towardsdatascience.com

理解基本的 HTTP 方法在数据工程中至关重要，它有助于为我们的数据管道创建稳健的 API 交互。使用joblib对我们的函数和模型进行管道化可以编写快速高效的代码。通过流的方式从 API 拉取数据，并以内存高效的方式运行 ETL 任务，可以防止资源过度分配，并确保我们的数据服务不会耗尽内存。可以使用 CI/CD 工具持续运行单元测试，这有助于在我们的代码更改达到生产环境之前，及早发现错误和人为失误。希望你喜欢阅读这篇文章。

Python getattr() 函数解释

原文：towardsdatascience.com/python-getattr-function-explained-pyshark-cc7f49c59b2e

在本文中，我们将探讨如何使用 Python getattr() 函数。

·发表于 Towards Data Science ·4 分钟阅读·2023 年 3 月 20 日

Shane Aldendorff 拍摄于 Unsplash

介绍

Python getattr() 函数是一个内置函数，允许动态访问对象的属性。具体来说，它用于检索 Python 对象的名称属性。

Python getattr() 函数的语法是：

getattr(object, name[, default])

其中：

object — 我们希望从中检索属性的 Python 对象
name — Python 对象中命名属性的名称
default — 可选参数，用于指定如果未找到指定属性时的返回值。如果未指定，代码将返回AttributeError。

getattr() 函数在调用时，会搜索指定的 Python 对象中的名称属性并返回其值。

在接下来的章节中，我们将探讨一些 getattr() 函数的常见使用案例。

使用 getattr() 动态访问对象的属性

Python getattr() 函数最流行的使用案例之一是动态访问对象的属性。

让我们开始创建一个新的 Python 对象 Car，它有三个属性（make、model、price）：

class Car:

    def __init__(self, make, model, price):

        self.make = make
        self.model = model
        self.price = price

接下来，我们将创建一个带有一些示例值的该类实例：

car = Car('Audi', 'Q7', 100000)

现在我们可以使用 getattr() 函数动态访问这个类的属性。

例如，假设我们想要检索刚刚创建的 car 对象的 price 属性：

attr_name = 'price'

attr_value = getattr(car, attr_name)

print(attr_value)

你应该得到：

如果你尝试检索对象没有的属性，你会看到 AttributeError。

例如，这个对象没有属性colour，所以让我们看看当我们尝试检索它时会发生什么：

attr_name = 'colour'

attr_value = getattr(car, attr_name)

print(attr_value)

你应该得到：

AttributeError: 'Car' object has no attribute 'colour'

如果你正在处理多个类，而不知道它们是否具有你正在寻找的属性，这种方法非常有用，它可以节省大量时间和代码量，快速运行这些测试以检索属性值。

使用 getattr() 构建动态 API

Python getattr() 函数的另一个用例是构建 Python 中的动态 API。

让我们开始创建一个简单的 Calculator 类，包含几个执行数学计算的方法：

class Calculator:

    def add(self, x, y):
        return x + y

    def subtract(self, x, y):
        return x - y

现在我们可以围绕这个 Calculator 类构建一个 API，它将允许动态调用任何方法（使用 Python getattr() 函数）：

class CalculatorAPI:

    def __init__(self, calculator):

        self.calculator = calculator

    def call_method(self, method_name, *args):

        method = getattr(self.calculator, method_name, None)

        if method:
            return method(*args)
        else:
            return f"Method '{method_name}' not found"

一旦 API 构建完成，我们可以用不同的计算，如加法和减法来测试它，并检查结果：

calculator = Calculator()

api = CalculatorAPI(calculator)

print(api.call_method("add", 7, 8))
print(api.call_method("subtract", 9, 1))

你应该得到：

15
8

在这个例子中，我们使用 Python getattr() 函数动态访问 Python 类的所需方法。

使用 getattr() 动态加载模块

Python getattr() 函数的另一个用例是在运行时动态加载模块。

在这个例子中，我们将使用一个内置的 Python 模块，这实际上是 import 语句的实现。具体来说，我们将使用 import_module() 函数进行编程导入。

我们将使用 getattr() 函数来访问加载模块中的特定函数。

假设我们想构建一个小程序，询问用户要导入哪个模块、要访问该模块的哪个函数以及要执行什么操作。

例如，我们想导入数学模块，访问 sqrt() 函数并找到 25 的平方根。

我们将以编程方式加载模块和函数，并执行计算：

#Import the required dependency
import importlib

#Define module name
module_name = 'math'

#Programmatically load module
module = importlib.import_module(module_name)

#Define function name
function_name = 'sqrt'

#Programmatically load function
function = getattr(module, function_name)

#Define input for the function
num = 25

#Calculate the result
result = function(num)

#Print the result
print(f"Result: {result}")

你应该得到：

5.0

虽然这是一个非常简单的例子，看起来不像是 sqrt() 函数的有用应用，但它说明了动态加载模块和函数的一般思路。

结论

在这篇文章中，我们探讨了 Python getattr() 函数。

现在你已经了解了基本功能，你可以在项目中练习使用它，以向代码中添加更多功能。

如果你有任何问题或建议，请随时在下面留言，查看更多我的 Python Functions 教程。

最初发布于 https://pyshark.com 2023 年 3 月 20 日。

Python help() 函数解释

原文：towardsdatascience.com/python-help-function-explained-fba9c15f42b1

在这篇文章中，我们将探讨如何使用 Python help() 函数

·发布于 Towards Data Science ·4 分钟阅读·2023 年 1 月 13 日

图片由 Toa Heftiba 提供，来源于 Unsplash

介绍
使用交互式帮助工具访问文档
使用 help() 访问对象文档
使用 help() 访问用户定义的函数文档
结论

介绍

在 Python 中，我们经常使用新的模块、函数、类或对象，这些模块、函数、类或对象我们以前没有使用过，且这些文档我们还没有阅读过。

我们可以使用 Python help() 函数来更快地获取这些信息，而不是浏览文档网站寻找特定的函数或类。

Python help() 函数用于显示指定模块、函数、类或对象的文档。

help() 函数的处理定义如下：

help([object]) -> display documentation

使用交互式帮助工具访问文档

你可以在不带任何参数的情况下调用 Python help() 函数，它会启动一个交互提示符，你可以利用它来查找任何 Python 对象的文档。

让我们启动交互式帮助工具：

#Start help utility
help()

你应该会看到一个帮助工具在终端中启动：

Welcome to Python 3.7's help utility!

If this is your first time using Python, you should definitely check out
the tutorial on the Internet at https://docs.python.org/3.7/tutorial/.

Enter the name of any module, keyword, or topic to get help on writing
Python programs and using Python modules.  To quit this help utility and
return to the interpreter, just type "quit".

To get a list of available modules, keywords, symbols, or topics, type
"modules", "keywords", "symbols", or "topics".  Each module also comes
with a one-line summary of what it does; to list the modules whose name
or summary contain a given string such as "spam", type "modules spam".

help>

一旦帮助工具启动，我们可以利用它查找 Python 对象的文档。

例如，让我们尝试在帮助工具中运行 map 查找 Python map() 函数的文档：

help> map

你应该会得到函数文档：

Help on class map in module builtins:

class map(object)
 |  map(func, *iterables) --> map object
 |  
 |  Make an iterator that computes the function using arguments from
 |  each of the iterables.  Stops when the shortest iterable is exhausted.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.

如你所见，文档包含函数描述、方法和文档字符串。

使用 help() 访问对象文档

你可以在不使用交互式帮助工具的情况下，一步访问 Python 对象文档。

只需以以下格式运行 Python help() 函数，并将 Python 对象作为参数传递进去：

help([object])

让我们尝试使用这种方法访问Python map() 函数的文档：

#Find documentation of Python map() function
help(map)

并且你应该会得到：

Help on class map in module builtins:

class map(object)
 |  map(func, *iterables) --> map object
 |  
 |  Make an iterator that computes the function using arguments from
 |  each of the iterables.  Stops when the shortest iterable is exhausted.
 |  
 |  Methods defined here:
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __next__(self, /)
 |      Implement next(self).
 |  
 |  __reduce__(...)
 |      Return state information for pickling.
 |  
 |  ----------------------------------------------------------------------
 |  Static methods defined here:
 |  
 |  __new__(*args, **kwargs) from builtins.type
 |      Create and return a new object.  See help(type) for accurate signature.

如你所见，显示的文档与我们使用交互式帮助工具找到的文档是一样的。

使用 help() 访问用户定义函数的文档

Python help() 函数也可以显示用户定义函数的信息。

在之前的示例中，我们访问了 Python 内置函数的文档，现在让我们创建一个自己的函数，并写一个简短的描述，然后尝试访问它的文档。

首先，创建一个空的 main.py 文件，然后创建一个简单的函数，该函数将两个数字相加并返回它们的和：

#Define a function
def add(x, y):
    '''
    This function adds two given integer arguments

    Parameters:
    x : integer
    y : integer

    Output:
    val: integer
    '''

    val = x + y

    return val

现在我们已经定义了函数，在同一个 Python 文件中，我们可以调用 help() 函数，并将函数名称（add）作为参数传递：

#Define a function
def add(x, y):
    '''
    This function adds two given integer arguments

    Parameters:
    x : integer
    y : integer

    Output:
    val: integer
    '''

    val = x + y

    return val

#Find documentation of user defined function add()
help(add)

并且你应该会得到：

Help on function add in module __main__:

add(x, y)
    This function adds two given integer arguments

    Parameters:
    x : integer
    y : integer

    Output:
    val: integer

它显示了存储在 docstring 中的函数文档，包括其描述、输入参数和返回值。

结论

在本文中，我们探讨了如何使用 Python help() 函数，包括交互式帮助工具，访问内置函数以及用户定义函数的文档。

如果你有任何问题或有修改建议，请随时在下面留言，并查看更多我的Python 函数教程。

最初发布于 https://pyshark.com 2023 年 1 月 13 日。

Python 继承：你应该继承自 `dict` 还是 `UserDict`？

原文：towardsdatascience.com/python-inheritance-should-you-inherit-from-dict-or-userdict-9b4450830cbb

PYTHON PROGRAMMING

他们说你不应该继承 `dict` 而应该继承 `UserDict`。这是真的吗？

## 使用我的推荐链接加入 Medium - Marcin Kozak

·发布于 Towards Data Science ·15 分钟阅读·2023 年 5 月 10 日

字典是 Python 基本数据类型之一。照片由 Waldemar 提供，Unsplash

继承自 dict 通常不是最佳选择——不仅因为他们这么说，还因为重载的方法不会工作。相反，你应该继承 collections.UserDict。但如果你不想重载 dict 方法，只是想添加新的方法呢？在本文中，我们将讨论何时以及如何继承 dict 和 collections.UserDict 类。

在他那本精彩的书籍 Fluent Python. 2nd ed. 中，Luciano Ramalho 解释了为什么你不应该创建继承自 dict 的自定义类。这条规则的理由，一开始看起来很奇怪，但其实简单而关键：dict 是一个高度优化的类型，由 C 实现，它不会调用你在 dict 子类中重载的方法。

这将是一个令人讨厌的惊喜，不是吗？让我们来看一个例子。假设你想创建一个类似字典的类，其中提供的值将被转换为它们的字符串表示。让我们尝试通过继承 dict 内置类型来做到这一点：

class StringDict(dict):
    def __setitem__(self, key, value):
        super().__setitem__(key, str(value))

这看起来像是完全有效的 Python 代码。让我们看看这怎么运作：

>>> class StringDict(dict):
...     def __setitem__(self, key, value):
...         super().__setitem__(key, str(value))
... 
>>> mydict = StringDict(first=1, second=2, third=3)
>>> mydict
{'first': 1, 'second': 2, 'third': 3}

嗯，这根本不起作用——或者说，这个__setitem__方法根本不起作用。我们想将值转换为字符串，但它们没有被转换。不过，我们没有看到任何错误；这个类本身以某种方式工作——实际上，它的工作方式就像一个普通的字典一样。（或者说，它提供了相同的结果但更慢；我们稍后会讨论这个问题。）

为了达到你想要的效果，你应该继承 UserDict：

>>> from collections import UserDict
>>> class StringUserDict(UserDict):
...     def __setitem__(self, key, value):
...         super().__setitem__(key, str(value))
... 
>>> mydict = StringUserDict(first=1, second=2, third=3)
>>> mydict
{'first': '1', 'second': '2', 'third': '3'}

正如你所见，我们在定义中唯一改变的就是继承 UserDict 而不是 dict。

所以现在你知道了。使用 UserDict 就足够了。太好了。

会吗？

结果

等等。我们来考虑一下。在决定使用 UserDict 而不是 dict 是否如此出色之前，我们应该考虑一些事情。

首先，我们知道 Python 的内建类型是高度优化的，因为它们是用 C 实现的，而这种实现本身也经过了高度优化。

其次，我们知道我们不应该继承 dict，因为它的 C 实现方法不会调用用 Python 实现的重写方法。

第三，简单的一点需要检查，collections.UserDict 是用 Python 实现的。在 Linux 中，你可以在这里找到它的定义：

UserDict 定义的本地化在 Linux 中。来自 VS Code 的截图。图片由作者提供

在这种情况下，以下问题自然会出现：如果是这样，我自定义的继承 UserDict 的类会有良好的性能吗？

我立即猜测不会。dict 的优化来自 C 实现，而 UserDict 是用 Python 实现的。它为什么应该有所优化呢？我们将在接下来的部分中检查这一点。

`UserDict` 与 `dict` 的基准测试

对于基准测试，我们将使用标准库中的 timeit 模块。你可以在这里了解更多信息：

## 使用 timeit 进行 Python 代码基准测试

最流行的 Python 代码时间基准测试工具，内建的 timeit 模块提供了比大多数工具更多的功能…

[towardsdatascience.com

为了使基准测试稍微简单和结构化一点，让我们定义一个简单的函数来对两个或更多代码片段进行时间基准测试：

 import rounder
import timeit
import pprint

def compare(
    __snippet1,
    __snippet2,
    *args,
    number=10_000_000,
    repeat=7,
    setup="from collections import UserDict"):
    snippets = [__snippet1, __snippet2, *args]
    results = {}
    for i, snippet in enumerate(snippets):
        name = snippet if len(snippet) < 30 else f"snippet {i + 1}"
        results[name] = min(timeit.repeat(
            snippet, number=number, repeat=repeat, setup=setup
            )) / number,
    results = rounder.signif_object(results, digits=4)
    pprint.pprint(results)

几件事：

这个函数使用了 [rounder](https://pypi.org/project/rounder/) 包，将字典中的所有数字四舍五入到四位有效数字；你可以在这里了解更多信息：

## rounder：在复杂的 Python 对象中四舍五入数字

`rounder` 包允许你通过一个命令将任何对象中的所有数字进行四舍五入。

[towardsdatascience.com

__snippet1 和 __snippet2 是仅限位置的参数，因此你不能通过名称调用它们。这要归功于双下划线前缀。
多亏了两个片段参数后的 *args，你可以提供更多的片段，也可以作为位置关键字；你可以根据需要使用任意多个。
所有剩余的参数都是仅限关键字的。在这里，这是通过将它们放在 *args 之后实现的。¹
这个函数报告的结果是七次运行中最快的一次的平均值。因此，所有结果都是直接可比的，即使timeit.repeat()函数使用了不同的number值。
这个函数隐式返回None并打印基准测试的简短报告，使用标准库pprint模块中的pprint()函数。通常，避免将返回语句替换为打印²，除非你的函数/方法是一个打印的函数。

好的，我们马上会看到这个函数的实际效果。首先，让我们比较一下dict()和UserDict()创建实例的速度。然而，我们可以通过两种方法实例化一个常规字典，即dict()和（显著更快的）{}，所以我们会同时考虑这两者：

>>> compare("UserDict()", "dict()", "{}")
{'UserDict()': (1.278e-07,), 'dict()': (3.826e-08,), '{}': (1.518e-08,)}

在本文的所有基准测试中，我使用了 Python 3.11，在 Windows 10 机器上，WSL 1 环境中，32 GB 内存和四个物理（八个逻辑）核心。基准测试显示，创建一个新实例时，UserDict的速度是dict的两倍慢。

如上所述，我们在结果字典中看到的值代表了创建一个UserDict或常规dict（通过两种方法创建）的时间。显然，创建一个UserDict实例需要更多时间，大约1.3e-07秒——而{}需要大约1.5e-08秒。差异不大？注意当你需要创建一个单一实例时，但想象一下创建数百万个字典。因此，创建一个常规字典所需的时间大约是创建UserDict的3–8 倍，具体取决于实例化方法。

让我们看看较大字典的情况。我们将通过字典推导式创建一个简单的数值字典。由于UserDict不允许使用 dictcomp 语法（另一个缺点），我们唯一能做的就是先使用 dictcomp 语法创建一个常规字典，然后将其转换为UserDict实例：

>>> compare(
    "UserDict({i: i**2 for i in range(1000)})",
    "{i: i**2 for i in range(1000)}",
    number=100_000)
{'snippet 1': (0.0001316,), 'snippet 2': (5.027e-05,)}

一个常规字典快了大约 2.5 倍。考虑到创建一个空字典的速度甚至更快，这似乎相当惊人。我们必须记住，这些基准测试的结果可能会有所不同。但我们也必须记住，当我们使用许多重复测试（这里是十万次——我们可以使用更多）时，结果的差异应该相对较小。

当我们比较查找时间时，大小会影响结果吗？基本上，键查找与字典大小无关，因此，字典大小的不同应该不会影响结果。

首先，一个小字典：

>>> setup = """from collections import UserDict
... d = {'x': 1, 'y': 2, 'z': 3}
... ud = UserDict(d)
... """
>>> compare("ud['x']", "d['x']", setup=setup)
{"ud['x']": (4.754e-08,), "d['x']": (1.381e-08,)}

好的，所以慢了大约 3.5 倍。现在，对于一个更大的10_000键值对的字典：

>>> setup = """from collections import UserDict
... d = {str(i): i for i in range(10_000)}
... ud = UserDict(d)
... """
>>> compare("ud['9999']", "d['9999']", setup=setup, number=1_000_000)
{"ud['9999']": (7.785e-08,), "d['9999']": (2.787e-08,)}

对于 1000 万个元素的情况：

>>> compare("ud['9999']", "d['9999']", setup=setup, number=100_000)
{"ud['9999']": (6.662e-08,), "d['9999']": (2.499e-08,)}

因此，大小确实不重要，每次dict都快了大约 3–3.5 倍。让我们看看，这次仅针对中等大小的字典，如何处理不存在的键：

>>> compare(
...     "ud.get('a', None)",
...     "d.get('a', None)",
...     setup=setup,
...     number=1_000_000)
{"d.get('a', None)": (4.318e-08,), "ud.get('a', None)": (4.525e-07,)}

这次差距更大，dict的速度超过了10倍。

检查一个键是否在字典中呢？

>>> compare("'a' in ud", "'a' in d", setup=setup, number=1_000_000)
{"'a' in d": (1.465e-08,), "'a' in ud": (4.562e-08,)}

所以，再次是 3–3.5 倍快。

现在，让我们基准测试一个频繁操作，即遍历字典；再次检查不同大小的字典：

>>> setup = """from collections import UserDict
... d = {str(i): i for i in range(10)}
... ud = UserDict(d)
... """
>>> compare(
...     "for i, v in ud.items(): pass",
...     "for i, v in d.items(): pass",
...     setup=setup,
...     number=1_000_000
... )
{'for i, v in d.items(): pass': (1.726e-07,),
 'for i, v in ud.items(): pass': (1.235e-06,)}

>>> setup = """from collections import UserDict
... d = {str(i): i for i in range(10_000)}
... ud = UserDict(d)
... """
>>> compare(
...     "for i, v in ud.items(): pass",
...     "for i, v in d.items(): pass",
...     setup=setup,
...     number=10_000
... )
{'for i, v in d.items(): pass': (0.0001255,),
 'for i, v in ud.items(): pass': (0.00112,)}

>>> setup = """from collections import UserDict
... d = {str(i): i for i in range(100_000)}
... ud = UserDict(d)
... """
>>> compare(
...     "for i, v in ud.items(): pass",
...     "for i, v in d.items(): pass",
...     setup=setup,
...     number=10_000
... )
{'for i, v in d.items(): pass': (0.001772,),
 'for i, v in ud.items(): pass': (0.01718,)}

好的，对于小型字典来说，dict在遍历其键值对（通过.items()方法提供）时大约快 7 倍。对于中型字典（在我们的实验中有 1 万元素），快约 9 倍。对于更大的字典（有100_000个元素），结果类似，因此一旦开始循环，循环本身似乎并不依赖于字典的类型。

由于这只是一个相当小的基准测试，我们可以得出结论：常规字典在遍历其项目时应该比UserDict快约 5–10 倍。

结论基准测试

也许我们在这里停下来吧。我们可以进行更多基准测试，但这不是重点。我不想进行dict和UserDict在执行时间上的全面比较；如果你感兴趣，可以尝试代码进行一系列可靠的基准测试。相反，我想阐明这个问题，并检查是否像我基于UserDict和dict的实现知识所预期的那样，前者明显比后者慢。

而且——除非你认为 5–10 倍更慢是一个微不足道的数字。所以，如果你能的话，考虑使用常规字典，而不是那些继承UserDict的字典，除非你必须改变dict的行为。

啊……为什么我们不能直接继承dict？！为什么？

或者……我们可以吗？

不要继承`dict`？那为什么不呢？！

也许你已经注意到，不继承dict的规则与用 C 实现的dict方法有关，这些方法不会调用在 Python 中重载的内置dict方法。但如果你只是想给dict添加一些功能，而不触动已经用 C 实现的方法呢？

这是一个非常好的问题。答案简短而简单：是的，你可以这样做！你可以从dict继承；只需不要重载dict的方法，仅此而已。

问题是，基于dict的类会像dict一样高效吗？或者说像collections.UserDict一样吗？为了回答这个问题，我们需要运行更多的基准测试。

让我们想象我们在一个字典中保存一些数据，我们想要添加一个.summarize()方法来计算数据的一些摘要统计信息。它可能像这样（仅作为示例）：

from collections.abc import Sequence
from typing import Callable

def try_calculate(func: Callable, *args, **kwargs):
    """Try calculations; when data are incorrect, return nan."""
    try:
        return func(*args, **kwargs)
    except TypeError:
        return float("nan")

class RichDict(dict):
    measures = {
        "sum": sum,
        "n": len,
        "mean": lambda x: sum(x) / len(x),
    }

    def summarize(self):
        statistics = {}
        for k, v in self.items():
            if isinstance(v, str):
                statistics[k] = {"n": len(v)}
            elif isinstance(v, Sequence):
                statistics[k] = {
                    name: try_calculate(func, v)
                    for name, func
                    in self.measures.items()
                }
        return statistics

RichDict是一个dict，多了一个方法：.summarize()。这个方法执行以下操作：

它遍历数据的键值对（通过.items方法获取）。
当值是字符串时，statistics仅包含长度，并作为一个包含一个键n的字典返回。
当值是Sequence时，计算主要的摘要统计信息。度量以可调用的形式保存在类属性RichDict.measures中，它是一个字典。
该方法保护计算：如果无法计算一个度量，则会捕获异常并返回float("nan")（表示不是数字）作为计算结果。这样，例如，Python 在尝试计算空列表的均值时不会抛出错误。

如果你想添加一个度量，可以轻松做到：

RichDict.measures["min"] = min
RichDict.measures["max"] = max

如果函数更复杂，你可以使用lambda函数：

RichDict.measures["max-to-mean"] = lambda x: max(x) / min(x)

或者，更好地，首先定义一个函数，然后在这里分配它：

def max_to_min(x: float) -> float:
    return max(x) / min(x)

RichDict.measures["max-to-mean"] = max_to_min

请注意，由于.measures是一个类属性，所有的RichDict实例（包括即将创建的和已经存在的）都将具有扩展的度量，包括min和max统计信息。

这是RichDict在实际应用中的一个例子：

>>> d = RichDict(x=[1,4,5,7],
...              y=[1,"1",2],
...              z="Shout Bamalama!",
...              f=10)
>>> 
>>> stats = d.summarize()
>>> stats # doctest: NORMALIZE_WHITESPACE
{'x': {'sum': 17, 'n': 4, 'mean': 4.25, 'min': 1, 'max': 7, 'max-to-min': 7},
 'y': {'sum': nan, 'n': 3, 'mean': nan, 'min': nan, 'max': nan, 'max-to-min': nan},
 'z': {'n': 15}}

上面，RichDict类有一个类属性，包含用于序列数据的度量；对于字符串，.summarize() 方法只计算一个度量。更新类，使其具有两个类属性measures_seq和measures_str，其设计方式与上面的measures相同。对于字符串，.summarize() 方法应按序列的方式计算度量，即使用measures_str。

你可以在附录 1 中找到解决方案。

在代码中，我使用了标准库中的doctests模块进行文档测试。如果你有兴趣了解更多关于这个有趣模块的内容，可以从这篇文章中了解：

## 使用 doctest 进行 Python 文档测试：简单方法

doctest 允许进行文档、单元和集成测试以及测试驱动开发。

towardsdatascience.com

好了，现在我们知道RichDict有效，我们知道我们可以子类化dict。我们现在想要了解的是RichDict增加的功能（用 Python 定义，而不是 C 语言，就像dict的基础代码一样）是否会为dict的常规行为增加一些开销。为此，我们将基准测试此类行为，例如创建一个新的RichDict与创建一个新的dict、键查找等。

让我们进行类似于上面为UserDict进行的基准测试。你可以在这个 GitHib gist中找到相关代码。你会在那里找到下面使用的setup值。

>>> compare("UserDict()", "RichDict()", "dict()", setup=setup)
{'UserDict()': (2.236e-07,), 'RichDict()': (1.073e-07,), 'dict()': (5.892e-08,)}

如上所示，当创建一个空实例时，RichDict的速度明显比UserDict快（约快 2 倍），但比dict慢（约慢 2 倍）。

>>> compare(
...     "UserDict({i: i**2 for i in range(1000)})",
...    "RichDict({i: i**2 for i in range(1000)})",
...    "{i: i**2 for i in range(1000)}",
...    number=100_000,
...    setup=setup)
{'snippet 1': (0.0001765,), # UserDict
 'snippet 2': (6.845e-05,), # RichDict
 'snippet 3': (5.388e-05,)} # dict

这一次，RichDict比UserDict快约 2.5 倍，但比dict稍慢（约慢 1.3 倍）。

下面，你将找到更多基准测试的示例，为方便起见，示例之间以空行分隔：

>>> setup += """d = {'x': 1, 'y': 2, 'z': 3}
... ud = UserDict(d)
... rd = RichDict(d)
... """
>>> compare("ud['x']", "rd['x']", "d['x']", setup=setup)
{"ud['x']": (5.111e-08,), rd['x']": (3.024e-08,), "d['x']": (1.475e-08,)}

>>> compare(
...     "'a' in ud",
...     "'a' in rd",
...     "'a' in d",
...     setup=setup,
...     number=1_000_000)
{"'a' in d": (1.366e-08,),  # dict
 "'a' in rd": (2.228e-08,), # RichDict
 "'a' in ud": (4.436e-08,)} # UserDict

>>> compare(
...     "ud.get('a', None)",
...     "rd.get('a', None)",
...     "d.get('a', None)",
...     setup=setup,
...     number=1_000_000)
{"d.get('a', None)": (1.935e-08,),  # dict
 "rd.get('a', None)": (3.016e-08,), # RichDict
 "ud.get('a', None)": (5.125e-07,)} # UserDict

>>> compare(
...     "for i, v in ud.items(): pass",
...     "for i, v in rd.items(): pass",
...     "for i, v in d.items(): pass",
...     setup=setup,
...     number=1_000
... )
{'for i, v in d.items(): pass': (0.001783,),
 'for i, v in rd.items(): pass': (0.001743,),
 'for i, v in ud.items(): pass': (0.01627,)}

数字本身说明了我们需要的内容，所以我暂时将它们留给你。

总结基准测试结果

RichDict通常比dict慢（尽管有时只是很少），但比UserDict快。

因此，如果你只是想给dict添加一些功能，而不覆盖其内置方法，你绝对 可以子类化 dict。我会说这应该是你首选的方法，而不是子类化collections.UserDict，因为后者明显更慢。请记住，我们讨论的是当你不需要改变字典的常规行为，只是添加一些新行为的情况。

还要记住，使用内置类型的方式会有一个代价：你的类（在我们的例子中是RichDict）会比dict更慢。不过，它仍然比UserDict快，而UserDict的创建目的就是为了让你继承……嗯，不是从dict继承，而是让你创建一个具有dict相同行为的新类型（类）。不幸的是，使用UserDict是相当昂贵的，因为它的性能比dict差得多。

结论

让我们总结一下关于子类化dict和UserDict的讨论。我们了解到，我们有三种选择：

从UserDict继承，当你想要覆盖dict的内置行为时。这将是最慢的选项。
从dict继承，当你不想覆盖dict的内置行为，而是添加新功能（方法）时。这将比选项 1 快。
使用内置的dict类型，而不创建自定义类。如果你需要自定义功能，你可以在接受dict实例作为参数的函数中实现它们。这是最快的选项（见下文）。

我们还没有讨论第三种选项，因为它不涉及子类化。不过，不需要讨论太多，因为这是最简单的方法，它使用的是一种更程序化的方法，而不是面向对象的方法。一方面，使用这种方法的summarize()函数比使用选项 2 中的RichDict.summarize()方法快一点（如果有的话）。这个要点包含了相应的基准测试代码；在我的机器上，它提供了一个小而稳定（从运行到运行）性能提升。另一方面，我们知道，常规dict的所有其他行为明显比RichDict要快。因此，一般来说，选项 3 提供了处理具有附加功能的字典的最快方法。

因此，如果性能很重要，最明智的选择似乎是第三种选项——即使用常规字典，并在外部函数中实现所需的附加行为。根据情况，这也可能是代码最清晰的选项，因为它不需要自定义数据结构，而是结合了字典（Python 中最常见的数据结构之一）和函数。通常，这意味着代码更清晰。

第二种选择意味着更差的性能，因为向dict添加方法会导致其行为的额外开销。如我们所知，选项 3 通过将方法移到字典之外来消除这种开销。

第一种选择在性能方面绝对是最差的。我认为只有在满足以下三个条件中的每一个时，这个选项才有意义：

性能不重要
你需要重写一个或多个内置的dict方法。
由于创建一个将所有所需功能组合在一起的类，代码将更清晰、更易于使用。

脚注

¹ 我计划写一篇关于仅位置参数和仅关键字参数的专门文章。一旦发表，我会在这里链接。

² 顺便提一下，在交互式会话中，函数的返回会有相同的效果（当然，当结果未被赋值时）。不过，我是在脚本中运行基准测试的，而不是交互式会话中。

附录 1

练习的解决方案

你可以用各种方式来做。下面的解决方案避免了重复，但也使得向计算中添加另一种类型（到Sequence和str）变得容易。

from collections.abc import Sequence
from typing import Callable

class RichDict(dict):
    measures_seq = {
        "sum": sum,
        "n": len,
        "mean": lambda x: sum(x) / len(x),
    }
    measures_str = {
        "n": len,
    }

    def summarize(self):
        statistics = {}
        for k, v in self.items():
            if isinstance(v, str):
                measures = self.measures_str
            elif isinstance(v, Sequence):
                measures = self.measures_seq
            else:
                continue
            statistics[k] = {
                name: try_calculate(func, v)
                for name, func
                in measures.items()
            }
        return statistics

NaN = float("nan")

def try_calculate(func: Callable, *args, **kwargs):
    """Try calculations and when the data are incorrect, return nan."""
    try:
        return func(*args, **kwargs)
    except TypeError:
        return NaN

感谢阅读。如果你喜欢这篇文章，你可能还会喜欢我写的其他文章；你可以在这里查看。如果你想加入 Medium，请使用我下面的推荐链接：

阅读 Marcin Kozak 的每一个故事（以及 Medium 上的其他成千上万位作家的故事）。你的会员费直接支持…

Python：init 不是构造函数：深入探讨 Python 对象创建

原文：towardsdatascience.com/python-init-is-not-a-constructor-a-deep-dive-in-python-object-creation-9134d971e334

使用 Python 的构造函数创建快速且内存高效的类

Mike Huls

·发布于 Towards Data Science ·阅读时间 9 分钟·2023 年 11 月 27 日

Python 如何构建对象（图像由 ChatGPT 提供）

你知道__init__方法不是构造函数吗？但如果__init__不创建对象，那究竟是什么呢？对象在 Python 中是如何创建的？Python 甚至有构造函数吗？

本文的目标是更好地理解 Python 如何创建对象并操控这一过程以构建更好的应用程序。

首先，我们将深入了解 Python 如何创建对象。接下来，我们将应用这些知识，讨论一些有趣的用例，并提供一些实际示例。让我们开始编码吧！

1. 理论：在 Python 中创建对象

在这一部分，我们将弄清楚在你创建对象时 Python 背后发生了什么。在下一部分，我们将运用这些新知识进行第二部分的实践。

如何在 Python 中创建对象？

这应该很简单；你只需创建一个类的实例。或者，你可以创建一个新的内置类型，比如str或int。在下面的代码中，创建了一个基本类的实例。它只包含一个__init__函数和一个say_hello方法：

class SimpleObject:
  greet_name:str

  def __init__(self, name:str):
    self.greet_name = name

  def say_hello(self) -> None:
    print(f"Hello {self.greet_name}!")

my_instance = SimpleObject(name="bob")
my_instance.say_hello()

注意__init__方法。它接收一个name参数，并将其值存储在SimpleObject实例的greet_name属性上。这允许我们的实例保持状态。

现在问题出现了：为了保存状态，我们需要有东西来保存状态。__init__ 从哪里得到对象？

那么，init 是构造函数吗？

答案是：从技术上讲，没有。构造函数实际上创建新对象；__init__方法仅负责设置对象的状态。它只是通过参数接收值，并将这些值分配给像greet_name这样的类属性。

在 Python 中，对象的实际创建发生在初始化之前。对于对象创建，Python 使用一个名为**__new__****的方法，该方法存在于每个对象上。

## 为绝对初学者创建和发布自己的 Python 包

在 5 分钟内创建、构建和发布一个 Python 包

towardsdatascience.com

`new` 做了什么？

__new__ 是一个类方法，意味着它是直接在类上调用的，而不是在类的实例上。它存在于每个对象上，并负责实际创建和返回对象。__new__ 的最重要的方面是它必须返回一个类的实例。我们将在本文后面进一步研究这个方法。

`new` 方法来自哪里？

简短的回答是：Python 中的一切都是对象，object 类有一个 **__new__** 方法。你可以把这看作是“每个类都继承自 *object* 类”。

请注意，即使我们的 SimpleObject 类没有继承任何东西，我们仍然可以证明它是 object 的一个实例：

# SimpleObject is of type 'object'
my_instance = SimpleObject(name="bob")
print(isinstance(my_instance, object))    # <-- True
# but all other types as well:
print(isinstance(42, object))             # <-- True
print(isinstance('hello world', object))  # <-- True
print(isinstance({"my": "dict"}, object)) # <-- True

总结来说，一切都是对象，object 定义了 __new__ 方法，因此 Python 中的一切都有一个 __new__ 方法。

`new` 和 `init` 有何不同？

__new__ 方法用于实际创建对象：分配内存并返回新对象。一旦对象创建完成，我们可以用 __init__ 来初始化它；设置初始的状态。

## Python 的 args、kwargs 和传递参数的所有其他方式

精巧地设计你的函数参数的 6 个示例

towardsdatascience.com

Python 对象创建的过程是什么样的？

内部，下面的函数在你创建新对象时会被执行：

__new__：分配内存并返回新对象
__init__：初始化新创建的对象；设置状态

在下面的代码中，我们通过重写**__new__**来展示这一点。在下一部分我们将利用这一原则做一些有趣的事情：

class SimpleObject:
  greet_name:str

  def __new__(cls, *args, **kwargs):      # <-- newly added function
    print("__new__ method")               
    return super().__new__(cls)            

  def __init__(self, name:str):
    print("__init__ method")
    self.greet_name = name

  def say_hello(self) -> None:
    print(f"Hello {self.greet_name}!")

my_instance = SimpleObject(name="bob")
my_instance.say_hello()

（我们将在接下来的部分解释为什么和如何工作。）这将打印以下内容：

__new__ method
__init__ method
Hello bob!

这意味着我们可以访问初始化我们类的实例的函数！我们还看到 __new__ 先执行。在下一部分我们将了解 __new__ 的行为：super().__new__(cls) 是什么意思？

`new` 是如何工作的？

__new__的默认行为如下所示。在这一部分，我们将尝试理解发生了什么，以便在下一部分的实际示例中对其进行调整。

class SimpleObject:
  def __new__(cls, *args, **kwargs):
    return super().__new__(cls)

请注意，__new__是在super()方法上调用的，它返回一个“引用”(实际上是一个代理对象)到SimpleObject的父类。请记住，SimpleObject继承自object，其中定义了__new__方法。

分解：

我们获得了我们所在类的基类的“引用”。以SimpleObject为例，我们获得了object的“引用”
我们在“引用”上调用__new__，因此object.__new__
我们将cls作为参数传递。

这就是像 *__new__* 这样的类方法的工作方式；它是对类本身的引用

综合起来：我们请求SimpleObject的父类创建一个SimpleObject的新实例。

这与my = object.__new__(SimpleObject)是一样的

那么我可以使用`new`创建一个新实例吗？

是的，请记住，默认的__new__实现实际上直接调用它：return super().**__new__**(cls)。因此，下面代码中的方法做了同样的事情：

# 1\. __new__ and __init__ are called internally
my_instance = SimpleObject(name='bob')

# 2\. __new__ and __init__ are called directly:
my_instance = SimpleObject.__new__(SimpleObject)
my_instance.__init__(name='bob')
my_instance.say_hello()

在直接方法中发生的事情：

我们在SimpleObject上调用__new__函数，传递SimpleObject类型。
SimpleObject.__new__ 在其父类（object）上调用__new__
object.__new__创建并返回一个SimpleObject的实例
SimpleObject.__new__返回新实例
我们调用__init__来初始化它。

这些事情在非直接方法中也会发生，但它们是在幕后处理的，所以我们没有注意到。

## 在 Python 中处理相对路径的简单技巧

轻松在运行时计算文件路径

towardsdatascience.com

实际应用 1：子类化不可变类型

现在我们知道__new__是如何工作的，我们可以利用它做一些有趣的事情。我们将理论付诸实践，子类化一个不可变类型。这样，我们可以拥有自己的特殊类型，其方法定义在一个非常快速的内置类型上。

目标

我们有一个处理许多坐标的应用程序。因此，我们希望将坐标存储在元组中，因为它们很小且内存高效。

我们将创建自己的Point类，继承自tuple。这样，Point是一个tuple，因此它非常快速且小巧，并且我们可以添加如下功能：

对对象创建的控制（例如，只在所有坐标都是正数时创建新对象）
额外的方法，例如计算两个坐标之间的距离。

cython-for-absolute-beginners-30x-faster-code-in-two-simple-steps-bbb6c10d06ad?source=post_page-----9134d971e334-------------------------------- ## Cython 的绝对初学者指南：两步实现代码 30 倍加速

为闪电般快速的应用程序提供简单的 Python 代码编译

[towardsdatascience.com

带有 new 重写的 Point 类

在第一次尝试中，我们仅创建一个继承自元组的Point类，并尝试使用x, y坐标初始化元组。这不会成功：

class Point(tuple):

  x: float
  y: float

  def __init__(self, x:float, y:float):
    self.x = x
    self.y = y

p = Point(1,2)    # <-- tuple expects 1 argument, got 2

失败的原因是因为我们的类是tuple的子类，而tuple是不可变的。记住，tuple是通过__new__创建的，然后__init__运行。在初始化时，元组已经被创建，不能再被修改，因为它们是不可变的。

我们可以通过重写__new__来解决这个问题：

class Point(tuple):

  x: float
  y: float

  def __new__(cls, x:float, y:float):    # <-- newly added method
    return super().__new__(cls, (x, y))

  def __init__(self, x:float, y:float):
    self.x = x
    self.y = y

这之所以有效，是因为在__new__中，我们使用super()来获取Point的父类引用，即tuple。接下来，我们使用tuple.__new__并传递一个可迭代对象（(x, y)）来创建一个新元组。这与tuple((1, 2))是一样的。

控制实例创建和附加方法

结果是一个Point类，底层是一个tuple，但我们可以添加各种额外功能：

class Point(tuple):
    x: int
    y: int

    def __new__(cls, x:float, y:float):
      if x < 0 or y < 0:                                  # <-- filter inputs
          raise ValueError("x and y must be positive")
      return super().__new__(cls, (x, y))

    def __init__(self, x:float, y:float):
      self.x = x
      self.y = y

    def distance_from(self, other_point: Point):          # <-- new method
      return math.sqrt(
        (other_point.x - self.x) ** 2 + (other_point.y - self.y) ** 2
      )

p = Point(1, 2)
p2 = Point(3, 1)
print(p.distance_from(other_point=p2))  # <-- 2.23606797749979

注意我们添加了一个计算Point之间距离的方法，以及一些输入验证。我们现在在__new__中检查提供的X和y值是否为正，并在不符合条件时完全阻止对象创建。

## 使用 Docker 和 Compose 的环境变量和文件的完整指南

通过这个简单的教程保持你的容器安全和灵活

[towardsdatascience.com

实际应用 2：添加元数据

在这个示例中，我们从不可变的float创建了一个子类，并添加了一些元数据。下面的类将生成一个真正的float，但我们添加了一些关于符号的额外信息。

class Currency(float):

    def __new__(cls, value: float, symbol: str):
        obj = super(Currency, cls).__new__(cls, value)
        obj.symbol = symbol
        return obj

    def __str__(self) -> str:
        return f"{self.symbol} {self:.2f}"  # <-- returns symbol & float formatted to 2 decimals

price = Currency(12.768544, symbol='€')
print(price)                            # <-- prints: "€ 12.74"

正如你所见，我们继承自float，这使得Currency的实例实际上是一个float。如你所见，我们还可以访问诸如用于美观打印的符号等元数据。

还要注意这是一个实际的浮点数；我们可以毫无问题地执行float操作：

print(isinstance(price, float))        # True
print(f"{price.symbol} {price * 2}")   # prints: "€ 25.48"

## 参数与关键字参数：哪种方式在 Python 中调用函数最快？

`timeit`模块的清晰演示

towardsdatascience.com

实际应用 3：单例模式

有些情况下你不想每次实例化类时都返回一个新的对象。例如，一个数据库连接。单例模式将类的实例化限制为唯一实例。该模式用于确保一个类只有一个实例，并提供一个全局访问点来访问该实例：

class Singleton:
  _instance = None

  def __new__(cls):
    if cls._instance is None:
      cls._instance = super(Singleton, cls).__new__(cls)
    return cls._instance

singleton1 = Singleton()
singleton2 = Singleton()

print(id(singleton1))
print(id(singleton2))
print(singleton1 is singleton2)  # True

这段代码创建一个Singleton类的实例（如果它尚不存在），并将其作为属性保存在cls上。当Singleton再次被调用时，它返回之前存储的实例。

## 使用 Python 的 AtExit 在程序退出后运行代码

注册在脚本结束或出错后运行的清理函数

towardsdatascience.com

其他实际应用

其他一些应用包括：

控制实例创建

我们在Point示例中已经看到过：在创建实例之前添加额外的逻辑。这可以包括输入验证、修改或日志记录。
工厂方法

根据输入在__new__中确定将返回哪个类。
缓存

对于资源密集型对象创建。像单例模式一样，我们可以在类本身上存储之前创建的对象。我们可以在__new__中检查是否已经存在等效的对象，并返回它，而不是创建一个新的。

## 从你的 Git 仓库创建可以用 PIP 安装的自定义私有 Python 包

使用你的 git 仓库分享你自己构建的 Python 包。

towardsdatascience.com

结论

在这篇文章中，我们深入探讨了 Python 对象创建，了解了它是如何工作的以及为什么这样工作。然后我们看了一些实际示例，演示了我们可以用新获得的知识做很多有趣的事情。控制对象创建可以使你创建高效的类，并显著提高你的代码的专业性。

为了进一步改进你的代码，我认为最重要的是真正理解你的代码，了解 Python 的工作原理并应用合适的数据结构。为此，请查看我的其他文章或这个演示。

我希望这篇文章能像我期望的那样清晰，但如果不清楚，请告诉我可以进一步澄清的内容。同时，请查看我在其他文章上关于各种编程相关主题的文章：

祝编码愉快！

— Mike

附言：喜欢我做的事吗？ 关注我！

[## Mike Huls - Medium

阅读 Mike Huls 在 Medium 上的文章。我是一名全栈开发者，对编程、技术充满热情，…

mikehuls.medium.com](https://mikehuls.medium.com/?source=post_page-----9134d971e334--------------------------------)

Python 列表：处理有序数据集合的终极指南

原文：towardsdatascience.com/python-lists-the-definitive-guide-for-working-with-ordered-collections-of-data-53b06a194826

Python 列表的全面指南

Federico Trotta

·发表于 Towards Data Science ·10 分钟阅读·2023 年 7 月 19 日

图片由 Jill Wellington 提供，来源于 Pixabay

在编程时，我们总是需要处理数据结构。我的意思是，我们需要将信息存储在某个地方，以便以后可以重新使用。

Python 是一种非常灵活的编程语言，给我们提供了使用不同类型数据结构的可能性。

在这篇文章中，我们将分析 Python 列表。因此，如果你是 Python 初学者，并且正在寻找关于列表的全面指南，那么这篇文章绝对适合你。

在这里你将学到：

Table of Contents:

What is a list in Python?
The top 9 features in Python lists, with examples
  How to create a list in Python
  Accessing list elements
  Modifying the elements of a list
  Adding elements to a list
  Removing elements from a list
  Concatenating lists
  Calculating the lenght of a list
  Sorting the elements of a list
  List comprehension

什么是 Python 列表？

在 Python 中，列表是一种内置的数据结构，允许我们以文本或数字的形式存储和操作数据。

列表以有序的方式存储数据，这意味着可以通过位置访问列表中的元素。

列表也是一种可修改的数据结构，与元组相对。

最后，列表还可以存储重复的值而不会引发错误。

Python 列表的 9 大特性及示例

学习 Python 的最佳方式是亲自上手敲代码，并且尽可能地解决实际问题。

所以，现在我们将通过代码示例展示 Python 列表的 9 个主要特性，因为正如我们将看到的，理论在编程中意义不大：我们只需要编写代码并解决问题。

如何在 Python 中创建列表

要创建列表，我们需要使用方括号：

# Create a simple list
numbers = [1,2,3,"dog","cat"]

# Show list
print(numbers)

>>>

[1, 2, 3, 'dog', 'cat']

创建列表的另一种方法是使用内置方法 list。例如，假设我们想创建一个包含从 0 到 9 的数字的列表。我们可以使用内置方法 range 来创建这个范围，然后将其作为参数传递给 list 方法来创建列表，如下所示：

# Create a list in the range
list_range = list(range(10))

# Show list
print(range_list)

>>>

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

我们还可以创建所谓的列表中的列表，即嵌套列表。例如，假设我们想存储与跑步的人测量时间（以秒为单位）相关的数据。如果我们需要这些数据作为列表，我们可以像这样创建一个列表的列表：

# Create a list of lists
times = [["Jhon"], [23, 15, 18], ["Karen"], [17, 19, 15],
        ["Tom"], [21, 19, 25]]

# Print list
print(times)

>>>

[['Jhon'], [23, 15, 18], ['Karen'], [17, 19, 15], ['Tom'], [21, 19, 25]]

访问列表元素

列表中的元素可以通过其位置访问。我们需要记住的是，在 Python 中，我们从 0 开始计数。这意味着第一个元素通过 0 访问：

# Create a list of elements
values = [1,2,3,"dog","cat"]

# Print elements by accessing them
print(f"The first element is: {values[0]}")
print(f"The fourth element is: {values[3]}")

>>>

The first element is: 1
The fourth element is: dog

因此，我们只需要注意正确计数。

访问列表中的列表稍微复杂一些，但并不难。我们首先需要访问与外部列表相关的位置，然后在内部列表中计数。

正如我们所说的，实践胜于理论。在 Python 中，我们用一个例子来展示这个概念：

# Create a list of lists
times = [["Jhon"], [23, 15, 18], ["Karen"], [17, 19, 15],
        ["Tom"], [21, 19, 25]]

# Print
print(f"The first runner is:{times[0]}.\nHis first registered time is:{times[1][0]}\nThe min registered time is:{min(times[1])}")

>>>

The first runner is:['Jhon'].
His first registered time is:23
The min registered time is:15

Jhon 是第一个登记的跑步者，因此我们用 times[0] 访问它。

然后，我们想计算他第一次登记的时间。为此，我们需要输入 times[1][0]，因为：[1] 表示第二个位置，相对于外部列表。意思是我们访问了内部列表 [23, 15, 18]。最后，[0] 访问了内部列表中的第一个数字，确实是 23。

修改列表中的元素

正如我们所说，列表是可修改的，要修改列表中的元素，我们需要访问它。

那么，让我们做一个例子：

# Create a list of numbers
numbers = [1, 2, 3, 4, 5]

# Modify the third element
numbers[2] = 10

# Print new list
print(numbers)

>>>

[1, 2, 10, 4, 5]

所以，在这种情况下，我们修改了第三个元素，将其从 3 改为 10。

我们还可以修改文本，特别是句子。让我们看一个例子：

# Create a sentence in a list
sentence = list("Hello, World!")

# Substitute "world" with "Python"
sentence[7:] = list("Python!")

# Print sentence
print(''.join(sentence))

>>>

"Hello, Python!"

所以，在这里，我们用 sentence[7:] 替换了列表 "sentence" 中从第七个（从 0 开始计数，如前所述）元素到最后一个元素的所有字母。

然后，我们使用了 ''.join(sentence) 方法来将句子作为一个整体打印。事实上，如果我们只是使用 print()，它会将字母逐个打印，如下所示：

print(sentence)

>>>

['H', 'e', 'l', 'l', 'o', ',', ' ', 'P', 'y', 't', 'h', 'o', 'n', '!']

向列表中添加元素

由于列表是可变的，我们可以向其中添加新元素，如果需要，并且我们有几种方法可以做到这一点。

第一种方法是使用 append() 方法，这在我们只需要向列表中添加一个元素时特别适用。例如：

# Create a list with fruits
fruits = ['apple', 'banana']

# Append the element "orange" to the list
fruits.append('orange')

# Print list
print(fruits)

>>>

['apple', 'banana', 'orange']

向现有列表中添加元素的另一种方法是使用 extend() 方法，这在需要一次添加多个元素时特别适用。例如，如下所示：

# Create a list of numbers
numbers = [1, 2, 3, 4, 5]

# Extend the list with new numbers
numbers.extend([6, 7, 8])

# Print list
print(numbers)

>>>

[1, 2, 3, 4, 5, 6, 7, 8]

从列表中移除元素

由于可变性，我们可以向列表中添加元素，也可以删除元素。

在这里，我们有两种方法：我们可以使用切片功能，或者可以直接指定要删除的元素。

让我们通过 Python 示例来看看这些：

# Create a list with fruits
fruits = ['apple', 'banana', 'orange']

# Remove the element banana
fruits.remove('banana')

# Print list
print(fruits)

>>>

['apple', 'orange']

所以，remove() 方法允许我们通过输入其值直接从列表中删除特定元素。

我们可以使用的另一种方法是通过以下方式访问我们想要删除的元素的位置：

# Create a list of numbers
numbers = [1, 2, 3, 4, 5]

# Delete on element: slicing method
popped_element = numbers.pop(2)

# Print
print(numbers)  
print(f"The deleted element is:{popped_element}")  

>>>

[1, 2, 4, 5]
The deleted element is:3

因此，pop() 方法通过访问索引从列表中删除一个元素。

选择使用哪一个？这取决于情况。如果我们有一个非常长的列表，通常使用 remove() 方法是个好主意，这样我们可以直接写出我们实际上想要删除的元素，而不会在计算索引时出错。

合并列表

列表的可变性使我们能够执行许多任务，例如将多个列表合并成一个列表。

这个操作很简单，使用 + 来进行，如下所示：

# Create a list
list1 = [1, 2, 3]

# Create a second list
list2 = [4, 5, 6]

# Concatenate list
combined_list = list1 + list2

# Print cncatenated lists
print(combined_list)

>>>

[1, 2, 3, 4, 5, 6]

当然，这个功能也可以在字符串上执行：

# Create a list
hello = ["Hello"]

# Create another list
world = ["world"]

# Concatenate
single_list = hello + world

# Print concatenated
print(single_list)

>>>

['Hello', 'world']

另一种合并列表的方法是将嵌套列表展平。换句话说，我们可以从嵌套列表中创建一个单一的“直线”列表，如下所示：

# Create a nested list
lists = [[1, 2], [3, 4], [5, 6]]

# Create a unique list
flattened_list = sum(lists, [])

# Print unique list
print(flattened_list)

>>>

[1, 2, 3, 4, 5, 6]

基本上，我们使用 sum() 方法来获取列表 lists 中的所有元素，并将它们附加到一个空列表 [] 中。

计算列表的长度

在前面的示例中，我们自己创建了列表，以演示如何操作列表的 Python 示例。

然而，当使用 Python 时，常常会从不同的来源检索数据，这意味着有人创建了一个我们实际上不知情的列表。

当我们面对一个未知列表时，我们最好先计算它的长度。我们可以这样做：

# Create a list
fruits = ['apple', 'banana', 'orange']

# Print list lenght
print(f"In this list there are {len(fruits)} elements")

>>>

 In this list there are 3 elements

所以，len() 方法计算列表中有多少个元素，而不必担心它们的类型。这意味着元素可以是所有数字、所有字符串，或两者兼有：len() 方法会统计它们全部。

对列表元素进行排序

当我们不知道列表的内容时，另一个可能执行的操作是对其元素进行排序。

我们有不同的方法来实现这一点。

我们从 sort() 方法开始：

# Creaye a list of numbers 
numbers = [5, 2, 1, 4, 3]

# Sort the numbers
numbers.sort()

# Print sorted list
print(numbers)

>>>

[1, 2, 3, 4, 5]

因此，我们可以直接将列表作为参数传递给 sort() 方法，它将对元素进行排序。

但如果我们想要排序一个包含字符串的列表呢？例如，假设我们想要按字母顺序对列表中的元素进行排序。我们可以这样做：

# Create a list of strings
words = ['cat', 'apple', 'dog', 'banana']

# Sort in alphabeticla order
sorted_words = sorted(words, key=lambda x: x[0])

# Print sorted list
print(sorted_words)

>>>

['apple', 'banana', 'cat', 'dog']

因此，在这种情况下，我们使用 sorted() 方法，需要指定：

关于我们想要排序的列表的参数。在这种情况下，是 words。
key。这意味着我们需要指定一种方法。在这种情况下，我们使用了一个 lambda 函数，通过 x[0] 获取每个元素的第一个字母，遍历所有元素：这是我们选择每个单词第一个字母的方式。

对字符串进行排序的另一种方式是按每个元素的字符数进行排序。换句话说，假设我们想要将较短的单词放在列表的开头，而将最长的单词放在末尾。我们可以这样做：

# Create a list of words
words = ['cat', 'apple', 'dog', 'banana']

# Sort words by lenght
words.sort(key=len)

# Print sorted list
print(words)

>>>

['cat', 'dog', 'apple', 'banana']

因此，即使使用sort()方法，我们也可以传递一个参数key。在这种情况下，我们选择了len，它计算每个单词的长度。因此，列表现在是按照从最短的单词到最长的单词的顺序排列的。

列表推导式

列表推导式是一种快速且简洁的方式，通过一行代码使用循环和语句的力量创建一个新列表。

让我们看一个例子。假设我们想取 1 到 6 的数字，并创建一个包含它们平方值的列表。我们可以这样做：

# Create a list of squared numbers
squares = [x ** 2 for x in range(1, 6)]

# Print list
print(squares) 

>>>

[1, 4, 9, 16, 25]

现在，我们可以不使用列表推导式而达到相同的结果，但需要大量代码，如下所示：

# Create empty list
squares = []

# Iterate over the numbers in the range
for squared in range(1, 6):
    # Calculare squares and append to empty list
    squares.append(squared ** 2)

# Print list    
print(squares)

>>>

[1, 4, 9, 16, 25]

因此，我们得到相同的结果，但列表推导式使我们只需一行代码即可实现。

我们还可以在列表推导式中使用if语句，这使得它比“标准方法”更加快捷和优雅，对于标准方法，我们需要使用for循环进行迭代，然后用if语句选择所需的值。

例如，假设我们想创建一个新的平方数列表，但只想要偶数。我们可以这样做：

# Create a list with numbers in a range
numbers = list(range(1, 11))

# Get the even squared numbers and create a new list
squared_evens = [x ** 2 for x in numbers if x % 2 == 0]

# Print list with squared & even numbers
print(squared_evens)

>>>

[4, 16, 36, 64, 100]

因此，我们需要记住，为了取得偶数，我们可以利用它们能被 2 整除的事实。所以，x % 2 == 0 获取那些被 2 除时余数为 0 的数字。也就是说：它们是偶数。

结论

在本文中，我们展示了关于 Python 列表的全面指南。

列表是一种非常重要且有用的数据结构。它们不难学习，但对于每个 Python 程序员来说都是一个基本资产。

Federico Trotta

我是 Federico Trotta，我是一名自由技术写作员。

想与我合作吗？联系我。

Python 列表与 NumPy 数组：深入探讨内存布局和性能优势

原文：towardsdatascience.com/python-lists-vs-numpy-arrays-a-deep-dive-into-memory-layout-and-performance-benefits-a74ce774bc1e

快速计算

探索分配差异和效率提升

Peng Qian

·发表于 Towards Data Science ·9 分钟阅读·2023 年 7 月 14 日

NumPy 数组中的数据像书架上的书一样紧凑地排列。照片由 Eliabe Costa 拍摄，来源于 Unsplash

在本文中，我们将深入探讨原生 Python 列表和 NumPy 数组之间的内存设计差异，揭示为什么在许多情况下 NumPy 可以提供更好的性能。

我们将比较数据结构、内存分配和访问方法，展示 NumPy 数组的强大功能。

介绍

想象一下，你正在准备去图书馆找一本书。现在，你发现图书馆有两个货架：

第一个货架上装满了各种精美的盒子，有些盒子里装着光盘，有些装着图片，还有些装着书籍。只有物品的名称附在盒子上。

这代表了原生 Python 列表，其中每个元素都有自己的内存空间和类型信息。

然而，这种方法存在一个问题：盒子里有许多空余空间，浪费了货架空间。而且，当你想找一本特定的书时，你必须查看每一个盒子，这会花费额外的时间。

现在让我们来看第二个货架。这次没有盒子；书籍、光盘和图片都根据它们的类别紧凑地放在一起。

这是 NumPy 数组，它们在内存中以连续的方式存储数据，从而提高了空间利用率。

由于物品都是按类别分组的，你可以快速找到一本书，而不必在许多盒子中搜索。这就是为什么在许多操作中，NumPy 数组比原生 Python 列表更快的原因。

Python 列表：一种灵活但效率较低的解决方案

Python 中的一切都是对象

让我们从 Python 解释器开始：虽然 CPython 是用 C 编写的，但 Python 变量不是 C 中的基本数据类型，而是包含值和附加信息的 C 结构。

以 Python 整数x = 10_000为例，x不是栈上的基本类型。相反，它是指向内存堆对象的指针。

如果你深入研究Python 3.10的源代码，你会发现x所指向的 C 结构如下图所示：

Python 整数与 C 原生整数。图像来源：作者。

PyObject_HEAD包含了如引用计数、类型信息和对象大小等信息。

Python 列表是包含一系列对象的对象

从中我们可以推断出，Python 列表也是一个对象，只不过它包含指向其他对象的指针。

我们可以创建一个只包含整数的列表：

integer_list = [1, 2, 3, 4, 5]

我们还可以创建一个包含多种对象类型的列表：

mixed_list = [1, "hello", 3.14, [1, 2, 3]]

Python 列表的优缺点

正如我们所看到的，Python 列表包含一系列指针对象。这些指针反过来指向内存中的其他对象。

这种方法的优点是灵活性。你可以将任何对象放入 Python 列表中，而无需担心类型错误。

然而，缺点也很明显：

Python 列表包含一系列指针对象。图像来源：作者

每个指针所指向的对象在内存中是分散的。当你遍历一个 Python 列表时，你需要根据指针查找每个对象的内存位置，这会导致性能下降。

NumPy 数组：一种用于增强性能的连续内存布局

接下来，让我们探索 NumPy 数组的组成部分和排列方式，以及它如何有利于缓存局部性和向量化。

NumPy 数组：结构和内存布局

根据 NumPy 的内部描述，NumPy 数组由两部分组成：

一部分存储了 NumPy 数组的元数据，描述了数据类型、数组形状等。
另一部分是数据缓冲区，它以紧凑的方式在内存中存储数组元素的值。

NumPy 数组：结构和内存布局。图像来源：作者

NumPy 数组的内存布局

当我们观察 ndarray 的.flags属性时，我们发现它包括：

 In 1:  np_array = np.arange(6).reshape(2, 3, order='C')
        np_array.flags

Out 1:  C_CONTIGUOUS : True
        F_CONTIGUOUS : False
        OWNDATA : False
        WRITEABLE : True
        ALIGNED : True
        WRITEBACKIFCOPY : False

C_CONTIGUOUS，表示数据是否可以使用行优先顺序读取。
F_CONTIGUOUS，表示数据是否可以使用列优先顺序读取。

行优先顺序是 C 语言使用的数据排列方式，标记为order=’C’。这意味着数据按行存储。

另一方面，列优先顺序由 FORTRAN 使用，标记为order=’F’，按列存储数据。

NumPy 数组的内存布局。图片由作者提供

NumPy 内存布局的优势

由于ndarray设计用于矩阵操作，它的所有数据类型都是相同的，具有相同的字节大小和解释。

这使得数据紧密打包在一起，带来了缓存局部性和向量化计算的优势。

缓存局部性：NumPy 的内存布局如何提高缓存利用率

什么是 CPU 缓存

NumPy 的连续内存布局有助于提高缓存命中率，因为它与 CPU 缓存的工作方式相匹配。为了更好地解释这一点，我们首先了解一下CPU 缓存的基本概念。

CPU 缓存是 CPU 和主内存（RAM）之间的小型高速存储区域。CPU 缓存的目的是加快内存中的数据访问速度。

CPU 缓存是 CPU 和主内存（RAM）之间的小型高速存储区域。图片由作者提供

当 CPU 需要读写数据时，它首先检查数据是否已经在缓存中。

如果所需数据在缓存中（缓存命中），CPU 可以直接从缓存中读取。如果数据不在缓存中（缓存未命中），CPU 会从 RAM 中加载数据并将其存储在缓存中以供将来使用。

CPU 缓存通常以缓存行的形式组织，这些缓存行是连续的内存地址。当 CPU 访问 RAM 时，缓存会将整个缓存行加载到高速缓存中。

这意味着，如果 CPU 访问相邻的内存地址，在加载缓存行之后，后续访问更有可能命中缓存，从而提高性能。

当 CPU 访问 RAM 时，缓存会将整个缓存行加载到高速缓存中。图片由作者提供

NumPy 如何利用缓存

NumPy 的连续内存布局利用了这一事实。

NumPy 数组将数据存储在连续的内存地址中，这有助于提高缓存局部性。

当访问数组中的一个元素时，整个缓存行（包含相邻的数组元素）会被加载到缓存中。

当你遍历数组时，你会依次访问每个元素。由于数组元素在内存中是连续存储的，因此在遍历过程中缓存命中更有可能发生，从而提高性能。

这类似于去图书馆读书。你不仅取出所需的书，还会拿出相关的书并将它们放在桌子上。

这样，当你需要查阅相关材料时，它们会更容易获取，比起在书架上寻找更加高效。

向量化：释放 NumPy 内存布局的威力

什么是向量化

向量化是一种利用单指令多数据（SIMD）功能的技术，这些功能可在 CPU 或 GPU 上同时执行多个数据操作。

向量化操作可以通过同时处理多个数据项显著提高代码执行效率。

NumPy 的连续内存布局促进了向量化操作。

为什么向量化适用

假设你是一个每天必须向不同家庭送货的送货员。

假设包裹在车辆中按顺序排列，而房屋沿街编号。在这种情况下，送货员可以有效地沿街按顺序送达包裹。

这种高效的方法类似于 NumPy 的内存布局，在向量化中带来了以下好处：

数据对齐：NumPy 数组的连续内存布局确保数据在内存中以向量化友好的方式对齐。这使得 CPU 能够高效地加载和处理 NumPy 中的数据。
顺序访问模式：NumPy 在内存中紧凑的数据有助于提高向量化性能。顺序访问模式还充分利用了 CPU 缓存和预取功能，减少了内存访问延迟。
简化代码：NumPy 提供了一系列函数（例如，np.add、np.multiply）和操作（例如，数组切片），这些函数和操作自动处理向量化操作。你可以编写简洁高效的代码，而无需担心底层实现。

副本和视图：NumPy 在性能优化方面的出色设计

在之前的讨论中，我们讨论了 NumPy 如何利用其连续内存布局来实现性能优势。

现在，让我们讨论 NumPy 如何通过副本和视图获得性能优势。

副本和视图是什么

副本和视图是定义现有数据与原始数组之间关系的两种选项。根据这两种选项的特性，可以总结如下：

副本：使用与原始数组不同的内存空间，但数据内容相同。
视图：引用与原始数组相同的内存地址。

一个副本可以有多个视图。图片来源：作者

如果我们将其与书籍进行比较，视图就像书中的书签，而不需要创建书籍的副本。

另一方面，副本是原书的复制品，包含文本和图像的完整副本。当你在这个副本上做笔记时，原书不会受到影响。

充分利用这两种特性

利用视图和副本的特性可以帮助我们编写简洁高效的代码。

以算术操作为例。如果你使用 a = a + 1，将会创建一个新的副本。然而，如果你使用 a += 1 或 np.add，则会应用广播，并且直接在原始数组上进行加法操作。

请看以下代码，该代码测量了执行时间：

执行上述代码将产生类似于以下结果：

使用视图进行计算所需时间更少。截图由作者提供

从结果来看，使用视图进行计算所需时间更少。

区分副本和视图

确认每次计算结果是视图还是副本将需要付出很大努力。

不过，还有一种更直接的验证方法：

使用may_share_memory来判断参数中的两个数组是否引用相同的内存空间。这个判断可能不够严格。True 并不一定意味着数组是共享的，但 False 确认数组绝对不共享。
如果你需要更准确的答案，可以使用share_memory函数。然而，这个函数的执行时间比may_share_memory要长。

结论

总结来说，我们了解了 NumPy 数组与原生 Python 列表之间在内存安排上的差异。

由于 NumPy 数组中相同数据类型的连续排列，显著提高了缓存局部性和向量化的性能优势。

在 NumPy 的设计中分离视图和副本，为代码执行性能和内存管理提供了更大的灵活性。

在接下来的系列文章中，我将从基础开始，重申工作中数据科学的最佳实践。如果你有任何建议或问题，请随时评论，我会逐一解答。

除了提高代码执行速度和性能外，使用各种工具提高工作效率也是一种性能提升：

Peng Qian

Python 工具箱

查看列表6 个故事 [## 加入 Medium 使用我的推荐链接 - Peng Qian

作为 Medium 的会员，你的部分会员费用将用于你阅读的作者，同时你可以全面访问每个故事……

medium.com](https://medium.com/@qtalen/membership?source=post_page-----a74ce774bc1e--------------------------------)

本文最初发布于：www.dataleadsfuture.com/python-lists-vs-numpy-arrays-a-deep-dive-into-memory-layout-and-performance-benefits/

Python Meets Pawn 2：基于开局的国际象棋大师聚类

原文：towardsdatascience.com/python-meets-pawn-2-clustering-chess-grandmasters-based-on-their-openings-68440fc9f9b1

在这篇博客中，我将引导你通过使用 Python 分析国际象棋大师开局的过程。

Mikayil Ahadli

·发表于 Towards Data Science ·7 分钟阅读·2023 年 12 月 22 日

由 Midjourney 创建的照片

我在回答哪些问题
第一部分：获取数据
第二部分：特征工程
第三部分：聚类
结果与有趣的事实

我在回答哪些问题

我对国际象棋的热情不是什么秘密，这里我分享了自己棋局开局的分析。但今天，我将踏入一个新领域：国际象棋大师的世界。他们通常使用什么开局？他们的选择有多么多样？我对这些开局在不同国际象棋大师中的分布很感兴趣。顶级棋手是否偏爱相似的开局？是否可以根据他们的偏好进行分组？我不知道——让我们来探讨一下！

第一部分：获取数据

国际象棋的一个伟大方面是其数据的可获取性。有许多来源，包括pgnmentor，你可以在这里查看和下载关于开局和棋手的数据（免费）。这些数据每年更新多次，包括 Portable Game Notation (PGN)格式的棋局，这是国际象棋游戏最流行的格式。由于下载是逐个进行的，我选择了 11 位著名的国际象棋大师来下载和分析他们的开局。请注意，这个列表是主观的，包含了一些我最喜欢的国际象棋大师：

Shakhriyar Mamedyarov
Teimour Radjabov
Hikaru Nakamura
Magnus Carlsen
Fabiano Caruana
丁立人
Ian Nepomniachtchi
Viswanathan Anand
Anish Giri
Vugar Gashimov
Vladimir Kramnik

完整的代码将在博客末尾提供。为了解析 PGN 文件，我使用了名为‘Chess’的 Python 库中的 PGN 模块。

我用于解析数据的函数如下所示：

def parse_pgn_file(file_path):
    """
    Parses a PGN (Portable Game Notation) file containing chess games.

    Args:
        file_path (str): Path to the PGN file.

    Returns:
        pd.DataFrame: A DataFrame containing game information.
    """
    games = []  # Initialize an empty list to store parsed games.
    with open(file_path, "r") as pgn_file:
        while True:
            game = chess.pgn.read_game(pgn_file)  # Read a game from the PGN file.
            if game is None:
                break  # Exit the loop when no more games are found.
            games.append(game)  # Append the parsed game to the list.

    data = []  # Initialize an empty list to store game data.
    for game in games:
        data.append({
            "Event": game.headers.get("Event", ""),
            "Date": game.headers.get("Date", ""),
            "Result": game.headers.get("Result", ""),
            "White": game.headers.get("White", ""),
            "Black": game.headers.get("Black", ""),
            "Moves": " ".join(str(move) for move in game.mainline_moves()),
            "ECO": game.headers.get("ECO", "")
        })  # Extract relevant information from game headers and moves.

    df = pd.DataFrame(data)  # Create a DataFrame from the extracted data.
    return df  # Return the DataFrame containing game information.

以下是我解析和组合数据的表格显示。我将利用现有的“ECO”列，指示每盘棋中使用的开局。棋类中的 ECO 代码指的是“国际象棋开局百科全书”，这是一种用于分类各种开局的系统。每个代码由一个字母和两个数字组成，如 B12 或 E97，独特地标识某一特定开局或变体。

解析的数据集（图片来源：作者）

特级大师们拥有数千盘棋局，涵盖 484 个独特的组合 ECO 代码。鉴于有 500 个独特的 ECO 代码，这 11 位特级大师几乎使用了职业生涯中的所有范围。然而，每位特级大师玩了多少个独特的开局？让我们查看以下图表：

独特开局图表（图片来源：作者）

这些数字与他们在数据集中的棋局数量高度相关，但总体而言，图表显示特级大师们在棋局中使用了各种各样的开局。

第二部分：特征工程

让我们开始查看每位特级大师最受欢迎的开局：

B90 — 西西里防御，Najdorf 变体 : Anand, Giri, Nepomniachtchi
D37 — 皇后弃兵 : Carlsen, Mamedyarov, Radjabov
C42 — 俄国棋局 : Gashimov, Kramnik
A05 — 印度王攻 : Nakamura
C65 — 西班牙棋局，柏林防御 : Caruana
E60 — 格鲁恩费尔德和印度棋局 : Ding

我猜看到一位俄国特级大师偏好俄国棋局并不奇怪。Gashimov 也偏好俄国棋局，表明苏联棋校在阿塞拜疆的强大影响。基于他们喜欢的开局发现一些模式是很有趣的。然而，为了实现更详细和分隔的分组，我将应用聚类技术，同时考虑其他开局。

让我们检查每位特级大师的开局分布。我将数据集以特级大师为索引，使用独特的 ECO 代码作为列，以棋局数量为值进行了透视。以下图表是马格纳斯·卡尔森的示例：

马格纳斯的开局分布（图片来源：作者）

尽管特级大师们使用了各种开局，但明显有些开局比其他开局更具优势。大多数特级大师似乎偏好大约五种特定的开局，这影响了我决定集中于一个包含前 5 名开局的数据框。

对于聚类，我选择测试两个数据框：透视比例和前 5 个开局。使用后者取得了最佳结果，我将在下面详细解释。有关更多选项和详细见解，请参阅末尾提供的完整代码。在前 5 个开局数据框中，我使用了独热编码。在 11 位国际象棋大师中，前 5 个选择中有 24 个独特的 ECO 代码。这个数据框中的二进制值指示每位国际象棋大师的前 5 个开局中是否包含特定的 ECO 代码：

Top5 数据框（图片由作者提供）

下表显示了每位国际象棋大师的前 5 个 ECO。我们已经可以看到一些模式，但聚类将帮助我们更有效地区分它们。

每位国际象棋大师的前 5 个开局结果（图片由作者提供）

第三部分：聚类

前 5 个最受欢迎的开局数据集包含 24 列。为了简化，我应用了 PCA（主成分分析）。这种方法有助于减少数据维度，同时保留重要信息。虽然第一个主成分提供了不错的结果，但我选择了两个成分。为什么？它们提供了几乎相同的洞察，并且使得可视化更容易。

对于分组国际象棋大师，我使用了 K-means 聚类。这就像把书籍分类到不同的类型中。首先，我选择了聚类的数量或“类型”。然后，将每位国际象棋大师的开局风格匹配到最接近的聚类中，就像将书籍分配到最合适的类型一样。这个过程会不断调整：代表每组共同风格的聚类中心会重新计算，国际象棋大师会相应地重新分配。这个过程会重复，直到聚类准确地表示出不同的游戏风格。通过 K-means，国际象棋开局中的不同模式浮现出来，突显了国际象棋大师们之间的不同策略。

选择正确的聚类数在任何聚类项目中都是关键。为此，我使用了肘部法则。这是一种确定数据分组理想聚类数的简单方法。你绘制一个图表，其中每个点代表一个不同的聚类数，并计算每个聚类的“组内平方和”（WCSS）。WCSS 衡量数据点到聚类中心的距离。在图表上，有一个点，在该点之后增加聚类数不会显著减少 WCSS。这个点类似于一个肘部，指示最佳的聚类数。它确保了聚类数和数据点之间的紧密分组之间的平衡。下面的图表演示了在我们的案例中，最佳聚类数是 4。

确定最佳聚类数的肘部法则（图片由作者提供）

确定了聚类数量后，我对特级大师进行了聚类。为了评估我的聚类效果，我使用了轮廓系数。这个分数衡量了一个对象与其自身聚类的相似性与其他聚类的相似性。高轮廓系数表明数据聚类效果良好。该分数范围在-1 到 1 之间，我获得了 0.69 的分数，表明聚类效果有效。

最后，我在二维空间中可视化了聚类数据和质心（每个聚类的“中心”）。这一步将复杂的数据转化为易于理解和视觉上吸引人的格式，非常适合一目了然地看到模式和差异：

分析结果（图片由作者提供）

结果和有趣的事实

我的分析揭示了国际象棋特级大师在开局方面展现了广泛的 repertoire，但他们之间有些偏好有所不同。基于这些开局对他们进行聚类不仅是可行的，而且得出了有趣的见解。例如，阿塞拜疆象棋传奇人物马梅杰罗夫和拉杰博夫被归为一组。有趣的是，安اند、吉里和卡鲁阿纳也紧密聚集在一起。仔细观察他们的前 5 个最爱开局，确认了这些结果。值得注意的是，安 Anand 和吉里分享了完全相同的前 5 个开局。这是否意味着吉里对安 Anand 的钦佩？确实，在互联网研究后，我发现吉里非常欣赏安 Anand 并从他的棋局中学习。以下是这些开局：

B90 — 西西里防御，奈杰多夫变体
C50 — 意大利开局
C42 — 俄国开局
C65 — 西班牙开局，柏林防御
C67 — 西班牙开局，柏林防御，其他变体

完整代码及 Jupyter notebook 文件可以在这里找到。

Python 遇见棋子：通过数据分析解码我的棋局开局

原文：towardsdatascience.com/python-meets-pawn-decoding-my-chess-openings-with-data-analysis-097a34cef20a

在这篇博客中，我将引导你通过使用 Python 分析你在 Chess.com 平台上进行的棋局。

Mikayil Ahadli

·发表于 Towards Data Science ·8 分钟阅读·2023 年 11 月 17 日

照片由 DALL·E 创建

国际象棋一直是我的热情所在，这是一款由我的父亲介绍给我的美丽游戏。我早年间常与家人下棋，后来转向了 Chess.com 的数字棋盘。最近，国际象棋的受欢迎程度有所回升，这得益于知名主播和国际象棋大师的教育努力。这股新的兴趣浪潮激发了我在一系列关于棋局开局的思考：‘我经常使用的开局是什么，它们对我有多成功？’意识到我对自己的偏好或成功率一无所知，我决定将我最热爱的两个事物结合起来：国际象棋和 Python。

让我们开始理解这些步骤，学习如何使用 Chess.com API，并了解如何查看你在国际象棋中的开局动作吧！

附注：这篇博客假设你的笔记本电脑上已经安装了 Python，最好还安装了 Jupyter Notebook（或其他 IDE）。

Chess.com API

首先，你需要安装 Chess.com 库来使用其 API。你可以使用终端（或命令提示符）中的 “pip” 命令来安装，也可以在 Jupyter Notebook 中使用“!”符号来执行该语法。

pip install chess.com

你可以在 chesscom.readthedocs.io/en/latest/ 找到所有的说明和详细信息。这里包含了可以使用的每一种方法和参数。

你还需要传统的 pandas 和 numpy 库，你可以像上面一样安装它们。

获取数据

首先，让我们设置好所需的所有库，然后向 API 发出第一次请求。我们将使用一个叫做‘get_player_games_by_month’的方法来查看特定年份和月份玩的所有游戏。为了了解我们获得的数据类型，我们将查看一个示例游戏。通过使用 Python 内置的‘pprint’库，我们可以使 JSON 响应更易于阅读。

# Import necessary libraries
from chessdotcom import get_player_game_archives, get_player_games_by_month, Client
import pandas as pd
import numpy as np
from pprint import pprint

# Configure the user agent for the API requests to Chess.com
# this part is mandatory as per new version of API
Client.request_config["headers"]["User-Agent"] = (
   "My Python Application. "
   "Contact me at xxxx@gmail.com"
)

# get games for the month of November 2023
response_sample = get_player_games_by_month("mikayil94", year=2023, month=11)

# print the JSON
pprint(response_sample.json)

真正酷的部分在于 PGN（可移植棋局记录）部分——它包含了我们所需的一切，如开局名称和更多细节的链接（ECOUrl）

有一个叫做‘get_player_game_archives’的方法，它帮助我们获取平台上旧游戏的列表，这些游戏按我们玩它们的年份和月份排序。日期以链接格式呈现，所以我们只需要从每个链接中提取日期部分。

# Retrieve a list of months during which the player 'mikayil94' has played games
response1 = get_player_game_archives("mikayil94")
list_of_played_months = []
for i in response1.json['archives']:
    list_of_played_months.append(i[-7:])

现在是重点部分！我们可以使用之前找到的年份和月份，将值传递给‘get_player_games_by_month’方法，以获取关于我们游戏的更多信息。每场游戏将衍生出以下列：‘time_class’，‘date’，‘white’，‘black’，‘game_link’，‘opening_code’，‘opening_name’，‘opening_link’，‘result’。‘time_class’部分来源于不同于其他内容的地方，这些内容都在 PGN 部分内。我们真正需要的分析数据是玩家的名称（白方和黑方）和开局名称。每个开局的链接也是非常有用的。这样，我们可以了解更多信息，并提高使用这个开局的能力。此外，链接到游戏本身也很棒，因为它让我们可以回顾并理解我们是如何赢得或输掉每场游戏的。

# Create a DataFrame to store game information
my_games_df = pd.DataFrame(columns = ['time_class', 'date', 'white', 'black', 'game_link', 'opening_code', 'opening_name', 'opening_link', 'result'])

# Loop through each month and retrieve games played in that month
for months in list_of_played_months:
    response2 = get_player_games_by_month("mikayil94", year=months.split("/")[0], month=months.split("/")[1])  

    # Extract relevant information from each game and add it to the DataFrame
    for i in response2.json['games']:
        time_class = i['time_class']
        pgn = i['pgn']
        if "ECOUrl" not in pgn : continue  # Skip the game if it doesn't have an ECO URL

        # Extract various details from the PGN (Portable Game Notation) of the chess game
        date = pgn[pgn.find("Date"):].split(" ")[1].split("]")[0].strip('\"')
        white = pgn[pgn.find("White"):].split(" ")[1].split("]")[0].strip('\"')
        black = pgn[pgn.find("Black"):].split(" ")[1].split("]")[0].strip('\"')
        game_link = pgn[pgn.find("Link"):].split(" ")[1].split("]")[0].strip('\"')
        opening_code = pgn[pgn.find("ECO"):].split(" ")[1].split("]")[0].strip('\"')
        opening_name = pgn[pgn.find("ECOUrl"):].split(" ")[1].split("]")[0].split("/")[-1].strip('\"')    
        opening_link = pgn[pgn.find("ECOUrl"):].split(" ")[1].split("]")[0].strip('\"')    
        result = np.where(pgn[pgn.find("Termination"):].split(" ")[1].split("]")[0].strip('\"') == 'mikayil94', 'Win', 'Loss') # if my username is in this field, it means I was the Winner.

        # Create a new DataFrame for the current game and append it to the main DataFrame
        my_games_df_new = pd.DataFrame({'time_class' : [time_class], 'date' : [date], 'white' : [white], 'black' : [black], \
                        'game_link' : game_link, 'opening_code' : opening_code, 'opening_name' : [opening_name], 'opening_link' : [opening_link], 'result' : [result]})
        my_games_df = pd.concat([my_games_df, my_games_df_new], ignore_index=True)

创建最终结果的变量

现在我们有了数据，我们需要添加一些内容以使其更清晰、更易于了解发生了什么。了解每场游戏中的开局是谁下的很重要。我是黑方时对这个开局进行了应对，还是白方时使用了它？为了解这个问题，我会检查每场游戏中我所处的一方。然后，通过查看我赢了还是输了每场游戏，我可以计算出每种开局的胜率。

# Add a new column 'opening_side' to the DataFrame. If the player 'mikayil94' is white, set the value to 'white', otherwise 'black'
my_games_df['opening_side'] = np.where(my_games_df.white == 'mikayil94', 'white', 'black')

# Add a new column 'result_binary'. If the result of the game is 'Win', set the value to 1, otherwise 0
my_games_df['result_binary'] = np.where(my_games_df.result == 'Win', 1, 0)

# Group the DataFrame by opening name, link, code, and the side 'mikayil94' played.
# Aggregate the data to count the total number of wins and total games played for each group
my_openings = my_games_df.groupby(["opening_name", "opening_link", "opening_code", "opening_side"], as_index=False).agg(
    games_win = ('result_binary', 'sum'),  # Sum of 'result_binary' to get total wins
    games_count = ('result_binary', 'count')  # Count of 'result_binary' to get total games played
)

# Calculate the win percentage for each opening and add it as a new column 'win_percentage'
# The win percentage is rounded to two decimal places
my_openings['win_percentage'] = round(my_openings.games_win / my_openings.games_count, 2)

结果就在这里！

现在我们可以看到结果了！我使用了 matplotlib 和 seaborn 库（如果没有，使用 pip 安装）来可视化数据。我创建了一个名为“opening_and_side”的新变量，用于可视化，指示哪一方（白方或黑方）使用了这个开局。我只查看了至少玩过 10 次的开局，以确保我的分析是准确的。

import matplotlib.pyplot as plt
import seaborn as sns

# Prepare the data for visualization
# Add new column, to concatenate opening name and opening side, which will be used in visualization
my_openings['opening_and_side'] = my_openings.opening_name + '[as ' + my_openings.opening_side + ']'
# filter data to show only games with at least 10 count
viz_data = my_openings[my_openings.games_count > 10].sort_values("win_percentage", ascending=False)[['opening_and_side', 'win_percentage']]

# Create a bar plot
plt.figure(figsize=(15, 10))
sns.barplot(x='win_percentage', y='opening_and_side', data=viz_data, palette="viridis", ci=None)
plt.title('Win Percentage by Chess Opening')
plt.xlabel('Win Percentage')
plt.ylabel('Opening Name')
plt.xticks(rotation=45)
plt.tight_layout()

# Display the plot
plt.show()

经过分析后的关键收获：

奥文防御！ 这是我在 2018 年和 2019 年的常用开局，但直到现在我才意识到我其实用得很好。这并不是一个常见的开局，因此对于让对手措手不及非常有效！事实证明，如果查看国际象棋大师的对局，这个开局相当稳固。黑方获胜的概率是 46.3%，而白方的胜率为 34.6%。你可以在国际象棋开局数据库中查看更多信息，地址是：old.chesstempo.com/chess-openings.html。

对Barnes 开局-1…d5–2.e4表现不错。我之前不知道这个开局叫做 Barnes 开局，也不知道我在这个开局中的胜率很高。即使国际象棋开局数据库说这对白方并不是最佳开局，因为在下 f3 后，白方的评估值为-0.4，这会削弱王翼。但由于这并不是一个常见的开局，它似乎让我的对手感到意外。在这种情况下，黑方不应该吃掉那个兵，但我的对手大多数情况下都吃了，这让局面变得更均衡。

范特-克鲁伊斯开局——在用白棋下这个开局时，我总是陷入更糟的局面，而当对手使用这个开局时，我则会获得优势，所以，这开局不太好！国际象棋开局数据库支持这一点：它显示，白方玩家使用这个开局时获胜的概率只有 36.5%，而对手的获胜概率是 45.3%！

在对抗国王兵开局-离经叛道的皇后攻击时表现不佳。在 2019 年之后对这种开局没有近期的记录，我通常容易犯错误，陷入陷阱，不过，生活就是不断学习！😃
对国王兵开局-拿破仑攻击表现不好。幸运的是，我已经很久没用这个开局了！游戏开始时过早地调动皇后通常不是一个好棋步 😃
当我用黑棋对抗皇后兵开局-加速伦敦系统时，通常不会立即陷入困境。但回头看，我用这个开局的胜率并不如我所希望的那么高。看来我需要花些时间更多地学习和练习这个开局。

结论

很高兴 Chess.com 提供了这个公开 API，让我们可以进行这种有趣的分析并发现一些有趣的事情。通过查看我的对局，我发现实际上在开始学习所有著名开局之前，我的表现更好。有时候，使用不寻常的开局可能是个好事。那么，为什么不试试让你的对手惊讶的 Barnes 开局或奥文防御呢？只要小心对手使用离经叛道的皇后攻击时不要犯错误。

感谢你陪伴我读到最后！希望你读得愉快，并且可能对国际象棋、Python，或使用 Python 分析你自己的国际象棋对局感兴趣 😃

Jupyter notebook 文件可以在这里找到。

Python 在网络上

原文：towardsdatascience.com/python-on-the-web-b819a6a55ec7

在没有任何服务器的情况下展示 Python 应用

Pier Paolo Ippolito

·发表于 Towards Data Science ·阅读时间 9 分钟·2023 年 10 月 11 日

图片由 Ales Nesetril 提供，来自 Unsplash

介绍

使用流行的 Python 可视化库可以相对简单地在本地创建各种形式的图表和仪表板。然而，将你的结果分享给其他人则可能复杂得多。

实现这一目标的一种可能方法是使用诸如 Streamlit、Flask、Plotly Dash 等库，并支付网络托管服务费用以覆盖服务器端，并运行你的 Python 脚本在网页上显示。另一种选择是，一些提供商如 Plotly Chart 或 Datapane 也提供免费的云支持，你可以将 Python 可视化图上传并嵌入到网页上。在这两种情况下，如果你的项目预算较小，你都能实现你所需要的功能，但是否有可能免费实现类似的结果呢？

作为本文的一部分，我们将探索三种可能的方法：

为了展示这三种方法，我们将创建一个简单的应用程序，以探索来自全球的历史通货膨胀数据。为此，我们将使用世界银行全球通货膨胀数据库，有关数据许可的所有信息可以在此链接 [1] 中找到。

数据下载后，我们可以使用以下预处理函数，以更好地调整数据集以进行可视化，并仅导入我们将用于分析的 3 个 Excel 表格（总体通胀数据、食品和能源价格的通胀数据）。

import pandas as pd

def import_data(name):
    df = pd.read_excel("Inflation-data.xlsx", sheet_name=name)
    df = df.drop(["Country Code", "IMF Country Code", "Indicator Type", "Series Name", "Unnamed: 58"], axis=1)
    df = (df.melt(id_vars = ['Country', 'Note'], 
              var_name = 'Date', value_name = 'Inflation'))
    df = df.pivot_table(index='Date', columns='Country',  
                        values='Inflation', aggfunc='sum')
    return df

inf_df = import_data("hcpi_a")
food_df = import_data("fcpi_a")
energy_df = import_data("ecpi_a")

每个数据集将会有一个日期索引，每年一行，每个国家的通胀百分比值一列（图 1）。

图 1：总体通胀数据集（图像由作者提供）。

本项目中使用的所有代码可以在我的 GitHub 个人资料上自由访问，本项目生成的在线仪表板可以通过这个链接访问。

面板

Panel 是 HoloViz 生态系统中的一个开源 Python 库。可以使用以下命令简单安装：

pip install panel

数据导入后，我们可以继续开发我们的应用程序：

我们首先导入必要的库。
指定一个模板来样式化应用程序及其标题。
创建一个下拉小部件，用户可以选择一个国家进行检查。在此情况下，瑞士被提供为应用程序加载时的默认选择。
3 个辅助函数旨在将所选国家作为输入，然后返回系列的不同时间部分，以便向用户清晰地显示原始通胀数据。
最终，3 个辅助函数与下拉小部件绑定，并一起添加到界面上的一列中。

import pandas as pd
import matplotlib.pyplot as plt
import panel as pn
from holoviews import opts
import hvplot.pandas

pn.config.template = 'fast'
pn.config.template.title="Panel Inflation Monitoring Application"

country_widget = pn.widgets.Select(name="Country", value="Switzerland", options=list(inf_df.columns))

def pivot_series(inf_df, country):
    df = pd.DataFrame({'Date':inf_df[country].index, 'Inflation':[round(i, 3) for i in inf_df[country].values]})
    df = df.pivot_table(values='Inflation', columns='Date')
    return df

def make_df_plot(country):
    df = pivot_series(inf_df, country)
    return pn.pane.DataFrame(df.iloc[:, : 17])

def make_df_plot2(country):
    df = pivot_series(inf_df, country)
    return pn.pane.DataFrame(df.iloc[:, 17:34])

def make_df_plot3(country):
    df = pivot_series(inf_df, country)
    return pn.pane.DataFrame(df.iloc[:, 34:])

bound_plot = pn.bind(make_df_plot, country=country_widget)
bound_plot2 = pn.bind(make_df_plot2, country=country_widget)
bound_plot3 = pn.bind(make_df_plot2, country=country_widget)
panel_app = pn.Column(country_widget, bound_plot, bound_plot2, bound_plot3)
panel_app.servable()

结果是，我们应得到如下输出（图 2）：

图 2：显示表格数据（图像由作者提供）。

按照类似的结构，我们可以继续制作一个滑块，用户可以选择要检查的年份范围，并创建一个图表以可视化国家历史趋势（图 3）。

years_widget = pn.widgets.RangeSlider(name='Years Range', start=1970, end=2022, value=(1970, 2022), step=1)

def make_inf_plot(country, years):
    df = inf_df[country].loc[inf_df[country].index.isin(range(years[0], years[1]))]
    return df.hvplot(height=300, width=400, label=country + ' Overall Inflation')

bound_plot = pn.bind(make_inf_plot, country=country_widget, years=years_widget)
panel_app = pn.Column(years_widget, bound_plot)
panel_app.servable()

图 3：总体通胀趋势（图像由作者提供）。

现在我们已经能够可视化总体通胀数据，我们可以添加第二个图表，用户可以选择检查食品或能源价格的通胀趋势（图 4）。

type_plot_widget = pn.widgets.Select(name="Inflation Type", value="Food", options=["Food", "Energy"])

def make_type_plot(plt_type, country, years):
    if plt_type == "Food":
        df = food_df[country].loc[inf_df[country].index.isin(range(years[0], years[1]))]
        return df.hvplot(height=300, width=400, label=country + ' Food Inflation')
    else:
        df = energy_df[country].loc[inf_df[country].index.isin(range(years[0], years[1]))]
        return df.hvplot(height=300, width=400, label=country + ' Energy Inflation')

bound_plot = pn.bind(make_type_plot, plt_type=type_plot_widget, country=country_widget, years=years_widget)
panel_app = pn.Column(type_plot_widget, bound_plot)
panel_app.servable()

图 4：食品/能源通胀趋势（图像由作者提供）。

最后，我们还可以在仪表板上添加一个探索器小部件，以便用户能够创建自己的图表（图 5）。

hvexplorer = hvplot.explorer(inf_df)
pn.Column(
    '## Feel free to explore the entire dataset!', hvexplorer
).servable()

图 5：探索器小部件（图像由作者提供）。

一旦创建了完整的应用程序并将其存储在 pane_example.py 文件中，我们可以运行以下命令以可视化结果。

panel serve panel_example.py --autoreload --show

然后，可以使用以下命令将应用程序转换为 HTML 格式：

panel convert panel_example.py --to pyodide-worker --out docs

转换后，应该可以使用 HTTP 服务器启动它。网页应该可以通过以下链接访问：http://localhost:8000/docs/panel_example.html

python3 -m http.server

Shiny for Python

Shiny 是一个最初为 R 开发的开源库，现在也可供 Python 用户使用。可以使用以下命令轻松安装：

pip install shiny

导入数据后，我们可以继续工作，首先导入必要的依赖项，然后构建应用程序的布局。具体采用以下步骤：

首先为应用程序创建一个标题。
设计一个包含下拉菜单和滑块的侧边栏（用于作为输入填充以下图表）。
在侧边栏旁输出 2 个图表（展示一个国家的整体通胀趋势及其年度通胀变化）。
在应用程序末尾添加一个最终下拉菜单和图表（用户可以检查食品/能源价格的通胀趋势）。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from shiny import ui, render, reactive, App

app_ui = ui.page_fluid(
    ui.h2("Python Shiny Inflation Monitoring Application"),
    ui.layout_sidebar(
        ui.panel_sidebar(
            ui.input_selectize("country", "Country",
                list(inf_df.columns)
            ),
            ui.input_slider("range", "Years", 1970, 2022, value=(1970, 2022), step=1),
        ),
        ui.panel_main(
            ui.output_plot("overall_inflation"),
            ui.output_plot("annual_change")
        )
    ),
    ui.input_selectize("type", "Inflation Type",
        ["Food", "Energy"]
    ),
    ui.output_plot("inflation_type")
)

定义布局后，我们可以继续创建不同的图表：

def server(input, output, session):

    @output
    @render.plot
    def overall_inflation():
        df = inf_df[input.country()].loc[inf_df[input.country()].index.isin(range(input.range()[0], input.range()[1]))]
        plt.title("Overall Inflation")
        return df.plot()

    @output
    @render.plot
    def annual_change():
        annual_change = inf_df[input.country()].diff().loc[inf_df[input.country()].index.isin(range(input.range()[0], input.range()[1]))]
        plt.title("Annual Change in Inflation")
        return plt.bar(annual_change.index, annual_change.values, color=np.where(annual_change>0,"Green", "Red"))

    @output
    @render.plot
    def inflation_type():
        if input.type() == "Food":
            df = food_df[input.country()].loc[inf_df[input.country()].index.isin(range(input.range()[0], input.range()[1]))]
            plt.title(input.country() + ' Food Inflation')
            return df.plot()
        else:
            df = energy_df[input.country()].loc[inf_df[input.country()].index.isin(range(input.range()[0], input.range()[1]))]
            plt.title(input.country() + ' Energy Inflation')
            return df.plot()

app = App(app_ui, server)

然后可以使用以下命令在本地启动应用程序（见图 6）：

shiny run --reload app.py

图 6：Shiny 应用程序示例（图片来源于作者）。

如果有兴趣将代码转换为 HTML 以便在网页上共享，我们需要首先安装 shinylive，然后使用以下命令（确保将应用程序命名为 app.py！）。

pip install shinylive
shinylive export . docs

转换后，应该可以使用 HTTP 服务器启动应用程序。网页应该可以通过以下链接访问：http://[::1]:8008/

python3 -m http.server --directory docs --bind localhost 8008

PyScript

PyScript 是 Anaconda 开发的一个框架，用于直接在 HTML 文件中编写 Python 代码。导入 pyscript.js 脚本后，Python 代码将会自动执行并处理，从而在应用程序中呈现结果。

为运行我们的应用程序所需的所有 HTML 代码如下所示。然后，Python 代码可以直接粘贴在命令之间。在命令之后，还添加了一个 div 元素，以便为应用程序添加标题，并获取图表的不同输入参数（与我们在 Panel 和 Shiny 仪表板中所用的输入参数方式相同）。

<html>
  <head>
    <title>Inflation Monitoring</title>
    <meta charset="utf-8">
    <link rel="stylesheet" href="https://pyscript.net/latest/pyscript.css" />
    <script defer src="https://pyscript.net/latest/pyscript.js"></script>
  </head>
  <body>

    <py-config>
      packages = ["pandas", "matplotlib", "numpy"]
    </py-config>

    <py-script>
    # TODO: Your Python Code Here
    </py-script>

    <div id="input" style="margin: 20px;">
      <h1> Pyscript Inflation Monitoring Application</h1>
      Choose the paramters to use: <br/>
      <input type="number" id="s_year" name="params" value=1970 min="1970" max="2022"> <br> 
      <label for="s_year">Starting Year</label>
      <input type="number" id="e_year" name="params" value=2022 min="1970" max="2022"> <br>
      <label for="e_year">Ending Year</label>
      <select class="form-control" name="params" id="country">
            <option value="Switzerland">Switzerland</option>
            <option value="Italy">Italy</option>
            <option value="France">France</option>
            <option value="United Kingdom">United Kingdom</option>        
      </select>
      <label for="country">Country</label>
    </div>

    <div id="graph-area"></div>
  </body>
</html>

在这种情况下，我们首先导入库并定义一个绘图函数，用于创建整体通胀趋势图和年度变化图。使用 js 库，我们可以获取 HTML 文件中指定的输入参数，并调用我们的绘图函数。

最后，创建一个代理，以便检查最终用户是否随时间更改了任何参数，如果是的话，自动更新其在 Python 中存储的值和相应的图表。

import js
import pandas as pd
import numpy as np
from io import StringIO
import matplotlib.pyplot as plt
from pyodide.ffi import create_proxy

def plot(country, s_year, e_year):
    df = inf_df[country].loc[inf_df[country].index.isin(range(s_year, e_year))]
    annual_change = inf_df[country].diff().loc[inf_df[country].index.isin(range(s_year, e_year))]
    fig, (ax1, ax2) = plt.subplots(2)
    fig.suptitle('Overall inflation and annual change in ' + country)
    ax1.set_ylabel("Inflation Rate")
    ax2.set_ylabel("Annual Change")
    ax1.plot(df.index, df.values)
    ax2.bar(annual_change.index, annual_change.values, color=np.where(annual_change>0,"Green", "Red"))
    display(plt, target="graph-area", append=False)

s_year, e_year = js.document.getElementById("s_year").value, js.document.getElementById("e_year").value
country = js.document.getElementById("country").value
plot(str(country), int(s_year), int(e_year))

def get_params(event):
    s_year, e_year = js.document.getElementById("s_year").value, js.document.getElementById("e_year").value
    country = js.document.getElementById("country").value
    plot(str(country), int(s_year), int(e_year))

ele_proxy = create_proxy(get_params)

params = js.document.getElementsByName("params")
for ele in params:
    ele.addEventListener("change", ele_proxy)

一旦开发完成应用程序并将其存储在.html文件中，我们可以通过使用网页浏览器打开文件来立即启动它（图 7）。

图 7：PyScript 示例应用程序（图片由作者提供）。

部署

为了将我们的应用程序部署到网上，可能需要将我们的输入数据与应用程序一起存储在一个文件中（例如，Python 转换为 HTML 后，可能不再能够从 XLSX 中加载数据）。一种可能的方法是：

将最初导入的 3 个数据帧导出为 CSV 文件。
一次打开一个 CSV 文件，并将全部内容粘贴到一个变量中（如下所示）。
在与应用程序其余部分相同的文件中使用此设置（而不是import_data函数）。

from io import StringIO

inf_df = """TODO: PASTE YOUR CSV FILE HERE"""

csvStringIO = StringIO(inf_df)
inf_df = pd.read_csv(csvStringIO, sep=",").set_index('Date')

使用上述设置并将 Panel 和 Python Shiny 应用程序转换为 HTML 代码后，便可以在不需要支付任何服务器费用的情况下将应用程序托管到网上。

一种简单的方法是使用 GitHub Pages 并将我们的项目文件添加到在线仓库中。有关 GitHub Pages 的更多信息，请参见此处。

结论

在本文中，我们探讨了三种不同的选项，这些选项可以用来在不支付任何服务管理费用的情况下共享你的 Python 应用程序。虽然我们也看到这种方法存在一些固有的局限性，因此在设计更复杂的应用程序或处理大量数据时，可能不是最佳选择。

如果你对在线展示你的机器学习项目感兴趣（无需服务器架构），Tensorflow.js 和 ONNX 可能是你需求的两个优秀解决方案。

联系方式

如果你想跟进我最新的文章和项目，请在 Medium 上关注我(follow me on Medium)并订阅我的邮件列表。以下是我的一些联系方式：

参考文献

[1] 世界银行，全球通货膨胀数据库。访问网址：www.worldbank.org/en/research/brief/inflation-database。许可：知识共享署名 4.0 国际许可协议 (CC-BY 4.0)。

Python OOP 教程：如何创建类和对象

原文：towardsdatascience.com/python-oop-tutorial-how-to-create-classes-and-objects-c36a92b01552

关于在面向对象编程（OOP）中使用类和对象的简单指南

Yasmine Hejazi

·发表于 Towards Data Science ·阅读时间 6 分钟·2023 年 1 月 4 日

由 Taylor Heery 提供的照片，来源于 Unsplash

介绍

在 Python 编程中，一切都是对象。变量甚至函数都是对象。类是一个模具，用于创建对象。

想象一个冰棒托盘。 首先，你制造冰棒托盘以创建你所需的大小、形状和深度；这就是类。然后，你可以决定向冰棒托盘中倒入什么来冻结——也许你加入水并简单制作冰块，或者你加入不同种类的水果和果汁制作冰棒。你创建的每个冰棒都是一个对象，对象可以有不同的“数据”或口味。

本文将通过代码演示如何创建自己的类并在 Python 代码中使用它。类的不同组件可以分解为以下内容：构造函数、获取器和设置器、属性、装饰器、私有命名、类方法、属性和继承。

何时使用类/对象与模块：

当你需要多个具有类似行为但数据不同的独立实例时使用类
当你需要支持继承时使用类；模块不支持继承
如果你只需要一个东西，就使用模块
使用最简单的解决方案；模块通常比类更简单

类的介绍示例

以下是一个简单类的示例。在这个类中，我们看到三个组件：__init__ 方法，它是初始化方法或构造函数，一个称为 toss 的设置方法，以及一个称为 get_sideup 的获取方法。

class Coin():
  def __init__(self): # Constructor
    self.sideup = "Heads"

  def toss(self): # Method
    if(random.randint(0, 1) == 0):
      self.sideup = "Heads"
    else:
      self.sideup = "Tails"

  def get_sideup(self): # Method
    return self.sideup

如何在你的主 Python 脚本中使用它？在你的脚本中，你只需调用对象并将其设置为一个新变量。然后你可以开始使用它的组件。

my_coin = Coin() # Creates the object
my_coin.toss()
print("This side is up: ", my_coin.get_sideup())

让我们来分解一下。

类组件

对象初始化方法

当你看到一个方法具有特殊名称__init__时，你会知道这是对象初始化方法。这被称为构造函数，因为它在内存中构造了对象。当你创建类的对象时，这个方法会自动运行。

class Person():
  def __init__(self, name):
    self.name = name

我们上面的 __init__ 方法需要一个名为name的参数。当我们使用 Person 类创建对象时，我们应该像这样传入一个名字：Person("Bob")。

self 参数指定它指的是对象本身。记住，类是一个模板，我们可以使用这个模板来初始化（然后稍后修改）多个对象。例如，我们可以用 Person 类创建两个对象：

me = Person("Author")
me.name    # --> "Author"

you = Person("Reader")
you.name   # --> "Reader"

Getter 和 Setter

一些面向对象语言支持私有对象属性，这些属性不能从外部直接访问。因此，你需要getter和setter方法来读取和写入私有属性的值。

在 Python 中，所有属性和方法都是公开的。我们不需要 getter 和 setter。为了做到“Pythonic”，使用属性。

class Duck():
  def __init__(self, input_name):
    self.hidden_name = input_name # The user won't know to try duck.hidden_name

  def get_name(self): # Getter
    print("inside the getter") 
    return self.hidden_name

  def set_name(self, input_name): # Setter
    print("inside the setter") 
    self.hidden_name = input_name

  name = property(get_name, set_name)

最后一行将 getter 和 setter 方法定义为name属性的属性。现在它会在以下情况下调用 getter 和 setter 方法：

pet = Duck("Donald")
pet.name
  # --> inside the getter
  # --> "Harold"
pet.name = "Daffy"
  # --> inside the setter

装饰器

装饰器是另一种定义属性的方法（即我们上面做的事情）。

class Duck():
  def __init__(self, input_name):
    self.hidden_name = input_name # The user won't know to try duck.hidden_name

  @property 
  def name(self): # Getter
    print("inside the getter") 
    return self.hidden_name

  @name.setter
  def name(self, input_name): # Setter
    print("inside the setter") 
    self.hidden_name = input_name

  name = property(get_name, set_name)

隐私命名

首先在名称中使用两个下划线。这使得一旦你创建了对象，属性就无法在类定义外部访问。这也有助于防止子类意外覆盖属性。

在我们的 Duck 类中，代替使用 hidden_name，使用 __name。

self.hidden_name = input_name → self.__name = input_name

类方法

到目前为止，我们演示的都是实例方法。我们怎么知道？实例方法的第一个参数是self。当你调用实例方法时，调用只会影响你正在使用的对象的副本。

类方法影响整个类（因此影响所有对象副本）。类方法使用cls参数，而不是self参数。类方法可以通过使用类装饰器@classmethod来定义。

@classmethod
def count_objects(cls):
  print("The class has", cls.count, "objects")

静态方法是第三种类型的方法，它既不影响类也不影响其对象。它不使用 self 或 cls 参数。它只是为了方便而存在。

@staticmethod
def commercial():
  print("This product is brought to you by Medium.")

属性

实例属性是我们希望对象实例共享的外部行为。一个学生类可能具有以下属性：

方法：student.get_gpa()，student.add_class()，student.get_schedule()
数据：student.first_name，student.last_name，student.class_list

dir(object_instance) 给你提供该对象的属性列表。

object_instance.__dict__ 为你提供特定于该实例的所有实例属性（及其值）

类属性是类的属性，而不是类的实例的属性。这是类的所有对象共享的属性。假设我们想跟踪每个学生都是人类：

class Student():
  isHuman = True   # --> class attribute

  def __init__(self, ...):
    ...

如果你想了解更多，可以查看这个关于 Python 类属性的详尽指南。

继承

继承允许你创建一个类的层次结构，其中一个类继承了父类的所有属性和行为。然后，你可以在子类上进行自己的规格定义，这些定义不同于父类。

例如，我们有一个父类 Animal，它具有吃和睡的能力。然后我们创建一个子类 Cat，它继承了 Animal 的属性，并增加了自己特有的属性。

class Animal():
  def eat(self):
    print("Munch munch")

  def sleep(self):
    print("Zzz...")

class Cat(Animal):
  def meow(self):
    print("Meow!")

你需要做的就是将 Animal 类传递给 Cat。现在 Cat 类有了 eat() 和 sleep() 方法。你可以通过在 Cat 中定义方法来覆盖 eat 或 sleep 方法。你也可以通过 __init__() 方法覆盖任何方法。

子类可以添加父类中没有的方法（例如 meow()）。父类将不包含此方法。

当子类自己做某些事情但仍需要从父类中获取某些内容时，使用 super()：

class Person():
  def __init__(self, name):
    self.name = name

class EmailPerson(Person):
  def __init__(self, name, email):
    super().__init__(name)
    self.email = email

继承的好处：

允许子类重用父类的代码
不必从头开始创建类，你可以专门化或扩展一个类
父类可以定义一个接口，以允许子类与程序进行交互
允许程序员组织相关对象

总结

类是一个模具（冰棒托），对象是从该类中创建的（冰棒）
对象可以调用其类的实例方法（使用 self）来接收和更改数据
隐私命名有助于防止子类意外覆盖属性
类本身具有方法（使用 cls），你可以跟踪和操作该类的所有对象实例
继承允许我们扩展相似的类

Python OPP 以及为何 repr() 和 str() 重要

原文：towardsdatascience.com/python-opp-and-why-repr-and-str-matter-1cff584328f4

PYTHON 编程

这篇文章探讨了使用 repr() 和 str() 为 Python 类提供的各种面貌

## 使用我的推荐链接加入 Medium - Marcin Kozak

·发表于 Towards Data Science ·14 分钟阅读·2023 年 11 月 3 日

Python 类需要字符串表示，以便向用户和开发者提供比一堆字母更多的信息。图片由 Surendran MP 在 Unsplash 提供

Python 类有许多面貌。例如，你可以创建一个空类：

class MyClass:
    pass

它仍然可以有所用处，例如作为哨兵值。你可以添加一个 __init__() 方法：

class MyClass:
    def __init__(self, value):
        self.value = value

这仍然会是一个非常简单的类，但这次它将保持一个特定的值。

Python 类的一个极佳功能是它们可以被用作类型，如下所示：

def foo(x: MyClass, n: int) -> list[MyClass]:
    return [x] * n

记住，不实现 __init__() 方法并不意味着它不存在。实际上，我们上面重载了 __init__() 方法，而不仅仅是实现了它。这是 Python 类的另一个重要方面，你应该知道：你可以重载许多其他方法，如 __new__()、__eq__() 和 __setattr__()。如果你不重载这些方法，有些方法会有默认实现（如 __init__()、__new__()、__setattr__() 和 __eq__()），而其他方法则没有（如 __lt__() 和所有其他比较方法，除了 __eq__()、__getitem__()、__setitem__() 和 __len__()）。

一个类可以继承另一个类，如下所示：

class MyClass(dict):
    @staticmethod
    def say_hello(self):
        print("Hello!")

同样如上所述，它可以使用静态方法，也可以使用类方法。你可以创建混合类和抽象基类、单例模式，还可以做许多其他事情，有时非常有用。

Python 类有很多面向不同的特性，详细讨论每一种特性需要几年时间，我们将在未来的文章中进行探讨。在这篇文章中，我们将重点关注一个特定方面：__repr__() 和 __str__() 方法的区别和作用。

初看起来，你可能认为这是一个小话题，但实际上它非常重要。实现一个 Python 类很容易，但实现一个好的 Python 类则需要更多的努力。正是这些小细节使得一个熟练的 Python 开发者与普通开发者有所区别。

注意：为了运行 doctests，我使用了 Python 3.11。不要惊讶于较旧版本的 Python 可能会提供稍微不同的结果。如果你想了解更多关于 Python doctest 的内容，请阅读以下文章：

Python 文档测试与 doctest：简单方法

doctest 允许进行文档测试、单元测试、集成测试以及测试驱动开发。

towardsdatascience.com

`repr` 与 `str`

理论上，repr() 应该返回一个明确的对象字符串表示，从中你应该能够重建对象。另一方面，str() 应该返回一个人类可读的对象字符串表示。

因此，理论上，repr() 应该提供有关其所用对象的详细信息，而 str() 应该提供一个可读的字符串来解释对象是什么以及可能包含什么。例如，我们使用 str() 来查看交互式会话中的对象或用于日志记录。但当我们调试并需要更多细节时，repr() 是更好的选择。正如我们将在下一部分看到的，我们通常会间接调用这些函数，甚至可能不知道这一点——或者至少没有想到这一点。

我们在上面比较了 repr() 和 str() 函数。要在类中实现或重载它们，我们需要使用相应的方法，分别是 __repr__() 和 __str__()。如果一个类定义了 __repr__() 方法，当你调用 repr() 时，它会用于生成该类对象的字符串表示。str() 和 __str__() 也是如此。

我们很快就会看到这一点——首先让我们了解一下我提到的间接调用 repr() 和 str() 的含义。

`间接调用 repr()` 和 `str()`

有一个与这两个函数相关的秘密，了解它是很有帮助的。请考虑以下代码：

>>> class StrAndRepr:
...     def __repr__(self): return f"I am __repr__"
...     def __str__(self): return "I am __str__"
>>> str_and_repr = StrAndRepr()
>>> str_and_repr
I am __repr__
>>> print(str_and_repr)
I am __str__

注意最后两个调用。正如你所看到的，在 Python 会话中使用 print() 打印对象与仅使用对象名称之间可能会有所不同。

在 Python 会话中调用 print(obj) 和仅调用对象名之间的区别。图片由作者提供

下图总结了这一点：print(obj)调用str(obj)，而obj调用repr(obj)。

repr与str

上面，我解释了repr()和__repr__()以及str()和__str__()的概念。前一对应该提供比后一对更多的信息。

然而，实践中往往显示出不同的情况：

>>> class MyClass: ...
>>> inst = MyClass()
>>> inst.__repr__()
'<__main__.MyClass object at 0x7f...>'
>>> inst.__str__()
'<__main__.MyClass object at 0x7f...>'
>>> inst.__repr__() == repr(inst)
True
>>> inst.__str__() == str(inst)
True

如你所见，这两个方法的默认实现是相同的：

>>> str(inst) == repr(inst)
True

因此，即使是默认实现的__str__()和__repr__()，当你在 Python 类中没有重载这两个方法时，也违反了上述规则。此外，开发者可以重载这两个方法中的一个或两个，而在实际应用中，这也可能意味着违反这一规则。

当仅实现其中一个方法时会发生什么？为了展示这一点，我将实现以下四个类：

>>> class StrAndRepr:
...     def __repr__(self): return "I am repr of StrAndRepr"
...     def __str__(self): return "I am str of StrAndRepr"
>>> class OnlyStr:
...     def __str__(self): return "I am str of OnlyStr"
>>> class OnlyRepr:
...     def __repr__(self): return "I am repr of OnlyRepr"
>>> class NeietherStrNorRepr: ...

因此，我们定义了四个类：一个既没有__str__()也没有__repr__()，两个有其中一个，和一个两个都有。让我们看看如果我们对它们的实例调用str()和repr()会发生什么：

>>> str_and_repr = StrAndRepr()
>>> str(str_and_repr)
'I am str of StrAndRepr'
>>> repr(str_and_repr)
'I am repr of StrAndRepr'

>>> only_str = OnlyStr()
>>> str(only_str)
'I am str of OnlyStr'
>>> repr(only_str)
'<__main__.OnlyStr object at 0x7f...>'

>>> only_repr = OnlyRepr()
>>> str(only_repr)
'I am repr of OnlyRepr'
>>> repr(only_repr)
'I am repr of OnlyRepr'

>>> neither_str_nor_repr = NeietherStrNorRepr()
>>> str(neither_str_nor_repr)
'<__main__.NeietherStrNorRepr object at 0x7...>'
>>> repr(neither_str_nor_repr)
'<__main__.NeietherStrNorRepr object at 0x7f...>'

以下是上述doctest的结论：

实现既没有__str__()也没有__repr__()：对于两者，都会使用默认实现；它们是一样的，都提供类的名称和实例的地址。
实现__str__()和__repr__()：通常，这是一种推荐的方法。它使你的代码更具可读性和可维护性——尽管同时也更长。
仅实现__str__()：Python 会在str()中使用它，但对于repr()将使用默认实现。
仅实现__repr__()：Python 会将其用于str()和repr()。

那么，我应该实现什么呢？

这要看情况。最明显的结论是，如果你实现了一个复杂的类，你应该定义两个这些方法。这将给你更多的调试代码和更好的日志记录的机会。

然而，当你没有太多时间编程而截止日期临近时，你至少应该实现其中一个方法。不实现任何方法意味着类的字符串表示将包含很少的有用信息，因为它将包含类的名称和实例的地址。因此，只有在你确定类的名称是你需要的全部信息时才这样做。例如，在原型设计中，这通常是你需要的全部信息。

对于小类，实现其中一个方法可能就足够了，但一定要确保这确实足够。此外，你有多久会没有时间来实现像__str__()或__repr__()这样简单的方法？我知道这种情况可能会发生——但我认为这种情况不会比偶尔发生的多。说实话，在我超过五年的 Python 开发中，这种情况甚至没有发生过一次。

因此，我认为时间很少是一个问题。而空间，另一方面，可能是。当你的模块包含多个小类，每个类占用几行时，为所有这些类实现__repr__()和__str__()可能会使模块的长度增加一倍。这可能会带来很大差异，因此值得考虑是否需要这两个方法，如果不需要，应该实现哪个方法。

许多内置类使用相同的实现来处理__repr__()和__str__()，包括dict和list。许多来自知名附加包的类也是如此，一个来自数据科学领域的完美例子是pandas.DataFrame。

让我们总结一下我们的讨论，形成一套规则。说实话，尽管我已经使用它们很多年了，这还是我第一次想到将它们写下来。我希望你能在编码实践中找到它们的用处，以决定是否实现__repr__()和__str__()这两个方法中的一个或两个，或者都不实现。

当你编写一个原型类且不打算使用它的字符串表示时，可以忽略__repr__()和__str__()。然而，对于生产代码，最好再三考虑。在开发过程中，除非需要通过类的实例调试代码，否则我通常会跳过这些方法。
当你的类生成具有多个属性的复杂实例时，我通常会考虑同时实现__repr__()和__str__()。然后：（i）__str__()方法应提供一个简单的人类可读的字符串表示，这可以通过使用print()和str()函数打印实例来获得。（ii）__repr__()方法应提供尽可能多的信息，包括重建类实例所需的所有信息；这可以通过repr()函数或在交互式会话中输入实例名称来获得。
如果你的类需要用于调试，无论是否实现__str__()，都要使其__repr__()方法尽可能详细。这并不意味着__repr__()的输出必须异常长；而是，在这种情况下，包含调试所需的任何信息。
当一个类需要一个人类可读的字符串表示，并且同时你需要实现详细的__repr__()方法时，实现__str__()。
如果一个类需要一个人类可读的字符串表示，但你不需要详细的__repr__()，则仅实现__repr__()。这将使用户从两个方法中获得一个不错的人类可读字符串表示，并避免看到默认的__repr__()表示，通常这没有太大价值。在仅实现__repr__()时，保持返回字符串格式的一致性很重要，这将使用户更容易阅读和理解str()和repr()的输出。

实现`repr()`和`str()`

现在我们知道了何时实现这两种方法，值得考虑如何实现它们。只有两个规则是你必须遵守的，而且幸运的是，这两个规则都很简单。

第一个处理方法的参数，另一个处理其返回值的类型。因此，我们可以使用这两种方法的预期签名来展示它们，即：

def __repr__(self) -> str:
    ...

def __str__(self) -> str:
    ...

这就全部了吗？

基本上，是的——但是……我写这些是预期的签名，但实际上，你应该将它们视为必需的签名。下面你会明白为什么。

为了了解原因，你应该知道一个有趣的事情，我猜很多 Python 用户可能不知道。就我而言，我在很长一段时间内也不知情。

这个规则适用于当你希望类的__str__()与str()和print()配合使用，而__repr__()与repr()以及在会话中使用实例名称时。为此，让我们实现一个具有非可选参数的__str__()的类：

>>> class StrWithParams:
...     def __str__(self, value):
...         return f"StrWithParams with value of {value}"

这个方法会工作吗？

>>> inst = StrWithParams()
>>> inst.__str__(10)
'StrWithParams with value of 10'

嘿，它确实适用！那我怎么刚才写了__str__()应该不接受参数呢？

理论上不会——尽管它是可能的。这在一个不切实际的条件下才会发生，即唯一调用该方法的方式是inst.__str__(10)（值本身并不重要）。如上所述，我们看到过这样的调用，它确实有效。但接下来我们将看到三个痛苦的失败：

>>> str(inst, value=10)
Traceback (most recent call last):
    ...
TypeError: 'value' is an invalid keyword argument for str()
>>> print(inst)
Traceback (most recent call last):
    ...
TypeError: StrWithParams.__str__() missing 1 required positional argument: 'value'
>>> print(inst, value=10)
Traceback (most recent call last):
    ...
TypeError: 'value' is an invalid keyword argument for print()

因此，使用参数的__str__()不是语法错误，但它绝对是一个静态错误。

来自 Visual Studio Code 的截图。Sonarlint 显示__str__()不应该接受参数。图片由作者提供

这绝对是一个静态错误，但如上所示，一个更大的问题是，使用参数的__str__()很可能会在运行时引发TypeError异常，如上所示。

在会话中直接键入inst会调用repr()，由于我们没有实现它，使用了默认实现：

>>> inst
<__main__.StrWithParams object at 0x7f...>

但如前所示，调用print(inst)失败了，原因很简单，因为没有直接提供非可选参数value的方式。

现在，让我们转到另一个问题，即返回一个非字符串类型的对象。这似乎是一个静态错误。我们考虑两种版本：未类型化和类型化的类定义：

来自 Visual Studio Code 的截图。基于未类型化的类定义，Sonarlint 显示__str__()应该返回一个字符串。图片由作者提供

来自 Visual Studio Code 的截图。基于类型化的类定义，Mypy 显示__str__()应该返回一个字符串。图片由作者提供

因此，从__str__()方法返回非字符串对象绝对是一个静态错误——但这是否也会导致在运行时引发TypeError异常呢？

是的，会的：

>>> class StrNotStr:
...     def __str__(self):
...         return 10
>>> inst = StrNotStr()
>>> inst.__str__()
10
>>> str(inst)
Traceback (most recent call last):
    ...
TypeError: __str__ returned non-string (type int)

__repr__() 的规则是一样的：

>>> class ReprWithParams:
...     def __repr__(self, value):
...         return f"ReprWithParams with value of {value}"
>>> inst = ReprWithParams()
>>> inst.__repr__(10)
'ReprWithParams with value of 10'
>>> repr(inst, value=10)
Traceback (most recent call last):
    ...
TypeError: repr() takes no keyword arguments
>>> inst
Traceback (most recent call last):
    ...
TypeError: ReprWithParams.__repr__() missing 1 required positional argument: 'value'

>>> class ReprNotStr:
...     def __repr__(self):
...         return 10
>>> inst = ReprNotStr()
>>> inst.__repr__()
10
>>> repr(inst)
Traceback (most recent call last):
    ...
TypeError: __repr__ returned non-string (type int)

因此，请记住不要为 __repr__() 和 __str__() 使用参数，并记住它们都应返回字符串。但也值得记住，当你违反这两个规则中的任何一个时会发生什么。

自定义类示例

如上所述，当你实现一个复杂的自定义类时，通常应实现 __str__() 和 __repr__()，并且它们应有所不同。

在这个上下文中，“复杂”是什么意思？它可能意味着不同的东西，但在下面的例子中，它意味着类包含一些不需要在常规字符串表示中包含的属性，但我们可能希望在调试或日志记录时包含它们。

我们将实现一个流行的 Point 类，但我们会使它更复杂一些：

它的主要属性是 x 和 y，定义点的坐标。
它还有一个可选的 group 属性，用于定义实例的组成员身份；它可以是像著名的 Iris 数据集中的物种这样的组。
你还可以给类的实例添加评论。它可以是任何评论，例如“纠正组”，“双重检查坐标”或“可能的错误”。评论不会用于比较—只是作为关于特定点的信息来源；我们将在下面的代码中看到这一点。

这是 Point 类的实现：

from typing import Optional

class Point:
    def __init__(
        self,
        x: float,
        y: float,
        group: Optional[str] = None,
        comment: Optional[str] = None) -> None:
        self.x = x
        self.y  = y
        self.group = group
        self.comment = comment

    def distance(self, other: "Point") -> float:
        """Calculates the Euclidean distance between two Point instances.

        Args:
            other: Another Point instance.

        Returns:
            The distance between two Point instances, as a float.

        >>> p1 = Point(1, 2)
        >>> p2 = Point(3, 4)
        >>> p1.distance(p2)
        2.8284271247461903
        >>> p1.distance(Point(0, 0))
        2.23606797749979
        """
        dx = self.x - other.x
        dy = self.y - other.y
        return (dx**2 + dy**2)**.5

    def __str__(self) -> str:
        """String representation of self.

        >>> p1 = Point(1, 2, "c", "Needs checking")
        >>> p1
        Point(x=1, y=2, group=c)
        Comment: Needs checking
        >>> print(p1)
        Point(1, 2, c)

        When group is None, __str__() and __repr__() will
        provide different representations:
        >>> p2 = Point(1, 2, None)
        >>> p2
        Point(x=1, y=2, group=None)
        >>> print(p2)
        Point(1, 2)
        """
        if self.group is not None:
            return f"Point({self.x}, {self.y}, {self.group})"
        return f"Point({self.x}, {self.y})"

    def __repr__(self) -> str:
        msg = (
            f"Point(x={self.x}, y={self.y}, "
            f"group={self.group})"
        )
        if self.comment is not None:
            msg += (
                "\n"
                f"Comment: {self.comment}"
            )
        return msg

    def __eq__(self, other) -> bool:
        """Compare self with another object.

        Group must be provided for comparisons.
        Comment is not used.

        >>> Point(1, 2, "g") == 1
        False
        >>> Point(1, 2, "c") == Point(1, 2, "c")
        True
        >>> Point(1, 2) == Point(1, 2)
        False
        >>> Point(1, 2) == Point(1, 3, "s")
        False
        """
        if not isinstance(other, Point):
            return False
        if self.group is None:
            return False
        return (
            self.group == other.group
            and self.x == other.x
            and self.y == other.y
        )

if __name__ == "__main__":
    import doctest

    doctest.testmod()

让我们分析一下 __repr__() 和 __str__() 之间的区别：

细节的层次

如上所述，这种评论通常在类实例的常规字符串表示中不是必需的。因此，我们不需要在 __str__() 中包含它们。然而，当我们进行调试时，评论可以非常有用，尤其是当它们提供有关特定类实例的重要信息时。

这就是为什么我们应该在 __repr__() 中包含评论，但在 __str__() 中不包含评论的原因。请考虑这个例子：

>>> p1 = Point(1, 2, "c", "Needs checking")
>>> p1
Point(x=1, y=2, group=c)
Comment: Needs checking
>>> print(p1)
Point(1, 2, c)

更详细的图片

在我们的实现中，这两个方法提供了类实例的不同视图。比较

Point(x=1, y=2, group=c)
Comment: Needs checking

通过

'Point(1, 2, c)'

除了提供评论外，__repr__() 通过提供属性名称，提供比 __str__() 更详细的图片。在这个特定的类中，这可能差别不大，但当一个类有更多的属性需要包括在字符串表示中，并且它们的名称比这里更长时，差异可能会更加明显。即使在这里，__str__() 提供的信息也比 __repr__() 更简洁。

从 __repr__() 重建实例

我们也提到过这一点。如果可能的话，提供在 __repr__() 中所需的所有信息以重建实例是一个好的实践。在这里，__str__() 对我们来说还不够：

>>> str(p1)
'Point(1, 2, c)'
>>> p1_recreated_from_str = Point(1, 2, "c")
>>> p1
Point(x=1, y=2, group=c)
Comment: Needs checking
>>> p1_recreated_from_str
Point(x=1, y=2, group=c)

在这里，评论没有用于比较实例，因此 p1 == p1_recreated_from_str 返回 True 这并不重要：

>>> p1 == p1_recreated_from_str
True

这只是说明从用户的角度来看这两个实例是相等的。然而，从开发者的角度来看，它们并不相同：p1 不等于 p1_recreated_from_str。如果我们想要完全重建p1，我们需要使用其__repr__()表示形式：

>>> p1
Point(x=1, y=2, group=c)
Comment: Needs checking
>>> p1_recreated_from_repr = Point(
...     1, 2, "c", comment="Needs checking")
>>> p1_recreated_from_repr
Point(x=1, y=2, group=c)
Comment: Needs checking

结论

我希望阅读这篇文章能帮助你理解repr()和str()之间，以及__repr__()和__str__()之间的微妙差异。这样的细微差别可能对中级 Python 用户不是必需的，但如果你想成为高级 Python 用户或开发者，这正是你需要在日常编码中了解并使用的。

这只是冰山一角，但我不会仅仅停留在这里。我们之前讨论过 Python 的这些细微之处，未来的文章中我们会进一步探讨。

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里看到它们。如果你想加入 Medium，请使用下面的推荐链接：

作为一个 Medium 会员，你的一部分会费会分配给你阅读的作者，并且你可以完全访问每一个故事……

解释 Python ord() 和 chr() 函数

原文：towardsdatascience.com/python-ord-and-chr-functions-explained-dcb39944c480

在这篇文章中，我们将探讨如何使用 Python ord() 和 chr() 函数。

·发布于 Towards Data Science ·阅读时长 3 分钟·2023 年 1 月 12 日

由 Brett Jordan 提供的照片，刊登在 Unsplash

介绍
使用 ord() 将字符转换为 Unicode 代码点
使用 ord() 将字符串转换为 Unicode 代码点
使用 chr() 将整数转换为 Unicode 字符
结论

介绍

Python ord() 函数是一个内置函数，它返回指定字符的 Unicode 代码点。

Unicode 代码点是一个整数，用于表示 Unicode 标准中的字符。

ord() 函数的处理定义如下：

ord(character) -> Unicode code

其中 character 是一个 Unicode 字符。

Python chr() 函数是一个内置函数，它返回指定字符的 Unicode 代码点。

chr() 函数的处理定义如下：

chr(integer) -> Unicode character

使用 ord() 将字符转换为 Unicode 代码点

让我们尝试使用 ord() 函数来查找字母 A、B 和 C 的 Unicode 代码点：

#UCP of letter A
a = ord('A')
#UCP of letter B
b = ord('B')
#UCP of letter C
c = ord('C')

#Print values
print(a)
print(b)
print(c)

你应该得到：

65
66
67

每个整数代表一个 Unicode 字符。

你可以使用 ord() 函数查找其他字符的 Unicode 代码点，包括特殊字符。

使用 ord() 将字符串转换为 Unicode 代码点

注意 ord() 函数只能接受一个字符作为参数，如介绍中提到的：

ord(character) -> Unicode code

如果你尝试将其用于一个包含多个字符的字符串，你会得到一个 TypeError：

#UCP of string
x = ord('Python')

你应该得到：

TypeError: ord() expected a character, but string of length 6 found

那么我们如何将整个字符串转换为 Unicode 代码点呢？

我们需要逐个字符地处理它，有几种方法可以解决这个任务：

使用 Python 的map()函数
使用列表推导式

使用 ord() 和 map() 将字符串转换为 Unicode 代码点

使用Python map() 函数我们可以对字符串的每个元素应用 Python ord() 函数：

#Define a string
py_str = 'Python'

#UCP of string
ucp_vals = list(map(ord, py_str)

#Print UCP values
print(ucp_vals)

你应该得到：

[80, 121, 116, 104, 111, 110]

使用 ord() 和列表推导式将字符串转换为 Unicode 代码点

解决这个任务的另一种方法是使用 Python 中带有列表推导式的ord()函数：

#Define a string
py_str = 'Python'

#UCP of string
ucp_vals = [ord(char) for char in py_str]

#Print UCP values
print(ucp_vals)

你应该得到：

[80, 121, 116, 104, 111, 110]

使用 chr() 将整数转换为 Unicode 字符

你也可以通过使用chr()函数来逆转ord()函数的操作，它将一个 Unicode 代码点（以整数格式）转换为一个 Unicode 字符。

例如，让我们看看 97、98 和 99 的 Unicode 代码点代表了哪些字符：

#UCP of letter A
c1 = chr(97)
#UCP of letter B
c2 = chr(98)
#UCP of letter C
c3 = chr(99)

#Print values
print(c1)
print(c2)
print(c3)

你应该得到：

a
b
c

结论

在这篇文章中，我们探讨了如何使用 Python 的ord()和chr()函数。

现在你知道了基本功能，你可以通过与其他可迭代的数据结构一起练习，以应对更复杂的用例。

如果你有任何问题或对某些编辑有建议，请随时在下方留言，并查看更多我的Python 函数教程。

原文发布于 https://pyshark.com 于 2023 年 1 月 12 日。

Python Pandas 到 Polars：数据过滤

原文：towardsdatascience.com/python-pandas-to-polars-data-filtering-a67ccb70a8b3

你可能需要尽快做出转变

Soner Yıldırım

·发布在 Towards Data Science ·5 分钟阅读·2023 年 4 月 18 日

照片由 Daphné Be Frenchie 拍摄，发布在 Unsplash

我非常欣赏 Pandas。我从开始学习数据科学的第一天起就一直在使用它。Pandas 在数据清洗、预处理和分析的大多数任务中已经绰绰有余。

我对 pandas 唯一的不满是在处理大数据集时。Pandas 进行内存分析，所以当数据量变得非常大时，它的性能开始下降。

另一个与数据大小相关的缺点是某些操作会产生中间副本。因此，为了能够高效地工作，数据集应相对较小于内存。

对于如此大的数据集，存在不同的替代方案。最近获得显著人气的替代方案之一是 Polars。

有大量文章关注 Polars 与 pandas 的速度比较，但很少有从实际角度解释如何使用 Polars 执行常见的数据清洗和处理操作的文章。

在这一系列文章中，我将向你展示一些常用 Pandas 函数的 Polars 版本。第一个主题是数据过滤操作。在开始示例之前，让我们简要提及一下 Polars 的优势。

Polars 提供了什么？

Polars 是一个用于 Rust 和 Python 的 DataFrame 库。

Polars 利用你计算机上的所有可用核心，而 pandas 仅使用单个 CPU 核心来执行操作。
Polars 相较于 pandas 更加轻量，并且没有依赖项，这使得导入 polars 的速度非常快。导入 polars 只需 70 毫秒，而导入 pandas 需要 520 毫秒。
Polars 进行查询优化，以减少不必要的内存分配。它还能够以流式方式部分或完全处理查询。因此，polars 可以处理比机器上可用 RAM 更大的数据集。

使用 pandas 和 polars 进行数据过滤

我们将通过几个示例来学习如何过滤 polars DataFrames。我们还将看到相同操作的 pandas 版本，以便于从 pandas 过渡到 polars。

首先，我们将创建一个 DataFrame 来进行操作。我们将使用我准备的示例数据集。你可以从我的数据集仓库下载。

# pandas
import pandas as pd

# read csv
df_pd = pd.read_csv("datasets/sales_data_with_stores.csv")

# display the first 5 rows
df_pd.head()

pandas DataFrame 的前 5 行 (图片由作者提供)

# polars
import polars as pl

# read_csv
df_pl = pl.read_csv("datasets/sales_data_with_stores.csv")

# display the first 5 rows
df_pl.head()

polars DataFrame 的前 5 行 (图片由作者提供)

pandas 和 polars 都有相同的函数来读取 csv 文件并显示 DataFrame 的前 5 行。Polars 还显示了列的数据类型和输出的形状，我认为这是一个很有用的附加功能。

示例 1：按数值过滤

让我们过滤价格高于 750 的行。

# pandas
df_pd[df_pd["cost"] > 750]

# polars
df_pl.filter(pl.col("cost") > 750)

我将仅展示 pandas 或 polars 版本的输出，因为它们是相同的。

(图片由作者提供)

示例 2：多个条件

pandas 和 polars 都支持按多个条件过滤。我们可以使用“and”和“or”逻辑来组合这些条件。

让我们过滤价格大于 750 且商店值为 Violet 的行。

# pandas
df_pd[(df_pd["cost"] > 750) & (df_pd["store"] == "Violet")]

# polars
df_pl.filter((pl.col("cost") > 750) & (pl.col("store") == "Violet"))

(图片由作者提供)

示例 3：isin 方法

pandas 的 isin 方法可以用来将行值与一组值进行比较。当条件由多个值组成时，它非常有用。polars 版本的方法是“is_in”。

我们可以按照如下方式选择 PG1、PG2 和 PG3 的行：

# pandas
df_pd[df_pd["product_group"].isin(["PG1", "PG2", "PG5"])]

# polars
df_pl.filter(pl.col("product_group").is_in(["PG1", "PG2", "PG5"]))

输出的前 5 行：

(图片由作者提供)

示例 4：选择部分列

要选择一部分列，我们可以将列名列表传递给 pandas 和 polars DataFrames，如下所示：

cols = ["product_code", "cost", "price"]

# pandas (both of the following do the job)
df_pd[cols]
df_pd.loc[:, cols]

# polars
df_pl.select(pl.col(cols))

输出的前 5 行：

(图片由作者提供)

示例 5：选择部分行

我们可以使用 loc 或 iloc 方法来选择 pandas 的部分行。在 polars 中，我们使用非常类似的方法。

这是一个简单的示例，选择第 10 行到第 20 行之间的行：

# pandas
df_pd.iloc[10:20]

# polars
df_pl[10:20]

要选择相同的行但仅选择前三列：

# pandas
df_pd.iloc[10:20, :3]

# polars
df_pl[10:20, :3]

如果我们想通过名称选择列，可以使用 pandas 中的 loc 方法。

# pandas
df_pd.loc[10:20, ["store", "product_group", "price"]]

# polars
df_pl[10:20, ["store", "product_group", "price"]]

示例 6：按数据类型选择列

我们还可以选择特定数据类型的列。让我们做一个选择具有 64 位整数（即 int64）数据类型的列的示例。

# pandas
df_pd.select_dtypes(include="int64")

# polars
df_pl.select(pl.col(pl.Int64))

输出的前 5 行：

(图片由作者提供)

我们做了几个示例来比较Pandas和Polars之间的过滤操作。总体而言，Polars与Pandas非常相似，但在某些情况下采用了类似于Spark SQL的方法。如果你对使用Spark SQL进行数据清洗和操作很熟悉，你会发现这些相似之处。

话虽如此，考虑到在处理大型数据集时Polar的效率，它可能很快成为取代Pandas进行数据清洗和操作任务的有力候选者。

你可以成为 Medium 会员 以解锁我所有的写作内容，以及 Medium 的其他内容。如果你已经是会员了，请不要忘记 订阅 ，以便在我发布新文章时收到电子邮件。

感谢阅读。如果你有任何反馈，请告诉我。

Python 怪癖：了解如何通过一个不返回任何东西的函数来修改变量

原文：towardsdatascience.com/python-quirks-understand-how-a-variable-can-be-modified-by-a-function-that-doesnt-return-anything-343a40cc6923

深入了解 Python 如何传递参数和可变性，以防止意外错误

Mike Huls

·发布于 Towards Data Science ·8 分钟阅读·2023 年 4 月 13 日

跟踪意外的错误（图片来自 cottonbro studio on Pexels)

在这篇文章中，我们将戴上侦探帽，解开一个“Python 神秘”。在这一集里，我们将了解一个不返回值的函数如何改变一个变量。（下面有示例）。不仅如此：它只对某些类型的变量‘有效’。此外，这种行为很容易让人陷入陷阱，因此了解其原因非常重要。

我们将重点理解神秘背后的机制。更好地理解 Python 不仅会让你成为更优秀的开发者，还会节省你解决难以理解的错误的沮丧。让我们开始编程吧！

神秘——一个例子

首先让我们更深入地分析一下我们的“Python 神秘”：假设我们有两个函数：

接受一个变量
修改该变量
不要返回 该变量

def change_string(input_string:str) -> None:
    """ Notice that this functions doesn't return anything! """
    input_string += 'a'

def change_list(input_list:list) -> None:
    """ Notice that this functions doesn't return anything! """
    input_list.append('a')

对于这两个函数，我们定义一个变量，打印出来，调用函数并传递变量，然后再次打印出来

my_str = 'hello'
print(my_str)                        # 'hello'
change_string(input_string=my_str)
print(my_str)                        # 'hello'

my_list = ['hello']
print(my_list)                       # ['hello'] 
change_list(input_list=my_list)
print(my_list)                       # ['hello', 'a'] !?

发生了什么？为什么my_list变量改变了，而my_str变量没有？尽管这些函数没有返回任何东西！我们有三个问题，将在三个相应的章节中解答：

函数如何“访问”变量？
为什么列表被修改而字符串没有改变？
我们如何防止这种行为？

## 用两行代码线程化你的 Python 程序

通过同时做多件事来加快你的程序

towardsdatascience.com

1. 函数如何访问变量

为了弄清楚这一点，我们需要理解变量是如何进入函数的：我们需要了解 Python 是如何将变量传递给函数的。有很多种方法可以做到这一点。为了理解 Python 如何将变量传递给函数，我们首先需要了解 Python 如何在内存中存储值。

1.1 Python 如何存储变量

你可能会认为当我们定义一个变量时，比如：person = 'mike'，内存中有一个名为 ‘person’ 的对象，其值为 ‘mike’（参见下面的图片）。这只是部分正确。

变量在 Python 和其他语言（例如 C）的内存存储方式（由作者专业绘制）

Python 使用引用。它在内存中创建一个对象，然后创建一个名为 ‘person’ 的引用，指向内存中的对象，具体的内存地址和值是 ‘mike’。可以把它看作是在对象上挂一个标签，这个标签上写着变量的名字。

如果我们做类似这样的操作：person2 = person，我们不会在内存中创建一个新对象，只是创建了一个名为‘person2’的新引用，指向已经存在的内存中的对象：

创建一个新的引用，指向相同的对象（图片由作者提供）

重新定义 person2 = ‘bert' 将导致 Python 在内存中创建一个新对象，并将名为“person2”的引用指向那里：

1.2 Python 是传递对象还是引用给函数？

理解一个关键点是，当我们调用 somefunction(person) 时 我们并没有给函数一个内存中的对象，而只是该对象的引用。

Python 变量是 “按引用” 传递的，而不是 “按值” 传递的。

这是解决谜团的第一个答案：我们给函数提供了一个内存中值的引用，而不是给函数提供一个 对象的副本。这就是为什么我们可以修改值 而不需要函数返回 任何东西。

现在让我们来看解决方案的另一部分：为什么有些变量可以被修改而有些不能。

## 参数与关键字参数：哪种方式在 Python 中调用函数最快？

timeit 模块的清晰演示

[towardsdatascience.com

2. 为什么有些值可以被改变而有些不能？ — 可变性

可变性是对象在创建后改变其值的能力。让我们首先了解一下可变变量：

IMMUTABLE                                  MUTABLE
int, float, decimal, complex (numbers)     list
bool                                       set
str                                        dict
tuple
frozenset

正如你所见，str是不可变的；这意味着它在初始化后不能改变。那么我们之前如何“修改”了我们的字符串（例如：input_string += ‘a'）。接下来的部分解释了当我们尝试更改和覆盖可变和不可变值时会发生什么。

## 为什么 Python 这么慢以及如何加速

看一看背后的机制，了解 Python 的瓶颈所在

[towardsdatascience.com

2.1 当我们尝试更改不可变值时会发生什么？

我们创建了一个名为my_str的变量，值为'a'。接下来，我们使用id函数打印变量的内存地址。这是引用指向的内存位置。

重申一下：在下面的例子中，我们创建了一个引用，名为my_str，它指向一个内存中的对象，该对象的值为'a'，并位于内存地址 1988650365763。

my_str = 'a'
print(id(my_str))    # 1988650365763
my_str += 'b'
print(id(my_str))    # 1988650363313

接下来，在第 3 行，我们将'b'添加到my_str中，并再次打印内存位置。如你所见，通过内存位置的变化，my_str在添加了'b'后变得不同。这意味着在内存中创建了一个新对象。

看起来 Python 似乎在更改字符串，但实际上它只是创建了一个新的内存对象，并将名为my_str的引用指向那个新对象。值为'a'的旧对象将被移除。查看这篇文章了解更多关于为什么 Python 不直接覆盖内存中的对象以及旧值如何被移除的内容。

2.2 当我们尝试更改可变值时会发生什么？

让我们用一个可变变量做同样的实验：

my_list= ['a']
print(id(my_list))    # 1988503659344
my_list.append('b')
print(id(my_list))    # 1988503659344

所以名为my_list的引用仍然指向内存中对象所在的同一位置。这证明了内存中的对象已经改变！还要注意，列表中的元素可以包含不可变类型。如果我们尝试更改这些变量，情况与之前所述相同。

2.3 当我们尝试覆盖变量时会发生什么？

正如我们在前面的部分所看到的，Python 不会覆盖内存中的对象。让我们看看实际效果：

# Immutable var: string
my_str = 'a'
print(id(my_str))            # 1988650365936
my_str = 'b'
print(id(my_str))            # 1988650350704

# Mutable var: list
my_lst = ['a', 'list']
print(id(my_lst))            # 1988659494080
my_lst = ['other', 'list']
print(id(my_lst))            # 1988659420608

如你所见，所有内存位置都发生了变化，包括可变和不可变的变量。这是 Python 处理变量的默认方式。注意我们并没有尝试改变可变列表的内容：我们定义了一个新的列表；我们并不是在改变它，而是将完全新的数据分配给my_lst。

2.4 为什么有些值是可变的而有些不是？

可变性通常是设计选择；一些变量保证内容保持不变并且有序。

## 入门 Cython：如何在 Python 中每秒进行超过 1.7 亿次计算

将 Python 的简便性与 C 的速度结合

towardsdatascience.com

解决方案：按引用传递和可变性的实际操作

在这一部分，我们将运用新学到的知识来解决谜题。在下面的代码中，我们声明了一个（可变的）列表，并将其（通过引用）传递给一个函数。然后函数能够更改列表的内容。我们可以通过以下事实看到这一点：内存地址在第 3 行和最后一行是相同的，而内容已经改变：

# 1\. Define list and check out the memory-address and content
my_list = ['a', 'list']
print(id(my_list), my_list)            # 2309673102336 ['a', 'list']

def change_list(input_list:list):
    """ Adds value to the list but don't return the list """
    print(id(input_list), input_list)  # 2309673102336 ['a', 'list']
    input_list.append('b')
    print(id(input_list))              # 2309673102336 ['a', 'list', 'b']

# 2\. Pass the list into our function (function doesn't return anything)
change_list(input_list=my_list)     

# 3\. Notice that the memory location is the same and the list has changed
print(id(my_list), my_list)            # 2309673102336 ['a', 'list', 'b']

这如何与不可变值一起工作？

好问题。让我们用一个不可变的元组来检查一下：

# 1\. Define a tuple, check out memory address and content
my_tup = {'a', 'tup'}
print(id(immutable_string), my_tup)        # 2560317441984, {'a', 'tup'}

def change_tuple(input_tuple:tuple):
    """ 'overwrites' the tuple we received, don't return anything """
    print(id(input_tuple))                 # 2560317441984, {'a', 'tup'}
    input_tuple = ('other', 'tuple')
    print(id(input_tuple))                 # 2560317400064, {'other', 'tup'}

# 2\. Pass the list into our function (nothing is returned from function)
change_tuple(input_tuple=immutable_tuple) 

# 3\. Print out memory location and content again
print(id(my_tup), my_tup)                  # 2560317441984, {'a', 'tup'}

由于我们不能改变值，我们必须在change_tuple函数中“覆盖”input_tuple。这并不意味着内存中的对象被覆盖，而是创建了一个新的对象。

然后我们修改在change_tuple函数作用域内存在的引用input_tuple，使其现在指向这个新对象。当我们退出函数时，这个引用会被清理，在外部作用域中，my_tup引用仍然指向旧对象的内存地址。

简而言之：“新”元组仅存在于函数的作用域中。

## 使用 OpenCV 毁灭《鸭子猎人》——初学者的图像分析

编写能打破所有《鸭子猎人》高分的代码

towardsdatascience.com

3. 如何防止不希望出现的行为

你可以通过给函数一个my_list.copy()来防止这种行为。这会先创建列表的副本，并将该副本的引用提供给函数，从而使所有更改都作用于副本而不是my_list：

# 2\. Pass the list into our function (nothing is returned from function)
change_list(input_list=my_list.copy())

## 完整指南：使用 Docker 和 Compose 的环境变量和文件

通过这个简单的教程，让你的容器既安全又灵活。

towardsdatascience.com

结论

我们讨论了可变性以及 Python 如何将变量传递给函数；这两个概念在设计 Python 代码时非常重要。通过这篇文章，我希望你避免难以理解的错误和大量的调试时间。

我希望这篇文章能像我期望的那样清晰，如果不是这样，请告诉我我可以做些什么来进一步澄清。同时，查看我在其他文章中讨论的各种编程相关主题：

编程愉快！

— Mike

附注：喜欢我在做的事吗？ 关注我!

[## 通过我的推荐链接加入 Medium - Mike Huls

阅读 Mike Huls 的每个故事（以及 Medium 上的其他成千上万的作者）。你的会员费直接支持 Mike…

mikehuls.medium.com](https://mikehuls.medium.com/membership?source=post_page-----343a40cc6923--------------------------------)

Python sorted() 函数解析

原文：towardsdatascience.com/python-sorted-function-explained-8e46bc002147

本文将探讨如何使用 Python 的 sorted() 函数

·发表于 Towards Data Science ·4 分钟阅读·2023 年 1 月 16 日

Andre Taissin 摄影，来自 Unsplash

介绍
基本排序使用 sorted()
使用 key 函数与 sorted()
使用sorted()对自定义对象进行排序
结论

介绍

Python sorted() 函数是用于排序可迭代对象的内置函数。

它使用 timsort 作为排序算法，该算法源自归并排序和插入排序。

Python sorted() 函数的语法是：

sorted(iterable, key=None, reverse=False)

其中：

iterable — 可以是任何可迭代的 Python 对象，如字符串、元组、列表、集合、字典等。
key — 可选参数，允许添加一个函数（例如 lambda 函数）作为排序的关键字。默认为 None。
reverse — 可选参数，允许反转可迭代对象（按降序排序），如果设置为 True。默认为 False。

sorted() 函数的过程定义为：

sorted(iterable) -> sorted list

基本排序使用 sorted()

sorted()函数有很多应用，下面我们来看几个基本的示例。

将数字列表按升序排序

最简单的例子是将一个列表的数字按升序排序：

#Create a list of numbers
nums = [3, 1, 9, 7, 5]

#Sort the list of numbers
s_nums = sorted(nums)

#Print sorted list
print(s_nums)

你应该得到：

[1, 3, 5, 7, 9]

将数字列表按降序排序

类似于之前的示例，我们将排序一个数字列表，但现在按降序排序：

#Create a list of numbers
nums = [3, 1, 9, 7, 5]

#Sort the list of numbers
s_nums = sorted(nums, reverse=True)

#Print sorted list
print(s_nums)

你应该得到：

[9, 7, 5, 3, 1]

排序一个字符串列表

Python 的 sorted() 函数也可以排序包含字符串元素的列表。

排序数字的过程非常简单直观，也可以扩展到排序字符串。

Python sorted() 函数根据每个字符串的第一个字符对字符串进行排序（例如，‘apple’ 排在 ‘orange’ 之前，因为 ‘a’ 在字母表中排在 ‘o’ 之前）。

让我们看一个例子：

#Create a list of strings
fruit = ['banana', 'pineapple', 'orange', 'apple']

#Sort the list of strings
s_fruit = sorted(fruit)

#Print sorted list
print(s_fruit)

你应该得到：

['apple', 'banana', 'orange', 'pineapple']

如你所见，字符串列表已经根据字符串的第一个字符按字母顺序（升序）排序了。

你还可以通过将可选的 reverse 参数设置为 True 来按降序对字符串列表进行排序。

注意： 你可以将上述功能扩展到其他可迭代对象，如元组、集合，以及其他对象。

使用带有 key 函数的 sorted()

对于更复杂的排序任务，我们可以在 sorted() 中使用 key 函数，这将作为排序的关键。

使用 key 函数有两种方式：

使用 lambda 函数作为 key 函数
使用自定义函数作为 key 函数

使用 lambda 函数与 sorted()

让我们创建一个包含单词的示例列表：

['Python', 'programming', 'tutorial', 'code']

现在，在这个示例中，我们希望根据元素的长度对列表进行排序，这意味着单词将按从短到长的顺序排列。

如你所料，我们将不得不使用 len() 函数来计算每个元素的长度，使用 lambda 函数可以将其作为排序的 key 函数：

#Create a list of words
words = ['Python', 'programming', 'tutorial', 'code']

#Sort the list of words based on length of each word
s_words = sorted(words, key=lambda x: len(x))

#Print sorted list
print(s_words)

你应该得到：

['code', 'Python', 'tutorial', 'programming']

使用自定义函数与 sorted()

让我们重用前面示例中的相同单词列表：

['Python', 'programming', 'tutorial', 'code']

现在，我们希望基于列表中每个元素的长度进行相同的排序，但使用自定义函数来计算每个单词的长度。

我们可以定义一个简单的函数来计算单词的长度，并将其作为 key 函数传递给 sorted()：

#Create a list of words
words = ['Python', 'programming', 'tutorial', 'code']

#Define a function to calculate length of a word
def calc_len(word):
    len_w = len(word)
    return len_w

#Sort the list of words based on length of each word
s_words = sorted(words, key=calc_len)

#Print sorted list
print(s_words)

你应该得到：

['code', 'Python', 'tutorial', 'programming']

这与我们使用 len() 和 lambda 函数作为 sorted() 的 key 函数时的结果是相同的。

使用 sorted() 对自定义对象进行排序

Python sorted() 函数的功能可以扩展到自定义对象（只要我们排序的是可迭代对象）。

例如，让我们创建一个具有两个属性 name 和 age 的自定义类 Person：

class Person:
    def __init__(self, name, age):
        self.name = name
        self.age = age
    def __repr__(self):
        return repr((self.name, self.age))

这个类将创建一个包含每个人信息的元组列表：

#Create a list of tuples
persons = [
    Person('Mike', 20),
    Person('John', 35),
    Person('David', 23),
]

#Print list of tuples
print(persons)

你应该得到：

[('Mike', 20), ('John', 35), ('David', 23)]

如你所见，这现在是一个元组的列表，这是一个 Python 可迭代对象，可以使用 sorted() 函数进行排序。

在这个例子中，我们希望根据每个人的 age 属性对列表进行排序：

#Sort the list of tuples based on age attribute
s_persons = sorted(persons, key=lambda person: person.age)

#Print sorted list
print(s_persons)

你应该得到：

[('Mike', 20), ('David', 23), ('John', 35)]

结论

在本文中，我们探讨了如何使用 Python sorted() 函数。

现在你了解了基本功能，你可以在其他可迭代的数据结构中练习使用它，以应对更复杂的用例。

如果你有任何问题或对某些修改有建议，请随时在下方留言，并查看更多我的Python 函数教程。

最初发表于 https://pyshark.com 于 2023 年 1 月 16 日。

Python 字符串数据类型解释

原文：towardsdatascience.com/python-string-data-type-explained-ff81a363fe08

在本文中，我们将探索 Python 字符串数据类型

·发表于 Towards Data Science ·阅读时间 6 分钟·2023 年 1 月 30 日

照片由 Gaelle Marcel 拍摄，来自 Unsplash

在本文中，我们将探索 Python 字符串数据类型。

介绍
在 Python 中创建字符串
在 Python 中访问字符串中的字符
在 Python 中查找字符串中的字符
在 Python 中切片字符串
在 Python 中迭代字符串
在 Python 中连接字符串
在 Python 中拆分字符串
结论

介绍

在 Python 中，字符串是不可变的字符序列，用于处理文本数据。

你应该了解关于字符串的关键点如下：

有序的
不可变的
可迭代的

学习每种编程语言中的数据类型对于理解代码和程序至关重要。

字符串数据类型在许多编程和机器学习解决方案中广泛使用，特别是在 Python 中用于存储一些格式化的文本数据。

在 Python 中创建字符串

在 Python 中，你可以通过 4 种不同的方式创建字符串：

通过用单引号括起字符
通过用双引号括起字符
通过用三重引号括起字符
通过使用 str() 构造函数

使用单引号创建字符串

这是在 Python 中创建字符串的最常见方式之一，非常简单：

#Single quotes
my_string1 = 'Hello World!'

print(my_string1)

你应该得到：

Hello World!

使用双引号创建字符串

这种创建字符串的方式与之前的方法相同，只是现在我们将使用双引号：

#Double quotes
my_string2 = "Hello World!"

print(my_string2)

你应该得到：

Hello World!

使用三重引号创建字符串

这种创建字符串的方式可能是最少见的，因为只有少数几种情况需要使用它。

用三重引号括起字符将产生与前两种方法相同的输出：

#Double quotes
my_string3 = '''Hello World!'''

print(my_string3)

你应该得到：

Hello World!

然而，使用三重引号的一个主要区别是，当你想创建一个多行字符串时，字符串的不同部分会在输出中显示在不同的行上。

例如：

#Double quotes
my_string4 = '''Hello
World!'''

print(my_string4)

你应该得到：

Hello
World!

使用 str() 构造函数创建一个字符串

在 Python 中，你也可以通过使用str()构造函数来创建字符串。

str(object) 构造函数接受任何对象并返回其字符串表示形式。

它返回：

如果object是内置的 Python 对象之一（int(), float(), complex(), bool()，以及其他），其字符串表示形式如下。
如果object为空，则为空字符串

让我们来看几个使用str()的不同数据类型的示例：

#String of int
str_int = str(5)

#String of float
str_float = str(1.5)

#String of complex
str_complex = str(1+3j)

#String of bool
str_bool = str(True)

#Print values
print(str_int)
print(str_float)
print(str_complex)
print(str_bool)

你应该得到：

5
1.5
(1+3j)
True

在 Python 中访问字符串中的字符

Python 列表的一个重要且非常有用的属性是它是一个带索引的序列，这意味着对于一个包含n个元素的列表，第一个元素的索引 = 0，第二个元素的索引 = 1，一直到n-1。

字符串中的字符可以通过其索引访问，索引也可以反转，这意味着第一个元素的索引 = — n，第二个元素的索引 = — n+1，一直到 -1。

为了更容易展示，请看下面的可视化图：

图片由作者提供

我们可以看到字符串中的‘P’字符有两个索引：0 和 -6。

让我们在 Python 中创建这个字符串，并使用上述索引打印出它的第一个字符：

#Create a string
my_string = 'Python'

#Print first character
print(my_string[0])
print(my_string[-6])

你应该得到：

P
P

在 Python 中查找字符串中的字符

使用索引，我们还可以找到字符串中字符的位置。

让我们重用之前示例中的字符串：‘Python’，并尝试找到‘y’字符在字符串中的位置。

使用 Python 字符串的.index() 方法，我们可以通过将字符作为参数传递给它来找到字符的位置：

#Create a string
my_string = 'Python'

#Find character
i = my_string.index('y')

#Print index
print(i)

你应该得到：

在 Python 中切片字符串

在前一节中，我们探讨了如何通过其精确索引从 Python 字符串中访问一个字符。

在本节中，我们将探讨如何访问一系列字符，例如前两个或最后两个。

记住，若要使用索引从字符串中检索字符，我们将索引放在方括号[]中。

切片使用相同的方法，但我们传递的是一个范围，而不是单一的索引值。

Python 中的范围是使用以下语法传递的[from : to]。

使用范围我们可以切片字符串以访问多个字符：

#Create a string
my_string = 'Python'

#First two characters
first_two = my_string[:2]

#Second to fourth characters
mid_chars = my_string[1:4]

#Last two characters
last_two = my_string[-2:]

#Print characters
print(first_two)
print(mid_chars)
print(last_two)

你应该得到：

Py
on
yth

注意，指定的字符在to索引处不包括在内，因为在 Python 切片算法中，它会遍历字符直到指定的to索引，并包括所有到达该索引但不包括to索引下的字符。

在 Python 中迭代字符串

Python 字符串是一个可迭代对象，这意味着我们可以遍历字符串中的字符。

可以使用 for() 循环执行简单的迭代：

#Create a string
my_string = 'Python'

#Iterate over a string
for char in my_string:
    print(char)

你应该得到：

P
y
t
h
o
n

在 Python 中连接字符串

在 Python 中，我们也可以将多个字符串连接（组合）在一起以创建一个单一字符串。

在 Python 中连接字符串的两种最流行的方法是：

使用 ‘+’ 操作符
使用 .join() 方法

使用 ‘+’ 操作符

使用 ‘+’ 操作符是连接多个字符串的最常见方法之一。

让我们看一个例子：

#Create strings
s1 = 'Python'
s2 = 'Tutorial'
sep = ' '

#Concatenate strings
new_string = s1 + sep + s2

#Pring new string
print(new_string)

你应该得到：

Python Tutorial

使用 .join() 方法

Python 字符串 .join() 方法允许将一个字符串列表连接起来以创建一个新字符串。

Python 字符串 .join() 方法的语法是：

separator.join([list of strings])

让我们看一个例子：

#Create strings
s1 = 'Python'
s2 = 'Programming'
s3 = 'Tutorial'
sep = ' '

#Concatenate strings
new_string = sep.join([s1, s2, s3])

#Pring new string
print(new_string)

你应该得到：

Python Programming Tutorial

在 Python 中拆分字符串

在 Python 中，正如我们可以连接多个字符串一样，我们也可以将一个字符串拆分成多个字符串。

有多种方法可以做到这一点，但最常用的方法是使用字符串的 .split() 方法，它根据分隔符（默认分隔符是：‘ ’）将字符串拆分成一个字符串列表。

Python 字符串 .split() 方法的语法是：

string.split(separator)

让我们看一个例子：

#Create a string
long_string = 'Apple Banana Orange Pineapple'

#Concatenate strings
new_strings = long_string.split()

#Pring new string
print(new_strings)

你应该得到：

['Apple', 'Banana', 'Orange', 'Pineapple']

你还可以根据你想要拆分字符串的内容指定自定义分隔符。

例如：

#Create a string
long_string = 'Apple, Banana, Orange, Pineapple'

#Concatenate strings
new_strings = long_string.split(', ')

#Pring new string
print(new_strings)

你应该得到：

['Apple', 'Banana', 'Orange', 'Pineapple']

结论

在本文中，我们探讨了 Python 布尔数据类型，包括它在布尔表达式和控制结构中的使用。

作为学习 Python 的下一步，考虑阅读以下文章，了解 Python 数据类型和数据结构：

最初发表于 https://pyshark.com 2023 年 1 月 30 日。

从 Python 到 Rust：破解 3 大障碍

原文：towardsdatascience.com/python-to-rust-breaking-down-3-big-obstacles-094eb99e331d

Python 高手到 Rust 新手——一名数据科学家的过渡故事

Dennis Bakhuis

·发表于 Towards Data Science ·阅读时间 8 分钟·2023 年 12 月 12 日

图 1：蛇和螃蟹。（螃蟹：Romina BM；蛇：Mohan Moolepetlu；由作者编排）。

我周围的每个人都知道我是一个忠实的🐍 Python 粉丝。我大约 15 年前开始使用 Python，当时我对Mathworks Matlab感到厌倦。尽管 Matlab 的想法看起来不错，但在掌握 Python后，我再也没有回头。我甚至在我的大学成为了 Python 的一种布道者，并“传播这个消息”。

编写代码的能力并不代表你是一个软件开发人员。

在我目前的雇主TenneT——荷兰和德国的大型传输系统运营商——我们正在与约 10 人的团队一起构建一个文档解析和验证解决方案。构建这样的解决方案，尤其是在团队中，比我想象的要困难得多。这也让我对软件工程的正确范式更感兴趣。我一直认为我的代码还不错，但在看到我软件工程师朋友的工作后：天哪，还有很多需要学习的地方！

当我学习强类型、SOLID 原则和一般编程架构等主题时，我也略微了解了其他语言以及它们如何解决问题。特别是Rust吸引了我的注意，因为我经常看到基于 Rust 的 Python 包（例如：Polars）。

为了更好地了解 Rust，我跟随了官方 Rustlings 课程，这是一个包含 96 个小编程问题的本地 Git 仓库。虽然它是完全可以做到的，但 Rust 与 Python 非常不同。Rust 编译器非常严格，无法接受也许的答案。以下是我认为 Rust 和 Python 之间的三个主要区别。

免责声明：虽然我对 Python 非常熟练，但我的其他语言有点生疏（双关语）。我仍在学习 Rust，并且可能有些部分理解不完全。

图 2：我们成功抵达终点（截图由作者提供）。

1. 所有权、借用和生命周期

所有权和借用可能是 Rust 编程语言中最基本的方面。它旨在确保内存安全，无需所谓的垃圾回收器。这是 Rust 的独特概念，我还没有在其他语言中看到过。

让我们从一个例子开始，我们将值42赋给变量answer_of_life。Rust 现在将在内存中分配一些空间（这稍微复杂一些，但我们现在保持简单），并将“所有权”附加到该变量。重要的是要知道一次只能有一个所有者。一些操作“转移所有权”，使得之前的变量引用无效。这通过防止双重释放内存、数据竞争和悬挂引用等问题来确保内存安全。

来源 1：所有权、所有权转移和作用域。

在其他语言中也使用的一个术语是作用域。这可以被视为代码“存在”的某种区域。每次代码离开一个作用域时，所有拥有所有权的变量都会被解除分配。这是 Python 中根本不同的东西。Python 使用垃圾回收器，在没有对变量的引用时解除分配变量。在来源 1的例子中，从变量s1到s2的所有权转移之后，变量s1就不再可用了。

作为 Python 用户，所有权可能会让人感到困惑，特别是在开始时确实是一个挑战。

在来源 1的例子中有些过于简单。Rust 强制要求你思考变量是如何创建的以及它应该如何被转移。例如，当你将参数传递给函数时，所有权可以被转移，如来源 2中所示：

来源 2：一个函数获取所有权，从而使原始变量无效。

仅仅转移所有权可能会很麻烦，甚至对于一些使用场景来说可能无法实现，因此 Rust 提出了一个所谓的借用系统。变量通过借用同一个变量来避免转移所有权，而原变量仍然是所有者。默认情况下，借用的变量是不可变的，即只读，但通过添加 mut 关键字，借用可以变成可变的。虽然可以有无限多个不可变借用，但只允许有一个可变借用。在源 3中，我展示了两个不可变借用和一个可变借用的例子。当函数超出作用域时，所有变量将被移除。

源 3：两个不可变和一个可变借用。

生命周期是 Rust 中与借用和所有权相关的概念，帮助编译器强制执行引用有效的时长。你可能会遇到创建一个使用两个借用的结构或函数的情况。这意味着现在函数或结构的结果可能依赖于之前的输入。为了使这一点更明确，我们可以通过注释生命周期来表达关系。在源 4中查看示例：

源 4：生命周期语法初看可能令人困惑，但最终会有所帮助。

所有权、借用和生命周期虽然不易处理，但确实迫使你编写更好的代码。至少，当你能够通过编译器的检查时（-:

2. Rust 不接受 `None` 作为答案

在 Python 中非常常见的事情在 Rust 中是不可能的：设置一个值为 None。这是一个与 Rust 的安全性、可预测性和零成本抽象目标一致的设计选择。

安全性方面类似于 Rust 的所有权、借用和生命周期方面：防止引用指向未分配的内存。通过不允许返回 None，将导致更高的可预测性，因为它迫使开发者显式处理可能缺少数字的情况。由于内存安全和可预测行为，Rust 可以实现所有高级语言功能而不会牺牲性能。

“None shall not pass” — 甘道夫灰袍

仅仅拒绝 None 会使 Rust 成为一个糟糕的语言，因此创作者提出了一个不错的替代方案：枚举 Option 和 Result。通过这些枚举，我们可以显式地表示值的存在或缺失。这也使得错误处理非常优雅。让我们考虑源 5中的 Option 示例。

源 5：使用 Option 返回可选答案并处理特殊情况。

等一下！ 你不是说没有 None 吗？这也是第一次让我感到困惑的地方，不过这里的 None 是一个特殊的枚举结构体，不接受参数。Some 也是一个特殊的结构体，但可以接受参数。我们的函数divide()返回这些可能的枚举值之一，随后我们可以检查它是什么，并据此采取行动。

没有 None 并且强制返回值使得 Rust 非常可预测。

主函数使用 match 结构来处理结果，这非常方便。它有点类似于其他语言中的 switch/case 结构（参见图 2 中 Guido 的回应）。match 检查是否是 Enum Some 或 Enum None 并执行相关操作。

图 3：Guido van Rossum 对 switch/case 的推文/反应。

Option 枚举是一种特殊的结构，用于处理可能返回值或不返回值的函数。对于可以返回值或错误的函数，Rust 有一个更为明确的枚举，称为 Result。它们的思想完全相同，主要区别在于 Option 有一个默认的“错误”值 None，而 Result 需要一个明确的“错误”类型。这个类型可以是简单的字符串，也可以是更明确的结构体来标识错误。在 来源 6 中，divide 函数使用 Result 重新编写。

来源 6：Result 枚举是一种很好的返回值或错误的方式。

Rust 开发者发现 match 结构有时可能有些繁琐，因此添加了 if let 和 while let 操作符。这些操作符类似于 match，但提供了一些漂亮的语法糖和丰富的装饰。甚至还有一个非常酷的 ? 操作符（这里未展示），它为丰富的装饰添加了一个樱桃在上面！

来源 7：if let 和 while let 正在创造美丽的语法糖！

使用 Python 时，我学会了使用 Optional 关键字来为结果类型定义值或 None。但我不得不承认 Rust 在这方面处理得非常精妙。我可以想象，Python 社区也会朝着这种风格发展，类似于强类型化的趋势。

3. 类在哪里？

Python 和 Rust 都可以用于两种编程范式：函数式编程（FP）和面向对象编程（OOP）。然而，Rust 实现这些所谓的对象的方式有所不同。在 Python 中，我们有一个典型的 class 对象，可以关联变量和方法。像许多其他语言（如 Java）一样，我们现在可以将这个方法作为基础，通过创建继承父类方法和变量的新对象来扩展功能。

在 Rust 中，没有 class 关键字，对象与 Python 的根本不同。Rust 使用特质系统来实现代码重用和多态，这可以带来与多重继承相同的好处，但没有多重继承所带来的问题。多重继承通常用于结合或共享多个类的各种功能，但它可能使代码变得复杂和模糊。一个著名的问题是钻石问题，如 来源 8 所示：

来源 8：钻石问题：不清楚使用了哪个方法。

虽然我认为我们可以很容易地解决这个问题，但如果我创建一种新的语言，我也会尝试以不同的方式来做。对于多重继承，目标主要是与其他对象共享相似的功能。在 Rust 中，通过使用 Trait 系统，这种方法做得更优雅。这种方法并不是 Rust 独有的，类似的系统也在 Scala、Kotlin 和 Haskell 中使用。

Rust 中的类是由枚举（Enums）和结构体（Structs）创建的。单独来看，这些只是数据结构，但我们可以向这些类添加功能。我们可以直接这样做，然而，通过使用特征，这些功能可以与多个“类”共享。使用特征的一个大好处是我们可以提前检查某个特征是否被实现。请参见以下示例：

Source 9: 为两个结构体添加一个共享特征。

在这个例子中，我们有一个Speaker特征，表示能够说话的角色。我们为两种类型Jedi和Droid实现了这个特征。每种类型都提供了自己对speak方法的实现。

introduce函数接受任何实现了Speaker特征的类型，并调用speak方法。在main函数中，我们创建了Jedi（Obi-Wan Kenobi）和Droid（R2-D2）的实例，并将它们传递给introduce函数，展示了多态性。

对我来说，作为一个 Pythonista 🐍，Rust 的特征系统非常令人困惑。我花了一段时间才欣赏到其语法的优雅。

总结

Rust 是一门非常酷的语言，但绝对不是一门容易学习的语言。Rustlings 课程让我了解了一些基础知识，但我远远没有足够熟练来承担大型项目。但我真的很喜欢 Rust 如何迫使你编写更好、更安全的代码。

Python 仍然是我的日常使用语言。在工作中，我们的文档管道完全用 Python 构建，而且在机器学习领域，我看不到所有的东西都换成另一种语言。Python 实在是太容易学习了，即使你是一个糟糕的开发者（当然不是我 (-😉），你也可以完成工作。

然而，Rust 的势头正在小幅上升。当然，一些包如 Polars 和 Pydantic 是使用 Rust 构建的，但 HuggingFace 也发布了他们自己的第一个用 Rust 构建的机器学习框架版本，名为 Candle。所以我认为学习一点 Rust 并不是一个坏主意！

我下一步（或实际上是当前）Rust 的旅程是使用 Rust 参与Advent of Code 2023。我还在研究 Leptos，并计划创建一个个人网站。还有很多东西需要学习！

如果你有任何意见，请告诉我！欢迎在LinkedIn上联系。

从 Python 到 Rust：你必须了解的虚拟环境的一切

原文：towardsdatascience.com/python-to-rust-everything-you-must-know-about-virtual-environments-c1cd0e529835

从 Python 专家到 Rust 新手——一位数据科学家的过渡故事

Dennis Bakhuis

·发表于 Towards Data Science ·7 分钟阅读·2023 年 12 月 26 日

图 1：货物仓库里的蛇和螃蟹。 (螃蟹; 蛇; 集装箱; 由作者编排)

从 Python 转到 Rust 的旅程就像把一个可靠的光剑换成一种新的刀刃——既令人兴奋又略显令人生畏。作为一个对 Python 的特性非常熟悉的数据科学家，进入 Rust 的世界是一个令人激动的新挑战。在本文中，我将分享我的经历和见解，比较这两种强大语言如何处理软件开发的一个关键方面——特别是关注（虚拟）环境和依赖管理。

在使用 Python 时，你首先学到的事情之一就是在所谓的虚拟环境中工作。这是一个管理依赖关系和隔离项目特定包的关键工具，以避免它们干扰其他项目或系统范围的 Python 安装。我几年前写了一篇关于如何管理 Python 的文章，但它仍然适用（它稍微变化了一些，涉及到micromamba和poetry ，如果需要，我可以写一篇关于这方面的文章）。

TLDR: 只需使用cargo，大多数情况下你就会没问题——Dennis

在使用rustup安装 Rust 之后，我的第一个问题是：我应该如何创建一个虚拟环境？ 对我来说，这是一个非常有意义的问题，因为 Rust 也可以使用许多包（称为 Crates）作为依赖项。事实上，cargo 非常优雅地解决了这个问题。以下是我在比较虚拟环境和 pip 与 Rust 的 cargo 构建系统时的发现。

免责声明：在我探索这些 Rust 领域时，我对语言的熟练程度可能仍有些生疏（玩笑话）。加入我，在这个学习冒险中揭开 Cargo 的细微差别，告别虚拟环境的熟悉拥抱。

1. 包的单一全局位置

Python 中的虚拟环境是使用像venv、virtualenv或conda这样的工具按项目创建的。在底层，这些系统创建一个单独的文件夹，该文件夹包含 Python 发行版及其所有包。现在，当我们使用 pip 或 conda 安装一个包时，该包及其所有依赖项会被安装在这个隔离的文件夹中。这些虚拟环境工具所做的事情类似于“chroot”，但针对 Python 安装。

解释型语言如 Python，依赖关系解析通常发生在运行时。

对于像 Python 这样的解释型语言，依赖关系解析通常发生在运行时。这意味着当 Python 脚本执行时，解释器需要动态解析和加载所需的依赖项。虚拟环境帮助管理这些依赖关系，为项目提供了一个干净的隔离，以避免冲突。以下是 Python 中的典型工作流程：

# create a virtual environment with a specific Python version
conda create -n my_environment python=3.12

# activate the virtual environment
conda activate my_environment# Install a package
pip install pandas

另一方面，Rust 有一个叫做cargo的包管理器，它使用一个全球唯一的位置，即没有用户特定的虚拟环境。它之所以能做到这一点，是因为 cargo 构建系统。当你使用 cargo 创建一个项目时，它围绕 Cargo.toml 文件展开。这是所谓的项目文件，定义了项目的详细信息，包括其依赖项及语义版本控制。使用 cargo add <crate> 你将依赖项添加到这个项目文件中，这些依赖项会在构建过程中下载。由于我们使用 cargo 来构建，并且 cargo 负责选择/下载正确的依赖项，因此不需要像 Python 虚拟环境中的 chroot-like 机制。

使用 cargo，一切都已经在虚拟环境中。

使用 cargo 创建新项目的工作流程看起来与 Python 非常相似，但在底层，它确实要聪明一些：

# create a new project folder using cargo
cargo new my_project

# go into the new project folder
cd my_project# Install a package
cargo add rand

在使用 cargo 构建期间，需要的正确版本的包从 Cargo.toml 读取并从全局注册表中加载（默认情况下在 $HOME/.cargo）。这主要是因为 Rust 是编译语言，而在运行时需要解析依赖的 Python 实现起来要困难得多。

2. 内置的依赖解析

看看 Python，没有内置的依赖解析系统。是的，使用 pip freeze 你可以获得已安装包的概述，但没有保证它也能捕获所有间接依赖。这意味着它不能捕获环境的完整复杂性。

Pip freeze 可能不足以捕获完整的环境

为了解决这个问题，其他语言如 Ruby 和 JavaScript 的依赖解析器开始使用所谓的 锁文件。这些锁文件捕获了所有依赖项及其依赖项的版本信息。Python 通过 Pipenv 或我个人最喜欢的 Python Poetry 获得类似的功能，但在下载 Python 时没有内置工具。

Rust 的 Cargo 通过使用锁文件具有内置的依赖解析功能。当你使用 cargo build 或 cargo run 时，它会检查 Cargo.lock 文件，以确保使用所有依赖项的确切版本。这个锁文件捕获了整个依赖树，包括传递依赖，形成了项目环境的全面且确定性的表示。

Cargo.lock 文件作为特定时间点的依赖快照。它包含了不仅是 Cargo.toml 文件中指定的直接依赖的准确版本信息，还有所有传递依赖的版本信息。

例如，如果项目 A 依赖于库 B 版本 1.0.0，而库 B 依赖于库 C 版本 2.1.0，则这两个版本都会记录在 Cargo.lock 文件中。这确保了所有参与项目的人员，无论其环境如何，都得到完全相同的依赖集合。Cargo 非常灵活，可以支持即使在同一编译目标中也能有多个版本的相同依赖。

图 2：在构建阶段，Cargo 收集所有必需的依赖。在运行阶段，依赖项已被链接到可执行文件中。（图由作者提供）。

使用 Cargo 的锁文件消除了开发者手动管理和同步不同环境中依赖版本的需要。它提供了一个一致且可重现的构建环境，使得协作和部署更加可靠。这是编译语言的一大优势，我们可以认为这是一种不公平的比较。

3. 包和 Rust 自身的兼容性

在软件工程中，兼容性是确保项目在各种环境下顺利运行的基石。当我们比较 Rust 的 cargo 与 Python 的 pip 时，可以清楚地看到 Rust 在这方面经过了精心考虑，而 Python 则是随着时间的推移逐渐发展到现在的状态。

Rust 中的兼容性不仅仅是一个考虑因素，它是一种文化承诺。社区非常重视主要版本的应用程序编程接口（API）兼容性。这在 cargo 包管理器中得到了清晰体现，它强制执行语义化版本控制。这使得开发环境可靠且可预测，其中依赖项预期能够良好配合。

与此相比，Python 生态系统中的兼容性有时可能是一个微妙的问题。升级 Python 或其依赖项可能会导致意外的问题，这些问题可能只在运行时显现。与 Rust 不同，Rust 在构建时更容易识别潜在问题，而 Python 开发者通常只有在部署后才会发现这些问题。

示例场景：将 Python 3.7 升级到 Python 3.9

想象一下你有一个运行在 Python 3.7 上的 Python 项目。该项目包含一个严重依赖字典的脚本。在 Python 3.7 中，字典的插入顺序作为实现细节被保留，但这并没有得到正式保证。你决定将 Python 环境升级到 Python 3.9，以便获得性能改进和新语言特性。

升级后，你会注意到你的脚本表现不同。在 Python 3.7 中，你可能无意中依赖了字典中项目的顺序来进行某些操作，即使这并未正式成为语言规范的一部分。如果你的代码依赖于字典中元素的顺序，并且在编写时没有意识到这种行为在 3.7 中并不被保证，那么如果在 Python 3.9 中实现有任何细微变化，它可能会表现得不可预测或中断。

这个例子说明了即使在同一主要版本的 Python（Python 3.x）内升级也可能导致意外的问题，特别是当代码依赖于未正式指定在语言中的行为时，而这些行为只是某一特定实现的副产品。在这个例子中，我们忽略了在次版本中添加的许多功能，这些功能常常改变了首选的工作流程。同时，也忽略了被弃用的函数。例如，一些方法和函数在 Python 中被移除，即使在次版本中。

Rust 对次版本中稳定 API 维护的强烈关注确保了兼容性，并减少了与升级相关的问题。其严格的语义版本控制和 Cargo 的依赖管理最小化了意外变化。这使得 Rust 的更新对于开发者来说更具可预测性和较少干扰。

总结

学习和使用 Rust 真的突显了每种语言在环境和依赖管理上的巨大差异。Python 的悠久历史促成了各种工具的发展，如 venv 和 Poetry，它们都在应对语言的动态特性和运行时依赖解决挑战。尽管这些工具有效，但它们往往更像是必要的变通方法，而不是语言的集成组件。

相比之下，Rust 通过 Cargo 的简化方法展示了其对更集成和用户友好体验的承诺。Cargo 高效的依赖管理，无需外部工具或‘PATH’操作，展示了 Rust 现代化的软件开发方法。

学习 Python 和 Rust 确实突显了每种语言的独特之处，并让我们窥见了软件开发的未来。我认为 Python 和 Rust 仍然有不同的目标，但可以看到它们越来越趋同。同时，随着机器学习社区逐渐向 Rust 迈进，Rust 的语言特性也被引入 Python，用于更成熟的产品。我对 Python 和 Rust 的未来充满期待！

我很期待听到你对从 Python 到 Rust 的这段旅程的看法和反馈。让我们在LinkedIn上联系，并继续交流！

Python 元组，真相大白，只有真相：你好，元组！

原文：towardsdatascience.com/python-tuple-the-whole-truth-and-only-the-truth-hello-tuple-12a7ab9dbd0d

PYTHON 编程

学习元组的基础知识及其使用方法

找到 Python 代码中的 bug：小细节作用大

·发布在Towards Data Science ·阅读时长 16 分钟·2023 年 1 月 21 日

元组通常被视为记录。照片由Samuel Regan-Asante提供，来自Unsplash

元组是 Python 中的一种不可变集合类型。它是 Python 中三种最流行的集合类型之一，另外两种是列表和字典。虽然我认为许多初学者和中级开发者对这两种类型了解颇多，但他们可能在真正理解元组是什么以及如何工作上存在问题。即使是高级 Python 开发者也不必了解所有关于元组的知识——鉴于这种类型的特殊性，我对此并不感到惊讶。

作为一个初学者甚至中级 Python 开发者，我对元组了解不多。让我给你一个例子；想象一下我写了一段类似于以下的代码：

from pathlib import Path

ROOT = Path(__file__).resolve().parent

basic_names = [
    "file1",
    "file2",
    "file_miss_x56",
    "xyz_settings",
]
files = [
    Path(ROOT) / f"{name}.csv"
    for name in basic_names
]

如你所见，我使用了列表字面量来定义basic_names列表——但为什么不使用元组字面量呢？它看起来会是下面这样：

basic_names = (
    "file1",
    "file2",
    "file_miss_x56",
    "xyz_settings",
)

关于元组，我们知道的主要事情是它是不可变的——代码本身表明basic_names容器将不会改变。因此，元组在这里似乎比列表更自然，对吧？那么，两种方法之间是否存在实际差异？比如性能、安全性或其他方面？

知识上的这些空白使我们成为更差的程序员。本文旨在通过帮助你了解 Python 中一个非常重要但许多人不了解的数据类型：元组，从而帮助你成为更好的程序员。我的目标是使这篇文章从实际角度尽可能详尽。因此，例如，我们不会讨论元组的 C 语言实现细节，但会讨论在 Python 中使用元组的细节。

元组是一个丰富的话题。因此，我将把关于它的知识分为两部分——和两篇文章。以下是我将在第一部分中覆盖的主题——也就是这里：

元组的基础。
使用元组：元组解包和元组方法。

因此，我们将在这里专注于基础知识。在第二部分，我将覆盖元组的更多高级主题，例如继承自元组、元组性能和元组推导。你可以在这里找到它：

[## Python 元组，完全的真相和唯一的真相：让我们深入探讨]

了解元组的复杂性

towardsdatascience.com

元组的基础知识

元组是一个值的容器，类似于列表。在他伟大的著作《流畅的 Python》中，L. Ramalho 解释说，元组是为了成为不可变的列表而创建的，这个术语很好地描述了元组的本质。但他也提到，元组不仅仅是不可变的列表；它们远不止于此。

特别是，元组可以用作没有字段名称的记录。这意味着我们可以有一个包含几个未命名字段的记录。当然，这种基于元组的记录只有在每个字段的含义明确时才有意义。

当你想在 Python 中使用元组字面量创建元组时，你需要使用圆括号 () 而不是方括号 []，就像创建列表时一样¹：

>>> x_tuple_1 = (1, 2, 3)
>>> x_tuple_1
(1, 2, 3)
>>> x_tuple_2 = ([1, 2], 3)
>>> x_tuple_2
([1, 2], 3)

这里，x_tuple_1 = (1, 2, 3) 创建了一个包含数字 1、2 和 3 的三元素元组；x_tuple_2 = ([1, 2], 3) 创建了一个包含两个值的两元素元组：一个列表 [1, 2] 和数字 3。如你所见，你可以在元组中使用任何类型的对象。你甚至可以创建一个空元组的元组：

>>> tuple((tuple(), tuple()))
((), ())

尽管，说实话，我不知道你为什么会想这样做。

好的，我们上面使用了元组字面量。创建元组的第二种方法是使用内置的 tuple() 类。只需提供一个可迭代对象作为参数，这将把可迭代对象转换为元组：

>>> tuple([1, 2, 5])
(1, 2, 5)
>>> tuple(i for i in range(5))
(0, 1, 2, 3, 4)

要访问元组中的值，你可以使用典型的索引：x_tuple_1[0] 将返回 1，而 x_tuple_2[0] 将返回一个列表 [1, 2]。注意，因为 x_tuple_2[0] 是一个列表，所以你可以使用它的索引来访问它的元素——因此，你将使用多个（在这里是双重）索引；例如，x_tuple_2[0][0] 将返回 1，而 x_tuple_2[0][1] 将返回 2。

列表和元组之间最大的区别在于列表是可变的，所以你可以改变它们，而元组是不可变的，所以你不能改变它们：

>>> x_list = [1, 2, 3]
>>> x_tuple = (1, 2, 3)
>>> x_list[0] = 10
>>> x_list
[10, 2, 3]
>>> x_tuple[0] = 10
Traceback (most recent call last):
    ...
TypeError: 'tuple' object does not support item assignment

如你所见，你不能对元组进行项赋值。这一特性使得元组比列表更不容易出错，因为你可以确定（实际上，几乎可以确定，我们将下文讨论）元组不会改变。然而，你可以确定的是，它们的长度不会改变。

有一个关于元组的常见面试问题：由于元组是不可变的，你不能改变它们的值，对吗？ 对这个问题的回答是：嗯…

这是因为你可以改变元组中可变元素的值：

>>> x_tuple = ([1, 2], 3)
>>> x_tuple[0][0] = 10
>>> x_tuple
([10, 2], 3)
>>> x_tuple[1] = 10
Traceback (most recent call last):
    ...
TypeError: 'tuple' object does not support item assignment

所以，尽管元组是不可变的，但如果它们的元素不是，你可以改变这些元素，因此，至少间接地，你可以改变元组。这使得改变一个不可变的东西成为可能…

如果你感到困惑，至少要意识到你并不孤单。你只是其中之一。然而，这种不可变性至少在理论上是有意义的，所以让我解释一下这里发生了什么。

整个真相在于以下几点。像其他集合一样，元组不包含对象，而是包含对它们的引用；不可变意味着在这些引用方面是不可变的。因此，一旦创建，元组将始终包含相同的引用集合。

理论上，当一个元组引用的对象发生变化时，元组保持不变：它仍然是完全相同的元组，具有完全相同的引用。
实际上（也就是说，从我们典型/自然的角度来看），当一个元组引用的对象发生变化时，元组似乎已经改变：尽管引用完全相同，一个对象发生了变化，因此，从实际情况来看，元组看起来与变化前不同。但在理论上，元组（一个引用的集合）没有发生任何变化。

像其他集合一样，元组不包含对象，而是包含对它们的引用；不可变意味着在这些引用方面是不可变的。

好了，现在我们知道了元组的不可变性是如何工作的，我们应该记住也要以这种方式来看待元组。但知道某件事并不意味着习惯它会很容易。以这种方式思考不可变性并不容易。记住，从现在开始，你应该记住元组是对对象的不可变引用集合，而不是对象的不可变集合。元组包含的对象的值实际上可以改变——但对象必须保持不变……已经觉得头疼了吗？这只是开始…

让我们考虑一下典型的元组长度。然而，为了增加一些背景，我们应该考虑它在列表中的表现。我认为可以安全地说，短列表和长列表都经常使用。你可以通过多种方法创建列表，比如字面量、for循环、list()方法和列表推导。

元组是不可变的，它们并不像那样工作。你不能在for循环中更新它们（除非你在更新它们的可变元素）或在推导式中更新它们。你可以用两种方式创建一个元组，使用元组字面量，比如这里：

>>> x = (1, 56, "string")

或调用tuple()类（tuple()是一个可调用类）对一个可迭代对象：

>>> x = tuple(x**.5 for x in range(100))

我猜前一种用法要频繁得多。也许元组最常见的用法是从函数中返回值，特别是当返回两个或三个值时（你很少（如果有的话）会为十个值这么做）。

当元组字面量很短时，通常会省略括号：

>>> x = 1, 56, "string"

这种方法通常与 return 语句一起使用，但不仅限于此。带括号和不带括号的两种方式中哪一种更好？一般来说，没有哪一种更好；但这要视情况而定。有时，括号会使代码更清晰，有时则不需要括号。

请记住非括号元组，因为它们可能成为难以发现的错误来源；见这里：

即使是最小的字符也可能引发大问题

更好编程

简而言之，当你忘记在行末添加逗号时，你可能会将一个对象作为元组而不是单独的对象来使用：

>>> x = {10, 20, 50},

你可能认为 x 是一个包含三个元素的集合，但实际上它是一个包含一个元素的元组：

>>> x
({10, 20, 50},)

正如你所见，这一个单独的逗号放在右大括号后面，而不是前面，使得 x 成为了一个一元素的元组。

元组的实际应用

元组提供的方法比列表少，但仍然有不少。有些方法比其他方法更为人所知；有些方法甚至非常少为人知晓且使用得不频繁。在本节中，我们将探讨使用元组的两个重要方面：元组方法和元组解包。

解包

元组的一个极好的特性是 元组解包。你可以用它将一个元组的值一次性赋给多个变量。例如：

>>> my_tuple = (1, 2, 3,)
>>> a, b, c = my_tuple

在这里，a 将变为 1，b 将变为 2，而 c 将变为 3。

考虑以下示例：

>>> x_tuple = ([1, 2], 3)
>>> x, y = x_tuple
>>> x
[1, 2]
>>> y
3

你还可以使用带有星号 * 的特殊解包语法：

>>> x_tuple = (1, 2, 3, 4, 5)
>>> a, b* = x_tuple
>>> a
1
>>> b
[2, 3, 4, 5]

>>> *a, b = x_tuple
>>> a
[1, 2, 3, 4]
>>> b
5

>>> a, *b, c = x_tuple
>>> a
1
>>> b
[2, 3, 4]
>>> c
5

正如你所见，当你将星号 * 附加到一个变量名时，就像是在说：“将这个项及所有接下来的项解包到这个名字中。”所以：

a, b* 意味着将第一个元素解包到 a，所有剩余的元素解包到 b。
*a, b 意味着将最后一个元素解包到 b，所有之前的元素解包到 a。
a, *b, c 意味着将第一个元素解包到 a，最后一个元素解包到 c，所有中间的元素解包到 b。

当元组中的元素更多时，你可以考虑更多场景。想象一下你有一个包含七个元素的元组，而你对前两个和最后一个感兴趣。你可以用解包的方式将它们获取并赋值给变量，如下所示：

>>> t = 1, 2, "a", "ty", 5, 5.1, 60
>>> a, b, *_, c = t
>>> a, b, c
(1, 2, 60)

这里还要注意一点。我使用了 *_，因为我只需要提取这三个值，其他值可以忽略。这里，下划线字符 _ 正是表示这一点：我不关心这些元组中的其他值，因此让我们忽略它们。如果你使用名称，代码的读者会认为该名称在代码中被使用——但你的 IDE 也会对分配给一个在作用域中未被使用的名称而发出警告²。

元组解包可以用于各种场景，但当你赋值时，特别是从返回元组的函数或方法中获得值时，它特别有用。下面的例子展示了从函数/方法返回值中解包的有用性。

首先，让我们创建一个 Rectangle 类：

>>> @dataclass
... class Rectangle:
...     x: float
...     y: float
...     def area(self):
...         return self.x * self.y
...     def perimeter(self):
...         return 2*self.x + 2*self.y
...     def summarize(self):
...         return self.area(), self.perimeter()
>>> rect = Rectangle(20, 10)
>>> rect
Rectangle(x=20, y=10)
>>> rect.summarize()
(200, 60)

如你所见，Rectangle.summarize() 方法返回两个组织在元组中的值：矩形的面积和周长。如果我们想将这些值分配给名称，我们可以这样做：

>>> results = rect.summarize()
>>> area = result[0]       # poor!
>>> perimeter = result[1]  # poor!

然而，上述方法并不是一个好的选择，尤其是出于清晰性考虑，我们可以使用元组解包更有效地完成这个任务：

>>> area, perimeter = rect.summarize()
>>> area
200
>>> perimeter
60

如你所见，它更加清晰简洁：只需一行而不是三行。此外，它不使用索引来从元组中获取值。索引降低了可读性，使用名称而非位置会更好。我们将在下面的部分讨论，从 tuple 类继承和命名元组。但请记住，当一个函数/方法返回一个元组——这是一种相当常见的情况——你应该解包这些值，而不是直接使用元组索引分配它们。

另一个例子，也使用 dataclass³：

>>> from dataclasses import dataclass
>>> KmSquare = float
>>> @dataclass
... class City:
...     lat: float
...     long: float
...     population: int
...     area: KmSquare
...     def get_coordinates(self):
...         return self.lat, self.long
>>> Warsaw = City(52.2297, 21.0122, 1_765_000, 517.2)
>>> lat, long = Warsaw.get_coordinates()
>>> lat
52.2297
>>> long
21.0122

上述示例展示了元组解包的最常见用例。然而，有时我们可能需要从基于元组的嵌套数据结构中解包值。考虑以下例子。假设我们有一个如上所示的城市列表，每个城市由一个字典中的列表表示，而不是 dataclass：

>>> cities = {
...     "Warsaw": [(52.2297, 21.0122), 1_765_000, 517.2],
...     "Prague": [(50.0755, 14.4378), 1_309_000, 496],
...     "Bratislava": [(48.1486, 17.1077), 424_428_000, 367.6],
... }

如你所见，我们将城市的坐标组织成了列表中的元组。我们可以使用嵌套解包来获取这些坐标：

>>> (lat, long), *rest = cities["Warsaw"]
>>> lat
52.2297
>>> long
21.0122

或者我们可能还需要面积：

>>> (lat, long), _, area = cities["Warsaw"]
>>> lat, long, area
(52.2297, 21.0122, 517.2)

再次，我使用了下划线字符 _ 来分配我们不需要的值。

请注意，我们对 *args 所做的正是解包。通过将 *args 放在函数的参数中，你让用户知道他们可以使用任何参数：

>>> def foo(*args):
...     return args
>>> foo(50, 100)
(50, 100)
>>> foo(50, "Zulu Gula", 100)
(50, 'Zulu Gula', 100)

在这里，*args 将所有位置参数（而非关键字参数）收集到 args 元组中。这个 return 语句使我们能够查看 args 元组中的这些参数。

还有一点：解包不仅限于元组，你也可以将它用于其他可迭代对象：

>>> a, *_, b = [i**2 for i in range(100)]
>>> a, b
(0, 9801)
>>> x = (i for i in range(10))
>>> a, b, *c = x
>>> c
[2, 3, 4, 5, 6, 7, 8, 9]

元组方法

Python 初学者很快就会了解元组。随着时间的推移，他们会多了解一些，主要是它们的不变性及其后果。但许多开发者不知道tuple类提供的所有方法。说实话，在写这篇文章之前，当我认为自己是一个相当高级的开发者时，我也不知道这些方法。不过了解这些方法是好的——这一小节旨在帮助你学习这些方法。

这并不意味着你需要使用所有这些操作。但例如，记住可以在元组上使用就地操作及其结果是好的。这些知识足以让你回忆起，元组只有两种就地操作：就地拼接和就地重复拼接。

为了学习这些方法，我们再看看《流畅的 Python》。我们将找到一个比较列表和元组方法的漂亮表格，从中我们可以提取出元组的方法。因此，下面你将找到tuple类的完整方法列表，每个方法附有一个或多个简单示例。

获取长度：len(x)

>>> len(y)
7

拼接：x + y

>>> x = (1, 2, 3)
>>> y = ("a", "b", "c")
>>> z = x + y
>>> z
(1, 2, 3, 'a', 'b', 'c')

重复拼接：x * n

>>> x = (1, 2, 3)
>>> x * 3
(1, 2, 3, 1, 2, 3, 1, 2, 3)

反向重复拼接：n * x

>>> x = (1, 2, 3)
>>> 3 * x
(1, 2, 3, 1, 2, 3, 1, 2, 3)

就地拼接：x += y

>>> x = (1, 2, 3)
>>> y = ("a", "b", "c")
>>> x += y
>>> x
(1, 2, 3, 'a', 'b', 'c')

就地拼接的语法可能会暗示我们在处理相同的对象：我们从等于(1, 2, 3)的元组x开始；在拼接y之后，x仍然是一个元组，但包含了六个值：(1, 2, 3, "a", "b", "c")。由于我们讨论了元组的不变性，我们知道x之前和x之后是两个不同的对象。

我们可以通过以下简单测试轻松检查这一点。它使用两个对象的id：如果它们有相同的id，那么它们是同一个对象；但如果id不同，那么在就地拼接之前和之后的x是两个不同的对象。我们来做一下测试：

>>> x = (1, 2, 3)
>>> first_id = id(x)
>>> y = ("a", "b", "c")
>>> x += y
>>> second_id = id(x)
>>> first_id == second_id
False

两个id不同，这意味着在就地操作之后的x与之前的x是不同的对象。

就地重复拼接：x *= n

>>> x = (1, 2, 3)
>>> x *= 3
>>> x
(1, 2, 3, 1, 2, 3, 1, 2, 3)

我上面写的同样适用在这里：尽管我们在这里看到的只有一个名字，x，但实际上有两个对象：x之前的和x之后的。

包含：in

>>> x = (1, 2, 3)
>>> 1 in x
True
>>> 100 in x
False

计算元素出现的次数：x.count(element)

>>> y = ("a", "b", "c", "a", "a", "b", "C")
>>> y.count("a")
3
>>> y.count("b")
2

获取指定位置的项：x[i]（x.__getitem__(i)）

>>> y[0]
'a'
>>> y[4], y[5]
('a', 'b')

查找第一次出现的 element 的位置：x.index(element)

>>> y = ("a", "b", "c", "a", "a", "b", "C")
>>> y.index("a")
0
>>> y.index("b")
1

获取迭代器：iter(x)（x.__iter__()）

>>> y_iter = iter(y)
>>> y_iter # doctest: +ELLIPSIS
<tuple_iterator object at 0x7...>
>>> next(y_iter)
'a'
>>> next(y_iter)
'b'
>>> for y_i in iter(y):
...     print(y_i, end=" | ")
a | b | c | a | a | b | C |

支持使用 pickle 优化序列化：x.__getnewargs__()

这个方法不像上面那些方法那样直接使用。相反，它在 pickle 序列化过程中用于优化元组的序列化，如下面的玩具示例所示：

>>> import pickle
>>> with open("x.pkl", "wb") as f:
...     pickle.dump(x, f)
>>> with open("x.pkl", "rb") as f: 
...     x_unpickled = pickle.load(f)
>>> x_unpickled
(1, 2, 3)

在他那本精彩的书《流畅的 Python》（第 2 版）中，Luciano Ramalho 列出了 15 个列表有而元组没有的方法——但这个优化序列化的方法是元组独有的，是列表没有的唯一方法。

“元组”一词在不同语言中的表达。图片由作者提供。

结论

在这篇文章中，我们讨论了 Python 中最常见的集合类型之一——元组的基础知识。希望你喜欢这篇文章——如果喜欢，请注意，我们讨论的不仅仅是基础知识，还可以说是非争议性的。

然而，元组还有更多内容，其中一些内容并不像我们从这篇文章中学到的那样清晰。我们将在这篇文章的后续部分讨论这些内容。你会看到，元组并不像你读完这篇文章后可能想象的那样简单。在我看来，元组比任何其他内置类型都更具争议性。也许元组甚至被过度使用了——但在读完下一篇文章后，我让你自己决定。老实说，我对元组有些不满。实际上，我会对元组有点苛刻……甚至可能有些过头？

我希望我已经足够引起你的兴趣，让你阅读这篇文章的续集。你可以在这里找到它：

Python 元组，全面的真相与唯一真相：让我们深入探讨

了解元组的复杂性

towardsdatascience.com

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里查看。如果你想加入 Medium，请使用下面的推荐链接：

## 通过我的推荐链接加入 Medium — Marcin Kozak

阅读 Marcin Kozak 的每一个故事（以及 Medium 上的其他数千位作者的故事）。你的会员费直接支持……

## Python 文档测试，使用 doctest：简单的方法

脚注

¹ 请注意，在许多代码块中，如上面所示，我使用了doctest测试，以确保示例正确运行。你可以在模块的文档和这篇在Towards Data Science上发布的介绍文章中了解更多关于doctest的信息。

² 请注意，我写的是“在范围内”，而不是“在代码中”。这是因为虽然我们在这里不需要这些值，但我们可能在代码的其他地方，在某个其他范围内需要它们（例如，在另一个函数中）。在特定范围内使用特定解包只会影响这个范围；因此，我们可以在另一个范围内再次解包相同的可迭代对象，这种解包可能会有所不同。

在代码块中，你会发现 KmSquare 类型别名。我使用它来提高定义城市时浮点数的可读性。你可以在这里阅读更多关于类型提示和类型别名的内容。

资源

doctest 允许进行文档、单元和集成测试，以及测试驱动开发。

## Python 列表推导指南

了解列表推导（listcomps）、集合推导（setcomps）、字典推导等的复杂性…

## 找到 Python 代码中的 bug：小细节产生大问题

即使是最小的字符也可能引入大问题

## Fluent Python，第 2 版

Python 的简洁性使你可以迅速变得高效，但这通常意味着你并没有充分利用它的所有功能…

## Python 文档测试，使用 doctest：简单的方法

Python 元组，真相和唯一的真相：深入探讨

原文：towardsdatascience.com/python-tuple-the-whole-truth-and-only-truth-lets-dig-deep-24d2bf02971b

PYTHON PROGRAMMING

学习元组的复杂性。

·发表于 Towards Data Science ·阅读时间 24 分钟 ·2023 年 1 月 27 日

元组的不可变性可能令人困惑且令人头痛。照片由 Aarón Blanco Tejedor 提供，来源于 Unsplash

在上一篇文章中，我们讨论了元组的基础知识：

## Python Tuple, the Whole Truth, and Only the Truth: Hello, Tuple!

学习元组的基础知识及其使用方法

towardsdatascience.com

我向你展示了元组是什么，它提供了哪些方法，以及最重要的是，我们讨论了元组的不可变性。但元组远不止这些，这篇文章将对上一篇文章进行扩展。你将在这里学习元组类型的以下方面：

元组的复杂性：不可变性对复制元组的影响以及元组类型提示。
从元组继承。
元组性能：执行时间和内存。
元组相较于列表的优势（？）：清晰度、性能以及元组作为字典键的使用。
元组推导（？）
命名元组

元组的复杂性

元组最重要的复杂性可能就是它的不可变性。但由于这定义了这种类型的本质，即使是初学者也应该了解这种不可变性是如何工作的，以及它在理论和实践中的意义。因此，我们在上述提到的上一篇文章中讨论了这一点。在这里，我们将讨论元组的其他重要复杂性。

不可变性对复制元组的影响

这将会很有趣！

一位理论家可能会对我大喊，称只有一种元组的不可变性，那就是我们在上一篇文章中讨论的那个。好吧，这是事实，但……但 Python 本身区分了两种不同的不可变性！而 Python 必须做出这种区分。这是因为只有真正不可变的对象才是可哈希的。在下面的代码中，你会看到第一个元组是可哈希的，而第二个元组则不是：

>>> hash((1,2))
-3550055125485641917
>>> hash((1,[2]))
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
TypeError: unhashable type: 'list'

一个对象是否可哈希会影响到各种事情——这也是为什么 Python 区分可哈希和不可哈希的元组；前者是我称之为真正不可变的元组。我将展示 Python 如何处理这两种元组，包括元组复制的工作原理和将元组用作字典键的情况。

首先，让我们看看在元组复制中它是如何工作的。为此，我们创建一个完全不可变的元组，并使用所有可用的方法进行复制：

>>> import copy
>>> a = (1, 2, 3)
>>> b = a
>>> c = tuple(a)
>>> d = a[:]
>>> e = copy.copy(a)     # a shallow copy
>>> f = copy.deepcopy(a) # a deep copy

由于 a 是一个完全不可变的元组，原始元组 (a) 及其所有副本应该指向同一个对象：

>>> a is b is c is d is e is f
True

正如预期的那样——也应该是完全不可变类型的情况——所有这些名称都指向同一个对象；它们的 id 是相同的。这就是我所称的真正或完全不可变性。

现在我们用第二种类型的元组做同样的事情；也就是说，一个包含一个或多个可变元素的元组：

>>> import copy
>>> a = ([1], 2, 3)
>>> b = a
>>> c = tuple(a)
>>> d = a[:]
>>> e = copy.copy(a)     # a shallow copy
>>> f = copy.deepcopy(a) # a deep copy

从 b 到 e 的副本是浅复制，因此它们将引用与原始名称相同的对象：

>>> a is b is c is d is e
True

这就是我们需要深度复制的原因。深度复制应该覆盖所有对象，包括嵌套在内部的对象。由于 a 元组内部有一个可变对象，因此与之前不同的是，这次深度复制 f 将不会指向相同的对象：

>>> a is f
False

元组的第一个元素（索引 0）是 [1]，所以它是可变的。当我们创建 a 的浅复制时，元组 a 到 e 的第一个元素指向相同的列表：

>>> a[0] is b[0] is c[0] is d[0] is e[0]
True

但创建深度复制意味着创建一个新的列表：

>>> a[0] is f[0]
False

现在让我们看看这两种不可变性在将元组用作字典键时的工作差异：

>>> d = {}
>>> d[(1, 2)] = 3
>>> d[(1, [2])] = 4
Traceback (most recent call last):
    ...
TypeError: unhashable type: 'list'

所以，如果你想将一个元组用作字典键，它必须是可哈希的——也就是说，它必须真正不可变。

所以，如果有人告诉你 Python 元组只有一种不可变性，你会知道这并不完全正确——因为在不可变性方面有两种类型的元组：

完全不可变的元组，仅包含不可变元素；这在引用和值两个方面都表现为不可变性；
从引用角度看不可变但从值角度看可变的元组，即包含可变元素的元组。

如果不区分这两者，你将无法理解元组复制的工作原理。

元组类型提示

类型提示在 Python 中变得越来越重要。有些人说现代 Python 代码中没有类型提示是不可能的。正如我在另一篇文章中所写的那样，我不会在这里重复。如果你感兴趣，请阅读它：

[## Python 的类型提示：朋友、敌人，还是只是个头疼的问题？

类型提示在 Python 社区中的受欢迎程度不断上升。这会将我们引向何处？我们能做些什么来利用它……

betterprogramming.pub

在这里，我们简要讨论如何处理元组的类型提示。我将展示现代版本的元组类型提示，即 Python 3.11。由于类型提示在不断变化，请注意，并非所有旧版本的 Python 都能以相同的方式工作。

从 Python 3.9 开始，事情变得更简单，因为可以使用内置的 tuple 类型，并用方括号 [] 指示字段。以下是你可以做的几个示例。

tuple[int, ...]、tuple[str, ...] 等等

这意味着对象是 int / str / 等等元素的元组，长度不限。省略号 ... 表明元组可以有任意长度；无法固定长度。

tuple[int | float, ...] 如上所述，但元组可以包含 int 和 float 类型的元素。

tuple[int, int] 与上述不同，这个元组是两个整数的记录。

tuple[str, int|float] 再次是一个两项记录，第一项是字符串，第二项是整数或浮点数。

tuple[str, str, tuple[int, float]] 一个包含三项的记录，前两项是字符串，第三项是包含一个整数和一个浮点数的二元素元组。

tuple[Population, Area, Coordinates]

这是一个特定的记录，包含三种特定类型的元素。这些类型，Population、Area、Coordinates，是命名元组或先前定义的数据类型，或类型别名。正如我在上述文章中所解释的，使用这些类型别名比使用内置类型如 int、float 等更具可读性。

这些只是几个示例，但我希望它们能帮助你了解你可以用元组的类型提示做些什么。我只提到了 命名元组，因为我将在下面的另一个部分讨论这种类型。不过，请记住，在类型提示的背景下，命名元组也非常有用，因为借助命名元组，你可以获得一个自定义的类型别名，它也是一个数据容器——这是一个强大的组合。

从 `tuple` 继承

你可以从 list 继承，尽管有时从 collections.UserList 继承更好。那么，我们是否可以对元组做同样的事情？我们可以从 tuple 类继承吗？

基本上，忘掉创建类似元组的通用类型的想法。tuple没有自己的.__init__()方法，因此你不能像继承自列表那样调用super().__init__()。没有这一点，你几乎没有任何功能，因为tuple类继承的是object.__init__()。

然而，这并不意味着你不能从tuple继承。你可以，但不是为了创建通用类型，而是特定类型。你还记得City类吗？我们可以做类似的事情，但要注意，这可能并不有趣。

>>> class City(tuple):
...    def __new__(self, lat, long, population, area):
...        return tuple.__new__(City, (lat, long, population, area))

我们有一个类似元组的City类：

>>> Warsaw = City(52.2297, 21.0122, 1_765_000, 517.2)
>>> Warsaw
(52.2297, 21.0122, 1765000, 517.2)
>>> Warsaw[0]
52.2297

这个类确切地接受四个参数，既不多也不少：

>>> Warsaw = City(52.2297, 21.0122, 1_765_000)
Traceback (most recent call last):
    ...
TypeError: __new__() missing 1 required positional argument: 'area'
>>> Warsaw = City(52.2297, 21.0122, 1_765_000, 517.2, 50)
Traceback (most recent call last):
    ...
TypeError: __new__() takes 5 positional arguments but 6 were given

请注意，在当前版本中，我们可以使用参数名称，但不必这样做，因为它们是位置参数。

>>> Warsaw_names = City(
...     lat=52.2297,
...     long=21.0122,
...     population=1_765_000,
...     area=517.2
... )
>>> Warsaw == Warsaw_names
True

但是我们不能通过名称访问值：

>>> Warsaw.area
Traceback (most recent call last):
    ...
AttributeError: 'City' object has no attribute 'area'

我们可以通过两种方式来改变这一点。一种是使用collections或typing模块中的命名元组；我们稍后会讨论它们。但我们也可以使用我们的City类来实现相同的效果，感谢operator模块：

>>> import operator
>>> City.lat = property(operator.itemgetter(0))
>>> City.long = property(operator.itemgetter(1))

现在我们可以按名称访问lat和long属性：

>>> Warsaw.lat
52.2297
>>> Warsaw.long
21.0122

然而，由于我们只对lat和long进行了上述操作，我们将无法按名称访问population和area：

>>> Warsaw.area
Traceback (most recent call last):
    ...
AttributeError: 'City' object has no attribute 'area'

我们当然可以改变这一点：

>>> City.population = property(operator.itemgetter(2))
>>> City.area = property(operator.itemgetter(3))
>>> Warsaw.population
1765000
>>> Warsaw.area
517.2

不过，我从未做过这样的事情。如果你想要这样的功能，你应该使用命名元组。

元组性能

执行时间

为了基准测试使用元组的各种操作，以及作为比较的列表，我使用了附录中接近文章末尾的脚本。你还会在那里找到运行代码的结果。我提供代码不仅仅是为了记录，也为了让你可以扩展实验。

总体而言，无论其大小和执行的操作是什么，列表总是更快。我常听说创建元组的原因之一是它们较小的内存消耗。我们的这个小实验远未确认这一观点。虽然有时元组确实使用了稍少的内存，但通常它们使用的内存稍多。因此，我对 5 百万和 1000 万整数项的非常长的列表和元组进行了实验。结果是，列表通常消耗的内存更少……

那么，这些小内存消耗的元组在哪里呢？也许这与元组和相应列表所占的磁盘空间有关？让我们检查一下：

>>> from pympler.asizeof import asizeof
>>> for n in (3, 10, 100, 1000, 1_000_000, 5_000_000, 10_000_000):
...     print(
...         f"tuple, n of {n: 9}: {asizeof(tuple(range(n))):10d}"
...         "\n"
...         f" list, n of {n: 9}: {asizeof(list(range(n))):10d}"
...         "\n"
...         f"{'-'*33}"
...         )
tuple, n of         3:        152
 list, n of         3:        168
---------------------------------
tuple, n of        10:        432
 list, n of        10:        448
---------------------------------
tuple, n of       100:       4032
 list, n of       100:       4048
---------------------------------
tuple, n of      1000:      40032
 list, n of      1000:      40048
---------------------------------
tuple, n of   1000000:   40000032
 list, n of   1000000:   40000048
---------------------------------
tuple, n of   5000000:  200000032
 list, n of   5000000:  200000048
---------------------------------
tuple, n of  10000000:  400000032
 list, n of  10000000:  400000048
---------------------------------

仅在小元组及其相应列表的情况下，内存使用差异才是明显的——例如，152与168。但我认为你会同意，400_000_032与400_000_048实际上并没有小那么多，对吧？

我在过去的实验中观察到的另一件事（代码未展示）。Python 编译器以特殊方式处理元组字面量，因为它将它们保存在静态内存中——所以它们是在编译时创建的。其他方式创建的列表和元组都不能保存在静态内存中——它们总是使用动态内存，这意味着它们是在运行时创建的。这个话题复杂到足以值得单独的文章，因此我们就此停下。

我将这些基准留给你。如果你想扩展它们，请随意。如果你学到了新且意外的东西，请在评论中分享。

我学到的是，几乎不要仅仅因为性能而使用元组。但的确，如果我们需要一个简单的类型来存储非常小的记录，比如由两个或三个元素组成，元组可能是一个有趣的选择。如果字段名称有帮助，而且字段更多，我宁愿使用其他东西，命名元组是一个选择，dataclasses.dataclass是另一个选择。

一个列表和一个元组。作者提供的图像。

元组相对于列表的优势（？）

在流畅的 Python中，L. Ramalho 提到元组相对于列表的两个优势：清晰度和性能。老实说，我找不到其他优势，但这两个优势可能已经足够。因此，让我们逐一讨论它们，并决定它们是否确实在某些方面使元组优于列表。

清晰度

正如 L. Ramalho 所写，当你使用元组时，你知道它的长度永远不会改变——这增加了代码的清晰度。我们已经讨论过元组长度可能发生的情况。的确，由于不可变性带来的清晰度是很棒的，我们确实知道任何元组的长度永远不会改变，但……

正如 L. Ramalho 自己警告的那样，包含可变项的元组可能是难以发现的错误来源。你还记得我之前提到的与原地操作相关的内容吗？一方面，我们可以确定一个元组，比如x，它的长度永远不会改变。我同意这是一个在清晰度方面很有价值的信息。然而，当我们对x进行原地操作时，这个元组将不再是同一个元组，即便它仍然是一个名为x的元组——但，请让我重复，是一个不同的名为x的元组。

因此，我们应该按如下方式修订上述清晰度优势：

我们可以确定一个特定的 id 的元组长度永远不会改变。

或者：

我们可以确定，如果我们定义一个特定长度的元组，它的长度不会改变，但我们应该记住，如果我们使用任何原地操作，那么这个元组就不是我们之前所指的那个元组。

听起来有点疯狂？我完全同意：这确实很疯狂。对我来说，这不是清晰；这是清晰的对立面。有人这样想吗？想象一下你在一个函数中定义了一个元组 x。然后你执行原地连接操作，例如 x += y，这看起来就像 y 保持不变但 x 发生了变化。我们知道这不是真的——因为这个原始的 x 已经不存在，我们有一个全新的 x——但这就是它看起来的样子，尤其是因为我们仍然有一个元组 x，其第一个元素与原始 x 元组中的元素完全相同。

当然，我知道从 Python 的角度来看这一切都是有意义的。但当我编码时，我不希望我的思维被这种方式占据。为了使代码清晰，我更倾向于让它在不需要做出这样的假设的情况下保持清晰。这正是为什么对我来说，元组并不意味着清晰；它们意味着比我在列表中看到的清晰度要低。

这还不是元组清晰度的全部。在代码方面，我特别喜欢列表中的一个特性，但不喜欢元组中的这个特性。用于创建列表的方括号 [] 使得它们在代码中显得突出，因为没有其他容器使用方括号。看看字典：它们使用大括号 {}，集合也可以使用这些大括号。元组使用圆括号 ()，而圆括号不仅在生成器表达式中使用，而且在代码中的许多不同地方使用，因为 Python 代码使用圆括号的目的非常多。因此，我喜欢列表在代码中显得突出——而不喜欢元组的不突出。

性能

L. Ramalho 写道，元组使用的内存比对应的列表少，Python 可以对这两者进行相同的优化。我们已经分析了内存性能，因为我们知道这并不总是如此——实际上，元组所用的磁盘内存确实比对应的列表要小，但这种差异可能微不足道。

这种知识，加上列表在执行时间上的更好性能，使我认为性能不使元组成为更好的选择。在执行时间方面，列表更好。在内存使用方面，元组确实可以更好——但现在，随着现代计算机的出现，这些差异真的很小。此外，当我需要一个真正节省内存的容器来收集大量数据时，我不会选择列表或元组——而是选择生成器。

另一件事：元组作为字典键

除了这两个方面，还有一个值得考虑的第三个方面，我们已经提到过——你不能将列表用作字典中的键，但可以使用元组。或者说，你可以使用真正不可变（即，可哈希）的元组。原因在于前者的可变性和后者的不可变性。

与前两个优势不同，这个优势在特定情况下可能非常显著，即使这种情况比较少见。

元组推导（?）

如果你希望从这一节中了解到 Python 中存在元组推导，或者希望学到一些能让你的 Python 爱好者同伴惊叹的惊人技巧——我很抱歉！我并不想制造虚假的希望。今天没有元组推导；没有让人震撼的语法。

你可能还记得，在我关于 Python 推导的文章中，我并没有提到元组推导：

## Python 推导指南

学习列表推导（listcomps）、集合推导（setcomps）、字典推导的复杂性…

towardsdatascience.com

这是因为没有元组推导。但我不想让你空手而归，我为你准备了一个安慰奖。我会向你展示一些元组推导的替代方案。

首先，记住生成器表达式不是元组推导。我认为许多 Python 初学者会混淆这两者。我特别记得在学习列表推导后第一次看到我的生成器表达式。我的第一反应是，“嗯，这就是了。一个元组推导。”我很快意识到，虽然前者确实是列表推导，但后者不是元组推导：

>>> listcomp = [i**2 for i in range(7)] # a list comprehension
>>> genexp = (i**2 for i in range(7))   # NOT a tuple comprehension

我花了一些时间——如果不是浪费的话——才了解到有列表推导、集合推导、字典推导和生成器表达式——但没有元组推导。不要重蹈我的覆辙。不要花几个小时去寻找元组推导。它们在 Python 中不存在。

这就是我的安慰奖——两个元组推导的替代方案。

替代方案 1: tuple() + genexp

>>> tuple(i**2 for i in range(7))
(0, 1, 4, 9, 16, 25, 36)

你有没有注意到你不需要先创建一个列表推导然后是元组？确实，在这里我们创建了一个生成器表达式，并用tuple()类来转换它。这自然会给我们一个元组。

替代方案 2: genexp + 生成器解包

>>> *(i**2 for i in range(7)),
(0, 1, 4, 9, 16, 25, 36)

一个不错的小技巧，不是吗？它使用了扩展的可迭代解包，它返回一个元组。你可以用它来处理任何可迭代对象，既然生成器是其中之一，它就有效！让我们检查它是否也对列表有效：

>>> x = [i**2 for i in range(7)]
>>> *x,
(0, 1, 4, 9, 16, 25, 36)

你可以不赋值给x而做同样的事情：

>>> *[i**2 for i in range(7)],
(0, 1, 4, 9, 16, 25, 36)

它适用于任何可迭代对象——但别忘了行末的逗号；没有它，这个技巧将无法奏效：

>>> *[i**2 for i in range(7)]
  File "<stdin>", line 1
SyntaxError: can't use starred expression here

让我们检查集合：

>>> x = {i**2 for i in range(7)}
>>> *x,
(0, 1, 4, 9, 16, 25, 36)

它有效！并且要注意，通常，解包提供一个元组。这就是为什么扩展的可迭代解包看起来有点像元组推导。虽然它确实像一个不错的小技巧，但其实不是：这是 Python 提供的工具之一，尽管它确实是一个边缘情况。

但我不会使用替代方案 2。我会选择替代方案 1，它使用tuple()。我们大多数人喜欢像第二个替代方案这样的技巧，但它们很少清晰——而且替代方案 2，与替代方案 1相比，远不如前者清晰。不过，任何 Python 爱好者都会看到替代方案 1中的内容，即使他们没有看到其中隐藏的生成器表达式。

命名元组

元组是未命名的——但这并不意味着 Python 中没有命名元组。恰恰相反，确实存在——而且，毫无意外，它们被称为……命名元组。

你有两种方法来使用命名元组：collections.namedtuple和typing.NamedTuple。命名元组顾名思义：它们的元素（称为字段）具有名称。你可以在附录中的基准测试脚本中看到前者的实际应用。

就个人而言，我认为它们在许多不同情况下都非常有帮助。它们不会提高性能；甚至可能会降低性能。但在清晰性方面，它们可以更清楚，无论是对开发者还是对代码的用户。

因此，尽管我经常使用常规元组，有时我会选择命名元组——这正是因为它的清晰性。

命名元组提供了丰富的可能性，值得专门为它们写一篇文章。因此，我在这里仅仅讲述这些——但我计划写一篇专门讨论这种强大类型的文章。

“元组”在各种语言中的表示。图像由作者提供。

结论

本文以及上一篇文章旨在提供关于元组、它们的用例、优缺点及其复杂性的深入信息。尽管元组的使用非常普遍，但在开发者中，尤其是那些经验较少的 Python 开发者中，它们并不那么知名。这就是为什么我想将关于这个有趣类型的丰富信息集中在一个地方——希望你从阅读中学到了一些东西，甚至像我从写作中学到的一样多。

说实话，在开始写关于元组的内容时，我以为会发现更多的优势。我从开始使用 Python 的第一天起就一直在使用元组。尽管我使用列表的频率要高得多，但我还是喜欢元组，尽管对它们了解不多——所以我在这篇文章中包含的一些信息对我来说是新的。

然而，在写完这篇文章后，我对元组的喜爱已经不那么强烈了。我仍然认为它们是处理小记录的有价值类型，但它们的扩展——命名元组——或数据类似乎是更好的方法。而且，元组似乎也不是特别有效。它们比列表要慢，而且只节省了少量内存。那么，我为什么还要使用它们呢？

也许是因为它们的不可变性？也许。如果你喜欢基于不可变性概念的函数式编程，你肯定会更喜欢元组而不是列表。我曾多次使用这个论点来说服自己在这种或那种情况下应该更喜欢元组而不是列表。

但元组所提供的不可变性，如我们讨论的那样，并不是那么明确。假设x是一个不可变类型的项的元组。我们知道这个元组确实是不可变的，对吗？如果是这样，我不喜欢以下代码，这在 Python 中是完全正确的：

>>> x = (1, 2, 'Zulu Minster', )
>>> y = (4, 4, )
>>> x += y
>>> x
(1, 2, 'Zulu Minster', 4, 4)
>>> x *= 2
>>> x
(1, 2, 'Zulu Minster', 4, 4, 1, 2, 'Zulu Minster', 4, 4)

我知道这在 Python 中是正确的，我知道这甚至是 Pythonic 的代码——但我不喜欢它。我不喜欢我可以用 Python 元组做这样的事情。它根本没有元组不可变性的感觉。依我看，如果你有一个不可变类型，你应该能够复制它，你应该能够连接两个实例等等——但你不应该能够通过就地操作将一个新元组赋给旧名称。你想让这个名称保持不变？你的选择。所以，我对以下情况没问题：

>>> x = x + y

因为这意味着将x + y赋值给x，这基本上意味着覆盖这个名称。如果你选择覆盖x的先前值，这是你的选择。但就我而言，就地操作至少没有不可变性的感觉。我更愿意在 Python 中不能做到这一点。

如果没有不可变性，那么也许其他的因素应该说服我更常使用元组？但是什么呢？性能？元组的性能较差，因此这并不能说服我。在执行时间方面，毫无争议；它们确实比相应的列表慢。你可以说在内存方面。确实，它们占用的磁盘空间更少，但差异微妙，对于长容器来说——完全可以忽略。RAM 内存使用？这个论点也没有太成功，因为通常列表的效率和元组一样——有时甚至更高。如果我们有一个巨大的集合，生成器在内存方面会表现更好。

尽管如此，元组在 Python 中确实有其存在的意义。它们非常频繁地被用来从函数或方法中返回两个或三个项——所以，作为小型未命名记录。它们被用作可迭代解包的输出。它们构成了命名元组的基础——collections.namedtuple和typing.NamedTuple——这些是元组的强大兄弟，可以用作具有命名字段的记录。

总的来说，我不再像写这篇文章之前那样喜欢元组了。我曾把它们视为一个重要的 Python 类型；现在在我眼中它们不再那么重要——但我接受它们在 Python 中的各种使用场景，甚至喜欢其中一些。

我对元组是否不公平？也许。如果你这么认为，请在评论中告诉我。我总是很享受与读者的有益讨论。

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里查看。如果你想加入 Medium，请使用下面的推荐链接：

[## 使用我的推荐链接加入 Medium — Marcin Kozak

阅读 Marcin Kozak 的每一个故事（以及 Medium 上的其他成千上万的作者）。你的会员费直接支持…

资源

## Python 理解的指南

了解列表推导（listcomps）、集合推导（setcomps）、字典推导的细节…

towardsdatascience.com [## PEP 3132 — 扩展的可迭代解包

这个 PEP 提议对可迭代解包语法进行更改，允许指定一个“全能”名称来接收…

peps.python.org [## Fluent Python, 第 2 版

Python 的简洁性让你能够迅速提高生产力，但这通常意味着你没有充分利用它所具备的所有功能…

www.oreilly.com

附录

在这个附录中，你将找到我用来基准测试元组与列表的脚本。我使用了perftester包，你可以在这篇文章中阅读相关信息：

## 轻松进行 Python 函数基准测试：perftester

你可以使用 perftester 轻松对 Python 函数进行基准测试

towardsdatascience.com

这是代码：

import perftester

from collections import namedtuple
from typing import Callable, Optional
Length = int

TimeBenchmarks = namedtuple("TimeBenchmarks", "tuple list better")
MemoryBenchmarks = namedtuple("MemoryBenchmarks", "tuple list better")
Benchmarks = namedtuple("Benchmarks", "time memory")

def benchmark(func_tuple, func_list: Callable,
              number: Optional[int] = None) -> Benchmarks:
    # time
    t_tuple = perftester.time_benchmark(func_tuple, Number=number)
    t_list = perftester.time_benchmark(func_list, Number=number)
    better = "tuple" if t_tuple["min"] < t_list["min"] else "list"
    time = TimeBenchmarks(t_tuple["min"], t_list["min"], better)

    # memory
    m_tuple = perftester.memory_usage_benchmark(func_tuple)
    m_list = perftester.memory_usage_benchmark(func_list)
    better = "tuple" if m_tuple["max"] < m_list["max"] else "list"
    memory = MemoryBenchmarks(m_tuple["max"], m_list["max"], better)

    return Benchmarks(time, memory)

def comprehension(n: Length) -> Benchmarks:
    """List comprehension vs tuple comprehension.

    Here, we're benchmarking two operations:
      * creating a container
      * looping over it, using a for loop; nothing is done in the loop.
    """
    def with_tuple(n: Length):
        x = tuple(i**2 for i in range(n))
        for _ in x:
            pass

    def with_list(n: Length):
        x = [i**2 for i in range(n)]
        for _ in x:
            pass
    number = int(10_000_000 / n) + 10
    return benchmark(lambda: with_tuple(n), lambda: with_list(n), number)

def empty_container() -> Benchmarks:
    """List vs tuple benchmark: creating an empty container."""
    return benchmark(lambda: tuple(), lambda: [], number=100_000)

def short_literal() -> Benchmarks:
    """List vs tuple benchmark: tuple literal."""
    return benchmark(lambda: (1, 2, 3), lambda: [1, 2, 3], number=100_000)

def long_literal() -> Benchmarks:
    """List vs tuple benchmark: tuple literal."""
    return benchmark(
        lambda: (1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,),
        lambda: [1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,
1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3,],
        number=100_000)

def func_with_range(n: Length) -> Benchmarks:
    """List vs tuple benchmark: func(range(n))."""
    def with_tuple(n: Length):
        return tuple(range(n)) 

    def with_list(n: Length):
        return list(range(n))
    number = int(10_000_000 / n) + 10
    return benchmark(lambda: with_tuple(n), lambda: with_list(n), number)

def concatenation(n: Length) -> Benchmarks:
    """List vs tuple benchmark: func(range(n))."""
    def with_tuple(x: tuple):
        x += x
        return x

    def with_list(y: list):
        y += y
        return y
    number = int(10_000_000 / n) + 10
    return benchmark(lambda: with_tuple(tuple(range(n))),
                     lambda: with_list(list(range(n))),
                     number)

def repeated_concatenation(n: Length) -> Benchmarks:
    """List vs tuple benchmark: func(range(n))."""
    def with_tuple(x: tuple):
        x *= 5
        return x

    def with_list(y: list):
        y *= 5
        return y
    number = int(10_000_000 / n) + 10
    return benchmark(lambda: with_tuple(tuple(range(n))),
                     lambda: with_list(list(range(n))), number)

if __name__ == "__main__":
    n_set = (3, 10, 20, 50, 100, 10_000, 1_000_000)
    functions = (
        comprehension,
        empty_container,
        short_literal,
        long_literal,
        func_with_range,
        concatenation,
        repeated_concatenation,
        )
    functions_with_n = (
        comprehension,
        func_with_range,
        concatenation,
        repeated_concatenation,
    )

    results = {}
    for func in functions:
        name = func.__name__
        print(name)
        if func in functions_with_n:
            results[name] = {}
            for n in n_set:
                results[name][n] = func(n)
        else:
            results[name] = func()
    perftester.pp(results)

以下是结果：

{'comprehension': {3: Benchmarks(time=TimeBenchmarks(tuple=9.549e-07, list=8.086e-07, better='list'), memory=MemoryBenchmarks(tuple=15.62, list=15.63, better='tuple')),
                   10: Benchmarks(time=TimeBenchmarks(tuple=2.09e-06, list=1.94e-06, better='list'), memory=MemoryBenchmarks(tuple=15.64, list=15.64, better='list')),
                   20: Benchmarks(time=TimeBenchmarks(tuple=4.428e-06, list=4.085e-06, better='list'), memory=MemoryBenchmarks(tuple=15.64, list=15.65, better='tuple')),
                   50: Benchmarks(time=TimeBenchmarks(tuple=1.056e-05, list=9.694e-06, better='list'), memory=MemoryBenchmarks(tuple=15.69, list=15.69, better='list')),
                   100: Benchmarks(time=TimeBenchmarks(tuple=2.032e-05, list=1.968e-05, better='list'), memory=MemoryBenchmarks(tuple=15.7, list=15.7, better='list')),
                   10000: Benchmarks(time=TimeBenchmarks(tuple=0.002413, list=0.002266, better='list'), memory=MemoryBenchmarks(tuple=15.96, list=16.04, better='tuple')),
                   1000000: Benchmarks(time=TimeBenchmarks(tuple=0.2522, list=0.2011, better='list'), memory=MemoryBenchmarks(tuple=54.89, list=54.78, better='list'))},
 'concatenation': {3: Benchmarks(time=TimeBenchmarks(tuple=3.38e-07, list=3.527e-07, better='tuple'), memory=MemoryBenchmarks(tuple=31.45, list=31.45, better='list')),
                   10: Benchmarks(time=TimeBenchmarks(tuple=4.89e-07, list=4.113e-07, better='list'), memory=MemoryBenchmarks(tuple=31.45, list=31.45, better='list')),
                   20: Benchmarks(time=TimeBenchmarks(tuple=5.04e-07, list=4.368e-07, better='list'), memory=MemoryBenchmarks(tuple=31.45, list=31.45, better='list')),
                   50: Benchmarks(time=TimeBenchmarks(tuple=7.542e-07, list=6.22e-07, better='list'), memory=MemoryBenchmarks(tuple=31.45, list=31.45, better='list')),
                   100: Benchmarks(time=TimeBenchmarks(tuple=1.133e-06, list=9.005e-07, better='list'), memory=MemoryBenchmarks(tuple=31.45, list=31.45, better='list')),
                   10000: Benchmarks(time=TimeBenchmarks(tuple=0.0001473, list=0.000126, better='list'), memory=MemoryBenchmarks(tuple=31.7, list=31.7, better='list')),
                   1000000: Benchmarks(time=TimeBenchmarks(tuple=0.04862, list=0.04247, better='list'), memory=MemoryBenchmarks(tuple=123.5, list=125.4, better='tuple'))},
 'empty_container': Benchmarks(time=TimeBenchmarks(tuple=1.285e-07, list=1.107e-07, better='list'), memory=MemoryBenchmarks(tuple=23.92, list=23.92, better='list')),
 'func_with_range': {3: Benchmarks(time=TimeBenchmarks(tuple=3.002e-07, list=3.128e-07, better='tuple'), memory=MemoryBenchmarks(tuple=23.92, list=23.92, better='list')),
                     10: Benchmarks(time=TimeBenchmarks(tuple=4.112e-07, list=3.861e-07, better='list'), memory=MemoryBenchmarks(tuple=23.92, list=23.92, better='list')),
                     20: Benchmarks(time=TimeBenchmarks(tuple=4.228e-07, list=4.104e-07, better='list'), memory=MemoryBenchmarks(tuple=23.93, list=23.93, better='list')),
                     50: Benchmarks(time=TimeBenchmarks(tuple=5.761e-07, list=5.068e-07, better='list'), memory=MemoryBenchmarks(tuple=23.93, list=23.94, better='tuple')),
                     100: Benchmarks(time=TimeBenchmarks(tuple=7.794e-07, list=6.825e-07, better='list'), memory=MemoryBenchmarks(tuple=23.94, list=23.94, better='list')),
                     10000: Benchmarks(time=TimeBenchmarks(tuple=0.0001536, list=0.000159, better='tuple'), memory=MemoryBenchmarks(tuple=24.67, list=24.67, better='list')),
                     1000000: Benchmarks(time=TimeBenchmarks(tuple=0.03574, list=0.03539, better='list'), memory=MemoryBenchmarks(tuple=91.7, list=88.45, better='list'))},
 'long_literal': Benchmarks(time=TimeBenchmarks(tuple=1.081e-07, list=8.712e-07, better='tuple'), memory=MemoryBenchmarks(tuple=23.92, list=23.92, better='list')),
 'repeated_concatenation': {3: Benchmarks(time=TimeBenchmarks(tuple=3.734e-07, list=3.836e-07, better='tuple'), memory=MemoryBenchmarks(tuple=31.83, list=31.83, better='list')),
                            10: Benchmarks(time=TimeBenchmarks(tuple=4.594e-07, list=4.388e-07, better='list'), memory=MemoryBenchmarks(tuple=31.83, list=31.83, better='list')),
                            20: Benchmarks(time=TimeBenchmarks(tuple=5.975e-07, list=5.578e-07, better='list'), memory=MemoryBenchmarks(tuple=31.83, list=31.83, better='list')),
                            50: Benchmarks(time=TimeBenchmarks(tuple=9.951e-07, list=8.459e-07, better='list'), memory=MemoryBenchmarks(tuple=31.83, list=31.83, better='list')),
                            100: Benchmarks(time=TimeBenchmarks(tuple=1.654e-06, list=1.297e-06, better='list'), memory=MemoryBenchmarks(tuple=31.83, list=31.83, better='list')),
                            10000: Benchmarks(time=TimeBenchmarks(tuple=0.0002266, list=0.0001945, better='list'), memory=MemoryBenchmarks(tuple=31.83, list=31.83, better='list')),
                            1000000: Benchmarks(time=TimeBenchmarks(tuple=0.09504, list=0.08721, better='list'), memory=MemoryBenchmarks(tuple=169.4, list=169.4, better='tuple'))},
 'short_literal': Benchmarks(time=TimeBenchmarks(tuple=1.048e-07, list=1.403e-07, better='tuple'), memory=MemoryBenchmarks(tuple=23.92, list=23.92, better='list'))}

我决定对更大的n进行内存使用基准测试，即 500 万和 1000 万。我不会在这里展示代码，如果你有时间，可以基于上面的脚本写一个代码，这将是一个不错的练习。

如果你只想查看代码，你可以在这里找到。请注意，我可以改进代码，例如将两个实验的代码合并。我决定不这样做，以保持两个脚本的简单性。

这是结果：

{'comprehension': {5000000: MemoryBenchmarks(tuple=208.8, list=208.8, better='list'),
                   10000000: MemoryBenchmarks(tuple=402.2, list=402.2, better='tuple')},
 'concatenation': {5000000: MemoryBenchmarks(tuple=285.4, list=247.2, better='list'),
                   10000000: MemoryBenchmarks(tuple=554.8, list=478.5, better='list')},
 'func_with_range': {5000000: MemoryBenchmarks(tuple=400.4, list=396.4, better='list'),
                     10000000: MemoryBenchmarks(tuple=402.2, list=402.2, better='list')},
 'repeated_concatenation': {5000000: MemoryBenchmarks(tuple=399.8, list=361.7, better='list'),
                            10000000: MemoryBenchmarks(tuple=783.7, list=707.4, better='list')}}

如你所见，对于我们研究的操作，元组要么占用相同的内存，要么占用更多的内存——有时甚至显著更多（例如，比较554.8与478.5或783.7与707.4）。

Python 类型提示：鸭子类型兼容性和与一致

原文：towardsdatascience.com/python-type-hinting-duck-type-compatibility-and-consistent-with-72e8b348d8ac

PYTHON PROGRAMMING

当你在提示`float`时，你不必提示`int`，当你在提示`tuple`时，也不必提示`namedtuple`。为什么？

·发布于Towards Data Science ·阅读时间 8 分钟·2023 年 6 月 6 日

由Markus Winkler在Unsplash提供的照片

有时，Python 类型提示可以使事情变得更简单。确实，并不总是如此——但至少在我看来，通常它确实能做到——前提是明智地使用它。有些人不同意，但我不打算与他们争论：在我看来，这是一个相当主观的话题。

我在以下文章中写了我对 Python 类型提示的看法，如何使用它来提高代码可读性，以及如何不使用它以达到其他目的：

[## Python 的类型提示：朋友、敌人还是仅仅是个头疼的问题？

类型提示在 Python 社区中的受欢迎程度正在上升。这会将我们带到哪里？我们可以做些什么来使用它……

betterprogramming.pub](https://betterprogramming.pub/pythons-type-hinting-friend-foe-or-just-a-headache-73c7849039c7?source=post_page-----72e8b348d8ac--------------------------------)

今天，我们将讨论在 Python 类型中，与一致（consistent-with）和鸭子类型兼容性（duck-type compatibility）的含义。

想象一下你在提示使用float，就像下面的函数：

from collections.abc import Sequence

def sum_of_squares(x: Sequence[float]) -> float:
    n, s = len(x), sum(x)
    return sum((x_i - s/n)**2 for x_i in x)

这是一个典型的统计函数，用于计算一个变量的平方和。它接受一个浮点数的容器并返回一个浮点数。

正如你所见，为了注释这个函数，我使用了Sequence，这是一个从collections.abc（在 Python 3.9 之前，你需要使用typing.Sequence）中提供的通用抽象基类。这意味着你可以提供一个列表或一个元组——但你不能提供，例如，一个生成器¹。

好的，所以这是一个统计函数，它期望一个浮点数的序列。这是有道理的，对吧？但在实际生活中，相当多的定量变量是整数，比如每个芽的螨虫数量、销售的物品数量、人口数量，仅举几例。

那么我们是不是应该对函数做一些调整，以考虑到这个事实呢？我们都知道，动态情况下，函数对整数是完全有效的，而且动态情况下，我们可以轻松地将整数和浮点数结合在 x 中。但是类型提示和静态检查器呢？

对于这个函数，使用 int 是否合适，还是我们应该更清楚地说明它也接受 int 值？我们应该像下面这样做吗？

def sum_of_squares(x: Sequence[float | int]) -> float:
    n, s = len(x), sum(x)
    return sum((x_i - s/n)**2 for x_i in x)

这很明显：你可以使用浮点数或整数的序列，函数会返回一个浮点数。从类型提示的角度来看，这个版本不是更好吗？

为了回答这个问题，我们回到之前的版本，没有 int。静态类型检查器对此有何看法？

一句话也不说！看看 Pylance（在 Visual Studio Code 中）对它的说法：

来自 Visual Studio Code 的截图：Pylance 没有指出任何错误。图片由作者提供

没有！如果 Pylance 发现静态错误，我们会看到它被红色下划线标出。在这里，这是 mypy 的看法：

Mypy 说当你使用 int 进行浮点数注解时一切正常。图片由作者提供

为什么你可以用 `int` 代替 `float`？

我们已经进入了本文的主要话题。简而言之，当你提示 float 时，你可以使用 int 代替。

首先，我们来看看 mypy 文档中描述鸭子类型兼容性的网页：

[## 鸭子类型兼容性 - mypy 1.3.0 文档

在 Python 中，某些类型即使不是彼此的子类，仍然是兼容的。例如，对象是…

mypy.readthedocs.io

这就是我们将在那里看到的内容之一：

在 Python 中，某些类型即使不是彼此的子类，仍然是兼容的。例如，int 对象在期望 float 对象的地方是有效的。Mypy 通过 鸭子类型兼容性 支持这种惯用法。

哈！

不用担心，这不会过多扩展你对类型提示的知识：

这对于一小部分内置类型是被支持的：

int 是与 float 和 complex 兼容的鸭子类型。

float 是与 complex 兼容的鸭子类型。

bytearray 和 memoryview 是与 bytes 兼容的鸭子类型。

所以现在我们知道了。当我们已经提示使用 float 时，不必再提示 int。这将和 float | int（或 Union[float, int]）完全一样。这意味着提示中的 | int 部分是多余的。

就像 int 与 float 是鸭子类型兼容的，它也与 complex 是鸭子类型兼容的，float 与 complex 是鸭子类型兼容的，同时 bytearray 和 memoryview 也与 bytes 是鸭子类型兼容的。

好的，那是 mypy。现在，让我们看看我最喜欢的 Python 书籍，我在文章中经常提到的那本书：Fluent Python，第 2 版，由 Luciano Ramalho 编写：

[## Fluent Python，蜥蜴书

一个无障碍友好的 Hugo 主题，从原始的 Cupper 项目移植过来。

www.fluentpython.com](https://www.fluentpython.com/?source=post_page-----72e8b348d8ac--------------------------------)

要了解这里发生了什么，我们应该转到 Luciano 解释 consistent-with 意思的地方。他写道，我们不需要将 int 添加到 float 类型提示中，因为 int 是 consistent-with float。

那么 consistent-with 是什么意思呢？（是的，Luciano 每次都使用连字符和斜体来表示 consistent-with，这与 PEP 484 不同。）

正如他解释的那样，当 T1 是 T2 的子类型时，T2 是 consistent-with T1。换句话说，一个子类是 consistent-with 所有它的超类——尽管有一些例外，这些例外扩展了 consistent-with 的定义。根据 PEP 484 的这一部分，Luciano 解释说，这一定义还包括了上述提到的数字场景。

当我们添加与类型 consistent-with bytes 的场景时，我们将有以下 consistent-with 的定义：

当 T2 是 consistent-with T1 时：

T1 是 T2 的子类型，或者
T1 与 T2 是鸭子类型兼容的。

我们需要记住的是，如果一种类型是 consistent-with 另一种类型，它要么是其子类型（子类），要么是与之鸭子类型兼容的——这归结为一个事实：只需对后者进行类型提示即可；你可以简单地省略前者。

说实话，我经常犯这样的错误——我的意思是，我做了这种多余的事情，类似如下：

from typing import Iterable

def sum_of_squares(x: Iterable[float | int]) -> float:
    n, s = len(x), sum(x)
    return sum((x - s/n)**2)

我一直认为通过澄清 x 可以包含整数和浮点数，我是在让用户的生活更轻松。

我吗？我不知道。确实，我使代码变得冗长。一个不知道int是float的鸭子类型的人可能会想，为什么只有float？另一方面，我们不应该以让那些不了解的人容易理解的方式编写代码。当然，有一些限制，但我认为这种情况并没有越界。此外，任何稍微懂一点 Python 的人应该知道，在期望float的地方，可以使用int；这是一种相当普遍的知识。无论如何，这也是我写这篇文章的原因之一——让我的读者知道，不仅int可以动态地代替float，从静态检查器的角度来看这也是可以的。

让我们回到sum_of_squares()函数。当你了解鸭子类型兼容性时，简洁版是一样清晰但更短，因此更干净：

from typing import Iterable

def sum_of_squares(x: Iterable[float]) -> float:
    n, s = len(x), sum(x)
    return sum((x - s/n)**2)

所以，我可以说，我对 Python 知识的缺乏让我认为我是在为我的代码用户做好事——现在我知道我不是。

命名元组

对于collection.namedtupes和typing.NamedTuples，情况类似，但有一点小差别。这两种类型都是常规tuple类型的子类型，这就是它们与…一致的原因。

这就是为什么下面的注释是……嗯，它不是最好的：

from collections import namedtuple
from typing import NamedTuple

def join_names(names: tuple | namedtuple | NamedTuple) -> str:
    return " ".join(names)

这个函数本身在我写过的函数中不是最聪明的，但这不是重点。重点是，如果你想接受一个tuple、一个namedtuple和一个NamedTuple，你可以这样做：

def join_names(names: tuple) -> str:
    return " ".join(names)

然而，如果你只想接受两种命名元组中的一个，你可以进行类型提示，例如：

from collections import namedtuple

def join_names(names: namedtuple) -> str:
    return " ".join(names)

在这里，只能使用collections.namedtuple及其子类的实例。你当然可以以相同的方式指明typing.NamedTuple，这样collections.namedtuple就不能使用了。记住，如果T1与T2一致，并不意味着T2也一致于T1。

记住，如果T1与T2一致，并不意味着T2也一致于T1。

结论

我们了解了与…一致和鸭子类型兼容性的含义。不要害怕在代码中使用这些知识。你知道如何回应以下问题：“为什么只有float？如果我想使用int呢？”

脚注

¹ sum_of_squares()以这种方式定义不接受生成器是有充分理由的。要理解原因，请分析函数的主体，并考虑生成器是如何工作的。

注意，计算len(x)会消耗生成器——所以，函数将无法计算x的和。看：

>>> sum_of_squares((i for i in (1., 2, 34)))
Traceback (most recent call last):
    ...
    n, s = len(x), sum(x)
    ^^^^^^
TypeError: object of type 'generator' has no len()

Pylance大喊：

mypy也不喜欢：

error: Argument 1 to "sum_of_squares" has incompatible type 
"Generator[float, None, None]"; expected "Sequence[Union[float, int]]"
[arg-type]

你是否看到使用静态类型检查器可以帮助你捕捉那些否则会在运行时被发现的错误？

所以，类型提示值得称赞？是的——但要称赞好的类型提示！

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里看到它们。如果你想加入 Medium，请使用下面的推荐链接：

[## 使用我的推荐链接加入 Medium - Marcin Kozak

阅读 Marcin Kozak 的每个故事（以及 Medium 上的其他成千上万位作家的故事）。你的会员费将直接支持…

medium.com](https://medium.com/@nyggus/membership?source=post_page-----72e8b348d8ac--------------------------------)

Python 类型提示：从类型别名到类型变量和新类型

原文：towardsdatascience.com/python-type-hinting-from-type-aliases-to-type-variables-and-new-types-a4a9e0400b6b

PYTHON 编程

查看类型别名、类型变量和新类型的实际应用

·发表于 Towards Data Science ·15 分钟阅读·2023 年 4 月 26 日

Python 提供了类型提示。选择权仍在你手中。图片来自 William Felker Unsplash

正如我在下面的文章中所写，如果你想在 Python 中使用类型提示，请以正确的方式进行：

[## Python 的类型提示：朋友、敌人还是只是个麻烦？

类型提示在 Python 社区中的受欢迎程度正在增加。这会把我们带向何方？我们可以做些什么来使用它……

betterprogramming.pub](https://betterprogramming.pub/pythons-type-hinting-friend-foe-or-just-a-headache-73c7849039c7?source=post_page-----a4a9e0400b6b--------------------------------)

什么是 正确的方式？简单来说，就是使你的代码从静态类型检查器的角度看起来可读和正确的方式。所以，两件事：可读和正确。

在上面的文章中我提到的事情之一是创建类型别名是提高可读性的好方法。我们将从它们开始讨论，重点讨论它们何时确实能提供帮助。然后，我们转向使用类型变量 (typing.TypeVar) 和新类型 (typing.NewType)，这些将帮助我们实现常规类型别名无法实现的目标。

我将使用 Python 3.11 和 mypy 版本 1.2.0。

简而言之，使用类型别名的目的有两个：

以相对简单的方式让用户知道参数应该是什么类型（应该，因为我们仍在谈论 类型提示），以及
让静态检查器满意。

让静态检查器满意也应该让我们满意：一个不满意的类型检查器通常意味着错误，或至少是一些不一致性。

对于一些用户来说，第二点是唯一值得提及的——因为静态检查是他们使用类型提示的唯一原因。它帮助他们避免错误。

当然，这很棒——但这不是全部。类型提示可以帮助我们做更多的事情。并且请注意，如果我们的唯一目标是满足静态检查器，类型别名将没有用，因为它们根本不帮助静态检查器。它们帮助的是用户。

对我来说，这两个方面同样重要。如今，当我阅读一个函数时，我会特别注意其注释。注释写得好，它们能帮助我理解函数；注释写得不好——更不用说写得错误了——它们会使函数的可读性不如没有注释时那样好。

我们从类型别名开始。我会向你展示它们的两个主要用例。接着，我们将看到类型别名在相对简单的情况下如何提供帮助，有时我们需要更多的东西。在我们的案例中，类型变量和新类型将提供帮助。

复杂注释的类型别名

类型别名提供了一种简单而强大的工具，使类型提示更清晰。我将在这里重用Python 文档中的类型别名中的一个很好的且有说服力的例子：

from collections.abc import Sequence

ConnectionOptions = dict[str, str]
Address = tuple[str, int]
Server = tuple[Address, ConnectionOptions]

def broadcast_message(message: str,
                      servers: Sequence[Server]
                      ) -> None:
    ...

正如文档所说，上述servers的类型签名正好等于下面使用的签名：

def broadcast_message(
        message: str,
        servers: Sequence[tuple[tuple[str, int], dict[str, str]]]
    ) -> None:
    ...

正如你所见，等价性并不完全：虽然这两个签名在代码上确实是等效的，但它们在可读性上有所不同。关键在于这个类型签名：

servers: Sequence[tuple[tuple[str, int], dict[str, str]]]

尽管阅读和理解起来比较困难，但通过使用几个类型别名将其重定义为Sequence[Server]后，已经变得更加清晰。类型别名在签名中传达的信息很有帮助。良好的命名可以产生奇迹。

请注意，我们可以通过添加一个更多的类型别名来使这个类型签名有所不同：

Servers = Sequence[Server]

servers: Servers

对我来说，Sequence[Server]比Servers要好得多，因为我立刻看到我处理的是一个实现了Sequence协议的对象。它可以是一个列表。例如，我们已经有了参数的名称servers，所以创建一个类型别名Servers似乎是多余的。

当然，理解这个签名的每一个细节，使用这些类型别名并不简单：

ConnectionOptions = dict[str, str]
Address = tuple[str, int]
Server = tuple[Address, ConnectionOptions]
servers: Sequence[Server]

但由于类型别名ConnectionOptions、Address和Server及其明确的含义，这比理解以下签名要简单得多：

servers: Sequence[tuple[tuple[str, int], dict[str, str]]]

简而言之，面对如此复杂的类型，原始的类型签名虽然让静态检查器满意——但不太可能让用户的生活变得更轻松。类型别名可以帮助实现这一点——它们有助于将关于变量、函数、类或方法的附加信息传达给用户。它们充当了一种沟通工具。

类型别名作为沟通工具：进一步的考虑

好吧，让我们跳到另一个例子。这次，我们将尝试利用类型别名来改善与用户的沟通，在一个比之前更简单的情况中。

正如我们所见，最重要的沟通工具是良好的命名。一个好的函数、类或方法名称应该明确表明其责任。当你看到 calculate_distance() 的名称时，你知道这个函数会计算距离；你会对看到一个返回两个字符串的元组的函数感到惊讶。当你看到 City 类时，你知道这个类会以某种方式表示一个城市——而不是一个动物、一辆车或一只海狸。

注释可以传达比函数（类、方法）及其参数名称更多的信息。换句话说，我们希望类型提示不仅能提示应该使用哪些类型，还能帮助用户理解我们的函数和类——并帮助他们提供正确的值。正如之前提到的，这可以通过命名良好的类型别名来实现。

让我们从一个简单的例子开始，这次使用变量类型提示。假设我们有如下的东西：

length = 73.5

当然，我们知道这个变量表示某物的长度。但这就是我们所知道的。首先，是什么长度？一个更好的名字可能会有所帮助：

length_of_parcel = 73.5

现在清楚了。想象一下你是一名送货员，你需要决定包裹是否能放进你的车里。那么，它能放进去吗？

如果有人根据上述知识做出了决定，他要么是那种“我会处理任何包裹”的人，要么是“最好不要冒险”的人。在这两种情况下，这都不是一个经过深思熟虑的决定。我们缺少单位，不是吗？

length_of_parcel = 73.5 # in cm

更好！但这仍然只是一个注释，如果代码本身提供这些信息会更好；上面没有提供，但这里提供了：

Cm = float
length_of_parcel: Cm = 73.5

我们再次使用了类型别名。但请记住，这只是一个类型别名，对于 Python 来说，length_of_parcel 仍然只是一个 float，别无其他。然而，对我们来说，这意味着很多——这个包裹的长度是 73.5 厘米。

让我们进入一个更复杂的情况，即从变量注释到函数注释。假设我们想实现一个计算矩形周长的函数。我们从没有注释开始：

def get_rectangle_circumference(x, y):
    return 2*x + 2*y

简单。符合 Python 习惯¹。正确。

我们已经熟悉了这个问题：没有注释，用户不知道函数期望什么样的数据。厘米？英寸？米？公里？实际上，函数将处理字符串：

>>> get_rectangle_circumference("a", "X")
'aaXX'

嗯。确实，这有效——但没有意义。我们希望用户能够用我们的函数处理这样的东西吗？我们希望用户说：

嘿，他们的函数告诉我，当我用边长为 "a" 和 "X" 的矩形时，这个矩形的周长是 "aaXX"，哈哈！

不，还是不行。确实，函数的名称说明了函数的作用，但如果能让用户知道函数期望什么样的数据会更有帮助。然后我们可以回应：

嘿，你不能读吗？难道你看不出这个函数期望浮点数吗？或者你认为字符串是浮点数，哈哈？

我认为最好避免这种哈哈式讨论。所以，类型提示是一个大好的选择。我们继续吧。

好的，我们有一个矩形，它有四条边，x和y是它们的长度。用户提供什么单位并不重要，因为函数适用于任何长度单位；它可以是厘米、英寸、公里，任何长度单位。真正重要的是——实际上，区别很大——是x和y都必须使用相同单位。否则，函数将无法正确工作。这是可以的：

>>> x = 10                  # in cm
>>> y = 200                 # in cm
>>> get_rectangle_circumference(x, y) # in cm
420

但这不是：

>>> x = 10                  # in cm
>>> y = 2                   # in m
>>> get_rectangle_circumference(x, y) # incorrect!
24

问题是，即使这个调用毫无意义，我们也知道这一点，但从 Python 的角度来看，它是正确的——两者都一样。

动态地：我们会得到24；以及
静态地：x和y都是浮点数。

问题是，我们没有让用户——以及 Python——知道两个参数x和y应该是相同单位的，只是他们应该使用浮点数。对于 Python 而言，浮点数就是浮点数，它不区分公里和英寸，更不用说千克了。

让我们检查一下是否可以使用类型提示来做些事情。换句话说：我们能否使用类型提示让用户知道他们应该为两个参数使用相同的类型，并且返回值也是这种类型呢？

最简单的注解是使用浮点数：

def get_rectangle_circumference(
    x: float,
    y: float) -> float:
    return 2*x + 2*y

这个函数签名比没有注解的稍好，因为至少用户知道他们应该使用float。但还是，英寸？厘米？米？实际上，为什么不使用千克？

那么，让我们尝试一个类型别名：

Cm = float

def get_rectangle_circumference(x: Cm, y: Cm) -> Cm:
    return 2*x + 2*y

清楚了吧？mypy会鼓掌：

Pylance也是如此。用户知道他们应该提供厘米，并且函数会以厘米为单位返回周长。Cm是一个类型别名，这基本上意味着它仍然是float，Cm和float之间没有区别。但关键是，用户知道。

然而，静态检查器在这种情况下不会太有帮助。你可以提供一个float的额外类型别名，它将与Cm以及任何float一样被对待：

Cm = float
M = float

def get_rectangle_circumference(x: Cm, y: Cm) -> Cm:
    return 2*x + 2*y

x: Cm = 10
y: M = 10

get_rectangle_circumference(x, y)

类型检查器对此完全没问题，因为Cm和M只是相同类型的别名，即float。基本上，对于静态检查器而言，Cm不仅等同于float，也等同于M。因此，如果你想在这种情况下使用类型别名，你必须记住它们只是……别名——仅此而已！

我相信你已经注意到使用Cm类型别名的上面签名的另一个大缺点。为什么用户要用厘米提供x和y，而他们的单位是英寸或其他单位？转换？然后怎么办，转换回来？那简直疯狂！

嗯……也许我们可以创建一个与距离（或长度）相关的float别名？

DistanceUnit = float

def get_rectangle_circumference(
    x: DistanceUnit,
    y: DistanceUnit
    ) -> DistanceUnit:
    return 2*x + 2*y

mypy将再次发出警告，因为我们唯一更改的是名称。但这并没有改变其他任何东西：用户仍然可以犯提供不同单位值的相同错误，这些值都将是DistanceUnit，如厘米和英寸。至少用户知道他们不应该提供千克。

正如你所见，类型别名无法帮助我们解决这个问题。一方面，我认为我们可以假设使用 Python 的人应该知道在计算矩形周长时，应该以相同的单位提供边的长度。这不是 Python 知识。这是简单的数学。

然而，在一些其他场景中，你可能想要让事情变得清晰，因为并非所有事情都像计算矩形周长那样清晰。我们知道类型别名没有帮助，所以让我们转向typing的其他两个工具：类型变量（TypeVar）和新类型（NewType）。它们会有帮助吗？

类型变量和新类型

如果你真的想实现如此详细的类型提示，你可以这么做。然而，请注意，这会使代码变得更复杂。为此，typing.NewType和typing.TypeVar可以提供帮助。

让我们从NewType开始。这是一个typing工具，用于创建具有最小运行时开销的新类型（参见附录 1）。以这种方式创建的类型提供的功能很有限，因此当你只需要明确的类型提示和将值转换到这种类型的可能性时，你应该优先使用它们。它的优点是它与静态检查工具兼容（正如我们稍后将看到的）。它的缺点——在我看来，这是一个相当大的缺点——是使用typing.NewType创建的类型不被isinstance视为类型（至少在 Python 3.11.2 中如此——我希望将来版本会有所改变）：

Python 3.11.2 的截图：typing.NewType类型不被isinstance()视为类型。图片由作者提供。

对我来说，这是一个严重的问题。但正如你将看到的，typing.NewType类型仍然非常有用，开销较小（如附录 1 所示）。

因此，我们想要创建代表我们距离相关单位的类型。问题是，我们需要创建的类型数量与我们要考虑的单位数量相同。为了简化，让我们将它们限制为几个基于国际单位制（SI 单位）的最重要的长度单位。这是你在处理项目时的做法，其中类型数量有限。然而，当你在开发一个供他人使用的框架时，你应该创建更多的类型。

在我们的情况下，四种类型就足够了：

from typing import NewType

Mm = NewType("Mm", float)
Cm = NewType("Cm", float)
M = NewType("M", float)
Km = NewType("Km", float)

NewType 创建子类型——因此，Mm、Cm、M 和 Km 都是 float 的子类型。它们可以在任何 float 可以使用的地方使用，但静态检查器将不接受任何这些四种子类型应使用的普通 float 值。你需要将这样的 float 值转换为所需的类型；例如，你可以执行 distance = Km(30.24)，意味着距离为 30 公里和 240 米。

让我们看看用于注解这个简单函数的类型：

def km_to_mm(x: Km) -> Mm:
    return x * 1_000_000

Pylance 听到：

来自 VSCode 的 Pylance 截图。图片由作者提供

这是因为 x / 1_000_000 给出一个浮点数，而我们指明函数返回 Mm 类型的值。为实现这一点，我们需要将返回值转换为预期的类型：

def km_to_mm(x: Km) -> Mm:
    return Mm(x * 1_000_000)

如你所见，使用 typing.NewType 创建的类型可以作为可调用对象（在 Python 3.10 之前它们是函数；现在它们是类）用于将值转换为它们的类型。这在这种情况下非常方便。

但这将如何帮助我们处理 get_rectangle_circumference() 函数？我们仍然有四种不同的 float 子类型，我们希望函数返回其 x 和 y 参数的确切类型。

现在是引入新 typing 工具——类型变量，或 typing.TypeVar 的时候了。事实证明，类型变量可以帮助我们实现所需的功能：

from typing import NewType, TypeVar

Mm = NewType("Mm", float)
Cm = NewType("Cm", float)
M = NewType("M", float)
Km = NewType("Km", float)

DistanceUnit = TypeVar("DistanceUnit", Mm, Cm, M, Km)

def get_rectangle_circumference(
    x: DistanceUnit,
    y: DistanceUnit) -> DistanceUnit:
    t = type(x)
    return t(2*x + 2*y)

与之前使用类型别名时不同，这次你不能混合不同的类型。让我们看看静态类型检查器 Pylance 如何处理此函数的三种不同调用：

浮点数无效：

(1) 浮点数无效。图片由作者提供

你不能混合不同的类型：

(2) 两种不同的类型无效。图片由作者提供

函数通过静态检查的唯一方法是对两个长度使用相同类型：

(3) 仅相同类型的两个参数有效。图片由作者提供

当然，返回值的类型将与两个参数的类型匹配——例如，当你提供米时，你会得到米。这就是为什么我们需要 t = type(x) 行的原因。我们可以使函数稍微简短一些：

更短版本的函数。图片由作者提供

对于中级和高级 Python 使用者，两种版本的可读性可能相当；然而，对于初学者来说，前者可能更容易理解。

注意，DistanceUnit 类型别名不会以相同方式工作：

DistanceUnit 的类型别名无法按要求工作。图片由作者提供

在这里，你可以在调用 get_rectangle_circumference() 时混合不同类型，这正是我们想要避免的；而类型变量帮助我们实现了这一点。

所以，我们达到了我们想要的目标。尽管任务看起来不算复杂，但类型别名并不足以实现我们的目的。然而，typing 的类型变量（TypeVar）和新类型（NewType）提供了帮助。

结论

类型提示在 Python 中不是必需的；它们是可选的。有时最好完全省略它们。然而，当你不得不使用它们时，应该明智地使用它们：让它们对你和你的代码用户有所帮助，而不是成为障碍。

我希望你现在已经准备好在自己的项目中使用 typing 的类型别名、类型变量和新类型，至少在类似的、相对简单的场景中使用。在这样做时，请记住不要过度使用这些工具。老实说，我很少决定使用类型变量和新类型。因此，在决定打开这些门之前，请三思。你的代码肯定会变得复杂得多，所以你必须有充分的理由去做这个决定。

我们已经涵盖了在 Python 类型提示系统中使用类型别名、类型变量和新类型的基本概念。这个话题还有很多内容，因为 Python 的静态检查系统仍在发展，但这种更多会带来更大的复杂性。今天就先说到这里，我们以后会在准备好专注于 Python 类型提示的更高级方面时再回到这个话题。

脚注

¹ 如果有人想对我大喊这不是Pythonic，因为函数没有注解，那么请让我提醒这个人，类型提示在 Python 中是可选的。如果某样东西是可选的，它不能作为声明代码是否 Pythonic 的决定性因素。

附录 1

与例如基于浮点数的自定义类相比，typing.NewType 的时间开销明显更小。下面的简单代码片段使用 perftester 来基准测试这两个方面：

使用 typing.NewType 或自定义类创建新类型哪个更快？
哪种类型的使用更快（具体来说，将浮点值转换为该类型）？

import perftester

from typing import NewType

def typing_type_create():
    TypingFloat = NewType("TypingFloat", float)

def class_type_create():
    class ClassFloat(float): ...

TypingFloat = NewType("TypingFloat", float)
class ClassFloat(float): ...

def typing_type_use(x):
    return TypingFloat(x)

def class_type_use(x):
    return ClassFloat(x)

if __name__ == "__main__":
    perftester.config.set_defaults("time", Number=1_000_000)

    t_typing_create = perftester.time_benchmark(typing_type_create)
    t_class_create = perftester.time_benchmark(class_type_create)

    t_typing_use = perftester.time_benchmark(
        typing_type_use, x = 10.0034
    )
    t_class_use = perftester.time_benchmark(
        class_type_use, x = 10.0034
    )

    perftester.pp(dict(
        create=dict(typing=t_typing_create["min"],
                    class_=t_class_create["min"]),
        use=dict(typing=t_typing_use["min"],
                 class_=t_class_use["min"]),
    ))

这是我在我的机器上得到的结果：

基准测试结果：基于 typing 的方法更快。图片作者提供。

显然，typing.NewType 创建新类型的速度显著比自定义类快一个数量级。然而，它们在创建新类实例方面的速度差异不大。

上面的基准测试代码很简单，表明 perftester 提供了一个非常简单的 API。如果你想了解更多，阅读下面的文章：

基准测试 Python 函数的简单方法：perftester [## 基准测试 Python 函数的简单方法：perftester

你可以使用 perftester 以简单的方式基准测试 Python 函数

前往数据科学

你当然可以使用 timeit 模块进行这种基准测试：

## 使用 timeit 进行 Python 代码基准测试

最受欢迎的 Python 代码时间基准测试工具，内置的 timeit 模块提供了超出大多数工具的功能…

towardsdatascience.com

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里看到。如果你想加入 Medium，请使用我下面的推荐链接：

[## 使用我的推荐链接加入 Medium - Marcin Kozak

阅读 Marcin Kozak 的每一个故事（以及 Medium 上成千上万其他作家的故事）。你的会员费直接支持…

medium.com](https://medium.com/@nyggus/membership?source=post_page-----a4a9e0400b6b--------------------------------)

Python 类型提示在数据科学项目中：必须、可能还是不推荐？

原文：towardsdatascience.com/python-type-hinting-in-data-science-projects-a-must-a-maybe-or-a-no-no-d76b8a53e37b

PYTHON 编程

我们应该在 Python 实现的数据科学项目中使用类型提示吗？

## 通过我的推荐链接加入 Medium - Marcin Kozak

·发表于 Towards Data Science ·阅读时间 6 分钟·2023 年 9 月 26 日

无论你是否是 Python 类型提示的满意用户，你都需要了解这些概念以及如何使用它们。照片由 Kerin Gedge 拍摄，来源于 Unsplash

我们应该在 Python 实现的数据科学项目中使用类型提示吗？

想要免责声明吗？请看这里：这要看情况。在概念验证类型的项目中，通常是不必要的。在生产项目中，至少在 2023 年，这还是有必要的。但再次说明，这要看情况。

我会尽量简明扼要，尽快切入重点。我不想花费数小时考虑所有的利弊，原因很简单，因为数据科学市场对我们的工作有明确的期望。我的目标是向你展示这些期望，而不是详细讨论它们。

让我们从显而易见的事情开始。首先，Python 中的类型提示是 可选的。可选的意思是 你不必在 Python 中使用类型提示。如果是这样，那么我们主要问题的唯一答案是：你可以，但不，您不必在数据科学项目中使用类型提示！

那么…就这样吗？我们完成了吗？

等一下。我们确实陈述了显而易见的内容，但我们并没有触及任何超出显而易见的内容。

我们应该在 Python 实现的数据科学项目中使用类型提示吗？这要看情况。在概念验证类型的项目中，这并不是必要的。在生产项目中，至少在 2023 年，这还是有必要的。

举个例子。假设你是一个在私人公司工作的 Python 开发者。公司有自己关于 Python 开发的规则和建议。其中一条规则是：使用类型提示。就这么简单——不管你偏好什么，你都必须使用它们。如果这只是一个建议，你可能不需要使用它们。然而，由于这是一个规则，你必须使用可选类型提示。

好的，这点说得很好。但我们讨论的是一般数据科学项目中的类型提示，而不是某个特定公司里的情况。那么，是可选的，对吗？你不一定非得使用它们？

在回答之前，让我告诉你我在 Python 中使用类型提示的方式、时间和原因。

我在这里写了我对类型提示的看法：

[## Python 的类型提示：朋友、敌人还是仅仅是个麻烦？

类型提示在 Python 社区中的受欢迎程度不断上升。这会把我们带向何方？我们可以做些什么来使用它……

betterprogramming.pub

简而言之，我尝试以一种使代码更具可读性的方法来使用类型提示。此外，多亏了类型提示，静态检查器可以帮助保持代码的正确性。

我们应该记住，Python 的核心在于动态类型。

同时，我们应该记住，Python 的核心在于动态类型。当我们在实现类型提示上花费大量精力时，我们有点像是在剥离 Python 的动态类型。那么剩下的是什么？剩下的就是没有核心的 Python。

当我们在实现类型提示上花费大量精力时，我们有点像是在剥离 Python 的动态类型。那么剩下的是什么？剩下的就是没有核心的 Python。

我认为，有些情况下不应该使用类型提示。例如快速原型设计。我经常这样做：为了看看某些东西如何工作，我实现一个简单的原型。有时我可能会使用一些类型提示，只是为了展示所需的参数类型，尤其是当这些类型是自定义类型时。记住，我说的是原型设计，如果说明一个特定的函数返回dict[str, tuple[int, str]]类型的对象很重要，那我会在类型提示中说明它。不是为了让静态检查器满意，而是为了展示需要展示的内容。

但在原型设计阶段，我更常忽略类型提示。到时自然会用到它们。现在重要的是代码能够动态运行。这时静态类型并不那么有用。

但当我编写数据科学软件产品时，现在我总是使用类型提示。我会坦白地说。是的，它们可以（动态地）帮助捕捉一些静态错误——但它们也可能成为很大的障碍。有时候，我觉得实现良好的类型提示比其他所有工作加起来还要花费更多的时间。代码会变得更长、更复杂。在高级项目中，良好的类型提示可能很难实现，主要是由于代码的复杂性。更糟糕的是，许多类型检查器仍然远未达到最佳状态，可能会在类型提示正确时显示错误。确实，你可以保持类型提示过于简单（x: dict），但通常不应该这样做。在生产项目中，你应该更详细，因此，不应做如下操作：

from typing import Optional

def foo(x: dict) -> Optional[dict]:
    ...

比如，你可能需要做如下操作：

def foo(x: dict[str, dict[str, float]]) -> Optional[dict[str, str]]:
    ...

或者，相当于：

from typing import Optional

Params = dict[str, dict[str, float]]
Descriptions = dict[str, str]

def foo(x: params) -> Optional[Descriptions]:
    ...

没有类型提示，代码变成了：

def foo(x):
    ...

哪种更好？你不会惊讶于我的答案：好吧，这要看情况。

让我们总结一下上述提供的选项：

无类型提示：基于鸭子类型的快速编码。
过于简化的类型提示：编码稍慢，但这种类型提示的优势相当有限。
更详细的类型提示：静态检查器提供了很大的帮助，但编码速度大幅降低，同时静态检查器失败的风险也大大增加；通常，鸭子类型变得隐蔽，如果不是被遗忘的话；代码可读性下降。
基于类型别名的更详细类型提示：与上述类似，但代码更易读。
极其详细的类型提示，细节到最深层次：对我来说，绝对是一种过于狂热的方法，没有优势且有许多缺点，和详细的类型提示一样——但在一种夸张的形式中。
专用工具如 [pylance](https://pypi.org/project/pylance/) 或 [typeguard](https://pypi.org/project/typeguard/)。但请记住，这些工具可能会导致运行时效率成本，如果你决定在运行时类型检查中使用它们——而类型提示本身是一个静态检查工具，对运行时没有影响。

如常，最佳选择通常在这些选项之间的某个地方，你可以称之为黄金选择。但这个选择的位置取决于项目的多个方面，如客户、公司、项目负责人以及——最重要的——项目的类型。

在原型设计过程中，你通常会选择不使用类型提示，特别是当你不是类型提示的忠实粉丝时。然而，当你是时，你会发现自己更经常地使用它们——除非截止日期太紧迫，甚至无法再多花一分多余的时间。那是多余的吗？好吧，你已经知道答案了……这要看情况。

上述方法是我在日常数据科学工作中遵循的做法。一些细节因项目而异，但大体上几乎都是一样的。我认为这些是大多数进行数据科学项目的公司遵循的规则，因此你也可能希望遵循这些规则——除非公司或项目的规则非常严格。否则，你可能没有选择的余地。

无论你是否是一个快乐的类型提示用户，你都应该了解它是如何工作的以及如何使用它。如今，一个不知道如何使用类型提示的 Python 开发者… 已经不再是 Python 开发者了。接受这一点：你必须了解类型提示，并且要了解得很透彻。

不过请记住，Python 的类型提示系统仅在一定复杂度下才有帮助。即使你作为代码的作者了解你实现的复杂类型提示的所有细节，其他开发者也可能需要花费很多时间来理解代码。如果我被迫越过这一界限，我可能会认为是时候换一种语言了。被迫走到这一步，我会认为像 Go 这样的静态类型语言可能会更好。

感谢阅读。如果你喜欢这篇文章，你也可能喜欢我写的其他文章；你可以在这里查看。如果你想加入 Medium，请使用下面的推荐链接：

作为 Medium 的会员，你的一部分会员费用会流向你阅读的作者，你可以完全访问每一个故事…

Python 类型提示与字面量

原文：towardsdatascience.com/python-type-hinting-with-literal-03c60ce42750

PYTHON 编程

比看起来更强大：使用`typing.Literal`创建字面类型

## An OptionalBool Type for Python: None, False or True

·发布于 Towards Data Science ·15 min read·Nov 28, 2023

typing.Literal创建具有选定选项的类型。图片由Caleb Jones提供，来源于Unsplash

我承认：我并不总是喜欢typing.Literal，这是在 Python 中创建字面类型的一种形式。实际上，我不仅低估了字面类型，还完全忽视了它们，拒绝使用它们。出于某种原因，即使今天我也不太明白，我找不到字面类型的实际价值。

我有多么错误。我没有认识到这个简单工具的强大，我的代码因此受到了影响。如果你像我一样忽略了字面类型，我敦促你阅读这篇文章。我希望说服你，尽管它很简单，typing.Literal可以成为你 Python 编程工具库中的一个非常有用的工具。

即使你已经认识到字面类型的价值，也不要停止阅读。虽然我们不会深入探讨typing.Literal的所有细节，但这篇文章将提供比官方 Python 文档更全面的介绍，而不会像PEP 586那样陷入细节。

字面类型非常直接，可以使代码比没有字面类型的代码更清晰、更易读。这种简单性既是typing.Literal的优点，也是其缺点，因为它不提供任何额外的功能。然而，我将向你展示如何自行实现附加功能。

这篇文章的目标是介绍typing.Literal并讨论其在 Python 编程中的价值。在过程中，我们将探讨何时使用typing.Literal——同样重要的是，何时不要使用它。

字面类型

字面量类型是通过PEP 586引入到 Python 类型系统中的。这个 PEP 提供了对字面量类型提案的全面探讨，是一个丰富的信息来源。相比之下，typing.Literal类型的官方文档故意简洁，反映了它的直接性质。本文弥补了这两个资源之间的差距，提供了关于字面量类型的基本信息，同时深入探讨了我认为对所讨论用例至关重要的细节。

如PEP 586中所述，字面量类型在 API 根据参数值返回不同类型的场景中特别有用。我会进一步扩展这一说法，指出字面量类型允许创建一个涵盖特定值的类型，这些值不一定都是同一类型的。这并不排除所有值具有相同类型的可能性。

字面量类型提供了一种极其简单的方法来定义和利用具有特定值的类型，这些值是唯一可能的值。这种简单性远远超过任何替代方法。虽然确实可以使用其他方法实现相同的结果，但这些替代方案通常会带来更复杂的实现和潜在的更丰富功能。例如，创建你自己的类型（类）需要仔细考虑设计和实现，而创建字面量类型时可以完全忽略这些问题。

使用typing.Literal通常提供了一个更简单的解决方案，往往简单得多，但功能可能有所减少。因此，在做出决定之前，必须仔细权衡两种方法的优缺点。本文可以帮助你做出明智的选择。

字面量中可接受的类型

要创建一个typing.Literal类型，可以使用以下值：

一个int、bool、str或bytes的字面量值
一个枚举值
None

像float或自定义（非枚举）类的实例是不接受的。

字面量类型：用例

现在我们将探讨几个我认为字面量类型是绝佳选择（往往是最佳选择）的用例。我们还将检视一些可能更合适的替代解决方案。每个用例都假设需要一个只接受特定值的类型，这些值不一定都是同一类型的。typing.Literal不会创建空类型，因此Literal[]是无效的。然而，它可以创建具有单一值的字面量类型。

下述讨论的用例并不构成情境的详尽列表，而是作为示例，其中一些可能会重叠。这个非排他性列表旨在展示typing.Literal提供的机会范围，并增强对这个有趣且有价值工具的理解。

示例 1：仅一个值

如前所述，当变量只接受单一值时，可以使用字面量类型。虽然这乍一看可能不符合直觉，文档提供了相关示例：

def validate_simple(data: Any) -> Literal[True]:
    ...

这个函数旨在进行数据验证，并始终返回 True。换句话说，如果验证失败，函数会引发错误；否则，它会返回 True。

理论上，如下所示的 bool 类型的返回值类型签名，对于静态检查器来说是可以接受的：

def validate_simple(data: Any) -> bool:
    ...

然而，该函数从未返回 False，使得这个类型提示具有误导性和不准确性。使用 bool 表示函数根据情况可以返回两个布尔值中的任意一个。当函数始终只返回其中一个值而从不返回另一个时，使用 bool 是误导性的。

这正是字面量类型发挥作用的地方。它不仅满足静态检查器的要求，还为用户提供了有价值的信息。

示例 2：需要静态类型

当运行时类型检查不需要时，静态类型通常提供最有效的解决方案。因此，如果你需要一个接受一个或多个特定值的类型，并且你的主要目标是通知静态检查器，创建相应的字面量类型是一个极好的方法。

示例 3：多个字符串

此用例包含了一系列字符串，例如模式、产品或颜色。以下是一些示例：

Colors = Literal["white", "black", "grey"]
Grey = Literal["grey", "gray", "shades of grey", "shades of gray"]
Mode = Literal["read", "write", "append"]

如你所见，此用例中的字面量类型可以包含两个或更多的字符串。重要的是，使用 Literal 不允许我们建立个别值之间的关系。例如，我们可以创建以下字面量类型：

Days = Literal[
    "Monday", "Tuesday", "Wednesday",
    "Thursday", "Friday", "Saturday", "Sunday"
]

值的提供顺序是否重要？在 Python 3.9.1 之前，是的：

在 Python 3.9.1 之前，字面量类型中的值的顺序是重要的。图片由作者提供

但自那以后就不再重要了：

从 Python 3.9.1 开始，字面量类型中值的顺序不再重要。图片由作者提供

因此，重要的是可能的选择，而不是它们之间的关系。如果利用值的顺序是关键，考虑使用其他类型，而不是字面量类型。一个解决方案是利用枚举类型，使用 enum.Enum 类；我们将很快在专门的文章中深入探讨这个概念。

谨慎提醒：Python 3.11 及更新版本引入了typing.LiteralString。这是一个不同的工具，因为与typing.Literal不同，它作为一种类型存在，而不是创建类型的工具。在本文中，我们探讨了字面量类型的创建，我不希望引入与这个略有不同但相关的工具的混淆。如果你有兴趣了解更多，访问文章末尾的附录。不过，让我们现在将这个话题搁置。关键是，typing.LiteralString不是typing.Literal的字符串替代品。

typing.LiteralString 不是 typing.Literal的字符串替代品。

示例 4：相同类型的多个值

这个示例扩展了前一个示例，涵盖了更广泛的数据类型。就像我们为字符串使用字面量类型一样，我们也可以将它们应用于大多数其他数据类型。这里是一些示例：

Literal[1, 5, 22] # integers
Literal["1", "5", "22"] # strings

如上所述，你可以使用int、bool、str或bytes的字面量值、枚举值和None。

示例 5：组合各种类型的值

这代表了字面量类型的最通用形式。你可以组合任何类型的对象，它将正常工作。这有些类似于使用typing.Union类型，但与典型的Union使用情况不同，我们是在组合对象而不是类型。

注意区别：一个常见的 Union 使用案例可能如下所示：

Union[int, str]

而一个组合了int和str类型对象的字面量类型可能如下：

Tens = Literal[10, "10", "ten"]

这里是一些其他示例：

Positives = Literal[True, 1, "true", "yes"]
Negatives = Literal[False, 0, "false", "no"]
YesOrNo = Literal[Positives, Negatives]

你可以创建以下类型：Literal[True, False, None]。它类似于这里描述的OptionalBool类型。

使用 OptionalBool 而不是 Optional[bool]。

上述文章中描述的OptionalBool类型比基于Literal的对应类型要复杂得多，后者既易于使用和理解，又具有显著较差的功能。

上述代码块中的三个例子也很有趣。它们显示了你可以创建两个（或更多）字面量类型的组合。这里，YesOrNo是一个将两个其他字面量类型，即Positives和Negatives组合在一起的字面量类型：

在 Python 3.9.1 及更高版本中连接两个字面量类型。作者想象

但请记住，这在 Python 3.9.1 之前的版本中不会以相同的方式工作（我们之前讨论了类型定义中字面量的顺序）：

在 Python 3.9.1 之前连接两个字面量类型。作者想象

示例 6：运行时 membership 检查

在前面的例子中，我们专注于字面量类型的静态应用。然而，这并不排除它们在运行时的使用，即使这偏离了 Python 类型提示的原意。在这里，我将演示当需要时，你可以对字面量类型进行运行时成员检查。换句话说，你可以验证一个给定的值是否属于字面量类型的可能选择集合。

坦白说，我认为这一单一能力使 typing.Literal 成为一个更强大的工具。虽然它偏离了字面量类型的传统用法（静态代码检查），但这并不是一种黑客行为。这是类型模块的一个合法功能：typing.get_args()。

一个例子将最好地说明这个概念。首先，让我们定义一个字面量类型：

from typing import Any, get_args, Literal, Optional

Tens = Literal[10, "10", "ten"]

Tens 类型涵盖了数字 10 的各种表示形式。现在，让我们定义一个函数来验证一个对象是否具有 Tens 类型：

def is_ten(obj: Any) -> Optional[Tens]:
    if obj in get_args(Tens):
        return obj
    return None

关于这个函数的几点说明：

它接受任何对象，并返回 Optional[Tens]，这表明如果 obj 是 Tens 的有效成员，函数将返回它；否则，将返回 None。这就是为什么使用 typing.Optional（参见这篇文章）。
使用 typing.get_args() 函数进行检查。对于字面量类型，它返回所有可能的值。
在这里情况变得有趣。从动态的角度来看，函数的最后一行（return None）是多余的，因为缺少的 None 返回值会被隐式解释为 None 返回值。然而，mypy 不接受隐式 None 返回值，如下图所示。

Mypy 不接受隐式的 None 返回值。截图来自 Visual Studio Code。图片由作者提供

根据官方文档中的[mypy](https://mypy.readthedocs.io/en/stable/kinds_of_types.html#disabling-strict-optional-checking)，你可以使用[--no-strict-optional](https://mypy.readthedocs.io/en/stable/command_line.html#cmdoption-mypy-no-strict-optional)命令行选项来禁用严格的None检查。如果你打算使用这个选项，请三思。我更倾向于明确声明某种类型是否接受None。禁用严格检查意味着任何类型都假定接受None，这可能导致意外行为，使代码更难以理解和维护。虽然我不是非常喜欢非常详细的类型提示，但在我看来，使用[--no-strict-optional](https://mypy.readthedocs.io/en/stable/command_line.html#cmdoption-mypy-no-strict-optional)标志是一种过于简化的做法，因为None是一个非常重要的哨兵值，不应如此轻忽。

如果你确实需要在特定情况下禁用严格检查，请记住，当你这样做而其他人没有时，他们可能会在代码中遇到许多静态错误。在整个代码库中保持一致的类型检查设置是一个好的实践。

字面量与枚举

在阅读前一部分时，你是否注意到一些字面量类型与枚举类型相似？确实，它们确实有一些相似之处，但字面量类型缺乏枚举固有的自然值顺序。

比较这两种类型定义：

from typing import Literal
from enum import Enum

ColorsL = Literal["white", "black", "grey"]

class ColorsE(Enum):
    WHITE = "white"
    BLACK = "black"
    GREY = "grey"

如果你主要注意到的是语法差异，要知道你也可以使用静态工厂方法来定义枚举类型：

ColorsE2 = Enum("ColorsE2", ["WHITE", "BLACK", "GREY"])
ColorsE3 = Enum("ColorsE3", "WHITE BLACK GREY")

因此，定义语法并不是字面量类型和枚举类型之间的关键区别。首先，字面量类型是具有少量动态功能的静态类型，而枚举类型则提供了静态和动态能力，使其更加多功能。如果你需要的功能超出了字面量类型的范围，枚举类型可能是更好的选择。

本文不会深入探讨 Python 枚举的复杂性。然而，以下表格比较了这两种工具。在继续之前，请分析表格并观察typing.literal提供了enum.Enum的一部分功能。

enum.Enum与typing.Literal的比较。图片由作者提供

尽管字面量类型在简洁性、简短性和可读性方面表现优异。虽然 Python 枚举类型也很简单和可读，但字面量类型提供了更高水平的清晰性和简洁性。

结论

本文的核心信息是 typing.Literal 和字面量类型是强大的工具，提供的功能超出了最初的假设。它们的简单性掩盖了它们的深度和多功能性。正如我在文章开头提到的，我曾经低估了这个工具的价值。然而，今天我认识到它——以及一般的字面量类型——是增强 Python 代码简洁性同时保持静态正确性的强大而简单的机制。

实际上，使用其他类型提示来表达与字面量类型相同的概念可能会导致混淆，即使静态检查器没有报错。当你只需要静态类型供静态检查器检查时，typing.Literal 应该是你的首选。它的使用方法很简单，不需要过多的代码：只需类型定义，这通常需要一行或多行，具体取决于类型中包含的字面量数量。

对于需要更多高级动态功能的场景，枚举可能是更好的选择。它们通过防止无效值分配，在运行时提供了额外的安全层。另一方面，字面量类型并没有提供这种固有的保护，尽管可以像上述 is_ten() 函数演示的那样实现。然而，这种保护需要在每次用户提供该类型的值时应用。

本质上，记住字面量类型和 typing.Literal。将它们融入你的 Python 代码中，以实现简洁和可读性。我认为在 Python 中，typing.Literal 实现了最高的实用性与复杂性的比率之一，使其既非常有用又极其简单。

附录 1

typing.LiteralString

Python 3.11 及更高版本引入了 typing.LiteralString 类型。尽管其名称如此，但它并不是 typing.Literal 在字符串方面的直接替代品。为了避免不必要的混淆，我们在这里不深入探讨此类型。相反，我们简要概述一下此类型的基本方面。

与用作创建字面量类型机制的 typing.Literal 不同，typing.LiteralString 本身就是一个类型。它可以用来指定变量应持有一个字面量字符串，如下例所示：

from typing import LiteralString

def foo(s: LiteralString) -> None
    ...

请注意文档中的说明：

任何字符串字面量都与 *LiteralString* 兼容，另一个 *LiteralString* 也是如此。然而，单独标记为 *str* 的对象则不兼容。

而且

*LiteralString* 对于敏感 API 很有用，在这些 API 中，任意用户生成的字符串可能会产生问题。例如，上述生成类型检查器错误的两个情况可能会受到 SQL 注入攻击的威胁。

这个简要概述应该足以满足我们当前的讨论。如果你有兴趣进一步探索此类型，请参阅 PEP 675，该 PEP 介绍了这个字面量类型。

附录 2

使用可迭代对象定义字面量类型

警告：本节展示了一个静态无法工作的技巧。因此，如果你的唯一目标是创建静态类型，请不要使用这个技巧。这更多的是一个有趣的信息，而非生产代码中的内容。

如果你不熟悉typing.Literal，Literal[]可能类似于索引，而Literal[1, 2, 3]可能类似于列表。因此，你可能会被诱导使用列表推导式，如下所示：

>>> OneToTen = Literal[i for i in range(1, 11)]
  File "<stdin>", line 1
    OneToTen = Literal[i for i in range(1, 11)]
                         ^^^
SyntaxError: invalid syntax

错误消息表明这不是有效的语法。这是因为typing.Literal不应该用作列表推导式。相反，它用于指定类型接受的特定值。

但看看这里：

>>> OneToTen = Literal[[i for i in range(1, 11)]]

没有错误？那么，我们没问题，对吧？

不，我们不是。看看OneToTen是什么：

>>> OneToTen
typing.Literal[[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]]
>>> get_args(OneToTen)
([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],)

如你所见，这个定义有效，但并不是我们想要的方式。OneToTen是一个字面量类型，只有一个值：一个从 1 到 10 的整数列表。列表不仅不是一个可接受的字面量类型，这也不是我们期望的！

但别担心，我们还没完成。还有一个技巧可以帮助我们实现预期结果。我们可以通过两种方式访问字面量类型的可能值。一种方法是我们已经看到的get_args()函数。另一种方法是使用类型的.__args__属性：

>>> get_args(OneToTen)
([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],)
>>> OneToTen.__args__
([1, 2, 3, 4, 5, 6, 7, 8, 9, 10],)
>>> get_args(OneToTen) == OneToTen.__args__
True

虽然get_args()允许我们获取字面量类型的值，但我们可以利用.__args__属性来更新类型。看看：

>>> OneToTen.__args__ = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
>>> OneToTen
typing.Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

哈！这就是我之前提到的技巧。我们可以称之为.__args__技巧。

上面我使用了一个列表，但你使用什么类型的可迭代对象并不重要：

>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True
>>> OneToTen.__args__ = (1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True
>>> OneToTen.__args__ = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10}
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True

我将一个列表字面量赋值给了OneToTen.__args__，但你可以用其他方式实现，比如使用列表推导式或另一种推导式：

>>> OneToTen.__args__ = [i for i in range(1, 11)]
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True
>>> OneToTen.__args__ = list(range(1, 11))
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True
>>> OneToTen.__args__ = {i for i in range(1, 11)}
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True

然而，你确实需要小心，因为Literal并不总是表现得可预测。例如，它在range()中像上面那样有效，但在生成器表达式中则不行：

>>> OneToTen.__args__ = range(1, 11)
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
True
>>> OneToTen.__args__ = (i for i in range(1, 11))
>>> OneToTen == Literal[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
False
>>> OneToTen.__args__ 
<generator object <genexpr> at 0x7f...>

实际上，在使用Literal进行生成器表达式实验时，我发现它确实有几次有效……我不知道为什么：通常它不这样工作，所以在我尝试的二十多次中，只有效了 2 或 3 次。这让我担心，因为我讨厌编程语言表现出不可预测的行为——即使是在技巧中。

难以相信这一点？看看这张来自 Python 3.11 的截图：

使用生成器表达式时typing.Literal.__args__的不可预测行为。截图来自 Python 3.11。图片由作者提供

仅供参考，之前没有使用A，但使用过OneToTen——不过，这应该不影响结果。此外，下次我尝试这个时，换了个新名称B，结果也没有成功：

typing.Literal.__args__ 与生成器表达式的行为不同于之前。截图来自 Python 3.11。图像由作者提供

因此，除非你准备好接受 Python 的不可预测行为，否则在这个问题解决之前，不要将 typing.Literal 与生成器表达式一起使用。不过没什么好担心的，因为生成器表达式通常用于克服内存问题——创建字面量类型似乎不会导致这样的问题。因此，你可以将其转化为一个列表并使用，而不是用生成器创建字面量类型。

如本节开头所述，你应该避免使用 .__args__ hack。它会动态工作，但 mypy 不会接受它。了解这一点是好的，因为它扩展了你对 typing 类型提示的知识，但这不是你应该在生产代码中使用的东西。

感谢阅读。如果你喜欢这篇文章，你也可能喜欢我写的其他文章；你可以在这里查看。如果你想加入 Medium，请使用下面我的推荐链接：

[## 使用我的推荐链接加入 Medium - Marcin Kozak

作为 Medium 会员，你的一部分会员费用将会分配给你阅读的作者，并且你可以完全访问每一个故事……

medium.com](https://medium.com/@nyggus/membership?source=post_page-----03c60ce42750--------------------------------)

Python 类型：可选的可以是强制的

原文：towardsdatascience.com/python-types-optional-can-mean-mandatory-8e3b7ac2e805

PYTHON 编程

了解如何避免对 `typing.Optional` 的常见误用和误解。

## 通过我的推荐链接加入 Medium - Marcin Kozak

·发表于Towards Data Science ·8 分钟阅读·2023 年 11 月 21 日

照片由Caroline Hall拍摄，发布在Unsplash

根据Python 文档，typing.Optional 是一种方便的方式来表示一个对象可以是 None。这是一种简洁而优雅的方式来表达这个概念，但它是否也非常清晰？

让我换一种说法：当你在 Python 环境中看到“optional”这个词时，你认为它意味着什么？假设你看到一个名为 x 的参数，它的类型是 Optional[int]。int 部分相当明确，因为它很可能表示一个整数，但 Optional 代表什么呢？你的第一反应是什么？

我们来考虑以下两个选项：

我不需要提供 x 的值，因为它是可选的。
x 的值可以是 int 或 None。

如果你对 Python 类型提示足够了解，你会知道选项 2 是正确的。但当你不了解时……也许我错了，但我无法想象任何一个不懂 Python 的人会选择选项 2。选项 1 似乎更有意义。当我看到信息说某物是可选的，我会认为……嗯，就是说它是可选的……

这个问题导致了 typing.Optional 类型的常见误用。本文旨在揭示这种误用，并引导你正确理解这个类型。

`typing.Optional` 的含义

这三种类型提示是等效的：

from typing import Optional, Union

x: Union[str, None]
x: Optional[str]
x: str | None

它们都传达了相同的信息：x 可以是字符串或 None。虽然完全有效，但第一个 (Union[str, None]) 代表了 Python 类型提示的早期阶段：这是最初的方法，但现在不一定是首选方法。随后，Optional 被添加到 typing 模块中，提供了一种更简洁和直接的方式来表达这一概念。根据 the [mypy](https://mypy.readthedocs.io/en/stable/kinds_of_types.html?highlight=union#optional-types-and-the-none-type) documentation：

你可以使用 [Optional](https://docs.python.org/3/library/typing.html#typing.Optional) 类型修饰符来定义允许 None 的类型变体，例如 Optional[int]（Optional[X] 是 Union[X, None] 的首选简写）。

最终，在 Python 3.10 中，引入了 | 运算符用于类型提示。正如 mypy 文档所述，

PEP 604 引入了一种拼写联合类型的替代方式。在 Python 3.10 及更高版本中，你可以将 Union[int, str] 写作 int | str。

如你所见，这是一种用于联合类型的一般运算符，并非专门设计用于表示变量可以为 None。

尽管这三种版本都是有效的，但选择应取决于几个因素。首先，如果你使用的 Python 版本低于 3.10，则 | 运算符不可用。即使使用 __future__ 导入：

from __future__ import annotations

在某些情况下，它仍然可能会失败。你可以在 the [mypy](https://mypy.readthedocs.io/en/stable/runtime_troubles.html#using-x-y-syntax-for-unions) documentation 中阅读相关内容。

尽管如此，我建议不要使用 Union 类型来表示可能为 None，因为这不必要地冗长，而且正如上面引用的文档所述，这已经不是首选选项了。Mypy 推荐使用 typing.Optional (quote：“Optional[X] 是 Union[X, None] 的首选简写”)。我同样支持这一点，原因很简单：Optional 类型正是为这种用例创建的，并且它还适用于旧版本的 Python，区别于 | 运算符。

以下是几个正确的类型提示示例，这些示例使用了 Optional：

在 Python 3.12 中使用 typing.Optional 的类型提示示例。来自 Visual Studio Code 的截图，作者提供

如你所见，Optional可以用于简单和复杂的类型提示。我们只分析其中间的一个。dict[str, Optional[int]]类型表示一个变量应该是一个字典，键是字符串，值可以是整数或None。

但是，这篇文章并不是关于做出这种选择的。我想讨论typing.Optional类型的一个常见误用——并展示如何避免它。在此过程中，我将解释我认为这种误用的来源、如何纠正它，以及如何理解typing.Optional类型。

对`Optional`的误解

请考虑以下函数签名：

from typing import Optional

def foo(s: str, n: Optional[int] = 1) -> list[str]:
    ...

让我们分析一下这个函数签名中的类型提示。但是，不要过于依赖这个分析！因为这些类型提示可能（虽然不一定）是错误的。这里是：

s是一个字符串（str）参数；它可以是位置参数或关键字参数，并且是必需的；
n是一个可选的整数（int）参数，可以是位置参数或关键字参数，默认值是1；
foo()函数返回一个字符串列表（list[str]）。

现在有一个问题：上述分析有什么问题？

第二个要点是错误的。它说n是一个可选的整数。从某种程度上说，这是一句完全有效的英语句子。n参数确实是可选的，因为你不必提供它的值；当你省略它时，将使用默认值1。

另一方面，这不一定是一个有效的typing句子。我的意思是，这种说法对typing.Optional的理解是不正确的。上面，我们用Optional[int]来表示以下含义：你不必提供n的值。这意义是不正确的。typing语法中Optional[int]的正确含义是：n可以是int或None。

下图总结了这两种理解：

正确和不正确理解typing.Optional。图像由作者提供

让我们改进函数签名。我们有四个选项可以选择，每个选项代表不同的情况。选择适合你特定场景的选项。

如你所见，将有选项 0，其中签名保持不变。是的，这种类型提示可以是正确的——但它的含义很少是你需要的。

选项 0：保持原样

from typing import Optional

def foo(s: str, n: Optional[int] = 1) -> list[str]:
    ...

类型提示n: Optional[int] = 1是完全正确的。重点是，它的含义与许多人认为的不同，因为它表示

n可以是int或None，并且
n的默认值是 1。

所以，默认值是1，但用户仍然可以提供None。

虽然技术上是正确的，但我只会在非常特定且罕见的情况下使用这种类型提示，因为这些情况非常少见，我从未遇到过需要这种类型提示的情况。这对我来说听起来不自然。

我对这个选项非常苛刻，因为在我看来，正是这种类型提示使得typing.Optional被频繁误用：它暗示n是可选的，因为它有一个默认值，因此你根本不必为这个变量或参数提供值。

我包括这个选项是因为它在技术上是正确的——但实际上你几乎不应该考虑它。至少，记住许多经验较少的 Python 用户很可能会误解这种类型提示。

选项 1：使用 Optional 并且 None 作为默认值

from typing import Optional

def foo(s: str, n: Optional[int] = None) -> list[str]:
    if n is None:
        ...
    ...

当你需要None作为整数或其他任何类型的默认值时，这是一种最常见的情况。这里使用了默认值（None），作为触发特定操作的某种情感标志。因此，如果用户提供了一个整数，则会进行一些基于整数的处理。但当n是None时，这种处理可以完全关闭。当然，这只是一个示例场景，但它非常常见。

注意if块，它旨在进行显式的None检查。也许在所有这种情况下都不需要，但根据the [mypy](https://mypy.readthedocs.io/en/stable/kinds_of_types.html?highlight=union#optional-types-and-the-none-type) documentation：

对于未加保护的None或[Optional](https://docs.python.org/3/library/typing.html#typing.Optional)值，大多数操作是不允许的[…] 相反，需要进行显式的None检查。Mypy 具有强大的类型推断功能，可以使用常规 Python 习惯来防范None值。

选项 2：不要使用 Optional

def foo(s: str, n: int = 1) -> list[str]:
    ...

在这个选项中，你真正需要的是n的默认值，但n不能是None。在这里，你完全不需要提供n的值，因为有了默认值，你在调用foo()时不必提供它的值。因此，这就是英语中optional的正确含义（参数是可选的，因为你不必提供它的值），但在typing语法中是不正确的（参数不是Optional，因为n不能是None）。

选项 3. 使用 Optional 但要求其值

这个用例展示了为什么使用typing.Optional并不会使参数optional。如上所述，typing.Optional类型意味着一个变量可以是None，但这并不意味着当它用于参数时，你不必提供它的值。因此，这段代码是完全有效的：

def foo(s: str, n: Optional[int]) -> list[str]:
    if n is None:
        ...
    ...

尽管n是Optional，但它不是可选的——你必须提供它的值。因此，你必须提供n，但它仍然可以是None。在这里，可选意味着n是可选的int，因为它也可以是None。

如同选项 1 一样，你通常应该对n使用显式的None检查，因为我所写的关于使用None的内容在这里也适用。

对于使用 typing.Optional 处理必需参数的肯定。图片作者

结论

我们讨论了一个与typing.Optional类型相关的常见错误。这个错误源于这样一个事实：尽管名称暗示typing.Optional处理可选参数，但它实际上指的是一个变量是否可以是None——与是否必须在函数调用中提供参数值无关。

在我看来，“optional”一词并不能准确传达typing.Optional的含义。然而，这是一个已经存在一段时间的公认 Python 术语，因此我不预期会有任何变化——无论如何。因此，意识到这种潜在的误解很重要。希望随着时间的推移，Python 代码库会减少对typing.Optional的误用和误解。

感谢阅读。如果你喜欢这篇文章，你可能也会喜欢我写的其他文章；你可以在这里看到它们。如果你想加入 Medium，请使用下面的推荐链接：

作为 Medium 会员，你的会员费用的一部分将会给你阅读的作者，而你可以全面访问每一个故事……

Python 水质 EDA 和可饮性分析

原文：towardsdatascience.com/python-water-quality-eda-and-potability-analysis-ebc1cf553081?source=collection_archive---------1-----------------------#2023-07-08

理解数据分析和可视化技术

James McNeill

关注发表在 Towards Data Science · 11 分钟阅读 · 2023 年 7 月 8 日

图片来源：Amritanshu Sikdar 在 Unsplash

能够提供足够的饮用水是一个核心要求。在气候变化辩论中，最大的挑战之一是确保足够的淡水供生存使用。水质是一个影响所有生物的重要问题。地球上只有约三百分之一的水是淡水。而其中只有 1.2%可以作为饮用水，其余的被锁在冰川、冰盖和永久冻土中，或深埋在地下。使用数据驱动的方法来评估影响水质的特性，可以大大改善我们对使水可饮用的理解。

在最基本的层面上，水的可饮用性与水的安全性相关。数据技术可以用来审查这个目标特性。还有一些问题超出了我们目前的审查范围：

我们可以饮用所有类型的淡水吗？

世界上可以获取的淡水比例是多少？

随着海平面上升，地下水位是否也增加了？

在本文中，我们将与一个小型水质数据集一起进行探讨。我们将通过使用 pandas 和 numpy 的数据分析技术，从数据中寻找隐藏的见解。对于数据可视化，将使用 matplotlib 和 seaborn 库。将采用一系列探索性数据分析（EDA）技术，以进一步明确数据质量。

每个数据可视化都旨在突出数据的不同特征。它们还将为用户提供模板，以应用于其他挑战。

数据集

对于这项分析，水质数据集取自 Kaggle¹。

## 水质

饮用水的可饮用性

www.kaggle.com

使用了带有 Python 代码的 jupyter notebook 实例进行处理。

import sys
print(sys.version) # displays the version of python installed

运行上述脚本后，输出将显示使用了版本 3.7.10 的 Python。为了能够复制接下来的结果，用户应确保在工作环境中使用 Python 3。

理解数据

首先，我们需要了解我们正在使用的数据。由于文件格式为 csv 文件，将使用标准的 pandas 导入语句 read_csv。

# Import the dataset for review as a DataFrame
df = pd.read_csv("../input/water-potability/water_potability.csv")

# Review the first five observations
df.head()

导入数据后，代码将变量 df 分配为 pandas 方法生成的 DataFrame 输出结果。

与任何数据集一样，查看样本记录将帮助你获得信心。DataFrame 具有大量与之相关的方法，pandas API 是一个很好的资源。在 API 中，可以使用 head 方法。输出 1.1 默认显示 DataFrame 的前 5 行。为了显示更多的行，需要在括号内输入一个数值。可以应用两种替代方法来对 DataFrame 进行采样：i) sample (df.sample()) 从索引中选择随机行，或者 ii) tail (df.tail()) 从索引中选择最后的 n 行。

输出 1.1 DataFrame 的前五条记录详细信息

运行任何方法时，括号会在方法名后面出现，以便 Python 解释器产生结果。

显示 DataFrame 的内存可能是一个常见的任务，特别是在涉及内存限制时。例如，当要导入的数据集可能大于 Python 会话中可用的内存时。通过使用 pandas 库，DataFrame 会在内存中创建，因此用户应该了解在执行这些处理步骤时可以使用的内存。

# Display information about the DataFrame - contains memory details
df.info(memory_usage="deep")

上面的代码可以用作显示输出 1.2 的方法。通过包含关键字 memory_usage，Python 解释器会进行更深入的搜索，以了解下面显示的内存使用情况。默认选项会执行一般搜索，因此如果需要评估的准确性，请确保应用上述关键字短语。

输出 1.2 提供了内存使用情况的功能和详细信息概述

从输出 1.2 显示的结果中，可以查看一系列详细信息，从列名称和数据类型，到确认变量的类别和非空值的数量。我们可以看到整个表格中显示了 3,276 行。然而，对于 Sulfate 列，只有 2,495 个非空值。因此，可以查看一些缺失值，以了解这些缺失条目是否与其他列存在模式。我们将在文章后面回顾一种数据可视化技术，可以帮助识别模式。

根据之前的导入语句，用户可以调整列的 Dtype，如果默认选项不符合预期的话。上述结果显示，对于十进制数字，应用了 float Dtype，而整数显示为 int。此外，还包括了这些数字列的最大字节内存类型，以提供潜在输入值的全面覆盖。用户应当评估这些 Dtypes 是否保持了正确的值范围，如果未来预期的范围较小，则可以分配较小的字节值。应用这一逻辑将有助于提高 DataFrame 的内存效率，并在处理时提升性能。

上述 info 方法展示的一个特性是 DataFrame 的结构，这可以通过许多其他方法进行查看。这样的元数据可以让程序员查看行数和列数等基本组件。

# Shape of the DataFrame - shows tuple of (#Rows, #Columns)
print(df.shape)
# Find the number of rows within a DataFrame
print(len(df))
# Extracting information from the shape tuple
print(f'Number of rows: {df.shape[0]} \nNumber of columns: {df.shape[1]}')

在 Python 中调用诸如 shape 这样的属性时，不需要加上括号。属性是可以通过类及其对象访问的数据结果。之前我们回顾了一个方法，它是包含在类中的一个函数。要进一步了解 Python 类语句的细节，需要深入研究。然而，我们可以继续使用所展示的代码，并且展示了输出 1.3 中显示的一些值。

输出 1.3 显示了 DataFrame 的结构的元数据

第一行显示了形状输出，这是一个元组，由两个值组成的括号表示。从上面展示的代码中，我们能够访问该元组中的相对位置，以显示第一个和第二个位置的值。由于 Python 使用 0 索引约定，应用 0 在方括号内将返回第一个值。我们可以看到，元组中包含了第一位置的行数，第二位置的列数。找到行数的另一种方法是使用 len 函数，它显示 DataFrame 的长度。

摘要统计

在这一部分，我们开始回顾 DataFrame 列的摘要细节。一个简单的 describe 方法可以用于对数字列进行高层次的数据分析。由于我们的 DataFrame 仅包含数字列，因此所有摘要属性都被生成。当存在字符和数字列的混合时，需要包含其他关键字参数以显示相关输出。

# Review the high level summary details for each variable
df.describe()

输出 1.4 显示每列的默认总结值。计数值可以解释为非空值的计数。任何总计小于 DataFrame 中行总数的显示列都有缺失值。对于每个变量，我们可以看到一系列值。我们可以使用四种矩方法来理解 i) 平均值，ii) 方差，iii) 偏度，和 iv) 峰度，基于显示的数据。

输出 1.4 标准细节显示 DataFrame 中每个特征的高级指标

在回顾总结细节时，具有外部视角来理解特征属性也是至关重要的。我们从经验中知道，pH 值应在 0 到 14 之间。如果值超出此范围，则必须检查和更正特征值。用于评估水质的数据中，平均值和中位数（由第 50 百分位数显示）接近 7 是水的中性属性的适当值。

如果 DataFrame 中有更多特征，则前一个代码块的输出可能会很难解释。输出可能会横向扩展到比没有滚动显示的范围更宽的范围。

# Transpose the summary details - easier to review larger number of features
df.desribe().T

能够转置输出是一种有用的方法。在上面的代码块中，链式调用 T 方法生成了下面的输出 1.5。现在用户可以更容易地查看行索引上显示的列名以及以列标题显示的总结指标。这一小的调整使得 describe 方法在列数较多时效果很好。

输出 1.5 总结细节转置以显示沿行索引的特征名称

要进一步了解 describe 方法的详细信息，我们可以通过使用 jupyter notebook 的问号魔法函数来解释文档字符串。

# Magic function in jupyter to display docstring
df.describe?

使用这种方法将帮助用户查看任何方法的默认参数值（关键字和位置）。

输出 1.6 在 jupyter 控制台中显示关于文档字符串和方法参数的详细信息

输出 1.6 提供了方法的内部工作原理，供用户查看。每个参数的默认值范围以及定义，有助于方法的应用。提供了一系列 jupyter 魔法函数，可以帮助提高程序员的生产力。

缺失值

如前所述，从元数据和总结统计数据中可以看到 DataFrame 中存在一些缺失值。为了确认这一点，我们可以应用下面的代码块。

# Check for the missing values by column
df.isnull().sum()

代码将第一个 isnull 方法与 sum 方法链在一起，以创建每列的缺失值数量。isnull 评估将检查列中的非空值。sum 方法用于执行计数。输出 1.7 突出显示三列显示缺失值。

输出 1.7 每列的缺失值计数

拥有缺失值总行数是一个很好的起点。然而，更好的是审查每列中缺失值的比例。

# Proportion of missing values by column
def isnull_prop(df):
    total_rows = df.shape[0]
    missing_val_dict = {}
    for col in df.columns:
        missing_val_dict[col] = [df[col].isnull().sum(), (df[col].isnull().sum() / total_rows)]
    return missing_val_dict

# Apply the missing value method
null_dict = isnull_prop(df)
print(null_dict.items())

创建 isnull_prop 用户定义函数使我们能够为每列创建一个值字典。通过此函数，我们生成了上述计数值，并使用 shape 属性理解缺失值的百分比。

输出 1.8 将缺失值百分比函数应用于每列

输出 1.8 显示的结果难以可视化。为确保不遗漏最终信息，可以生成一个 DataFrame。

# Create a dataframe of the missing value information
df_missing = pd.DataFrame.from_dict(null_dict, 
                                    orient="index", 
                                    columns=['missing', 'miss_percent'])
df_missing

将字典变量应用于 pandas DataFrame 方法将使我们更容易理解每列的差异。输出 1.9 现在包括 miss_percent 列。我们现在可以应用阈值来评估缺失值的百分比是否在我们期望的范围内。如果值过高，例如硫酸盐值大于 20%，可以设置用户定义的控制，以突出显示此列需要排除在未来使用之外或更详细地审查。

输出 1.9 创建 DataFrame 以了解每列的缺失百分比

另一种通过缺失值检查是否存在模式的方法是应用来自 seaborn 数据可视化库的热图方法。

# Display missing values using a heatmap to understand any patterns
plt.figure(figsize=(15,8))
sns.heatmap(df.isnull());

应用上述代码块将生成输出 1.10。此可视化提供了进一步的上下文，以查看是否有多个行对所有三个变量都有缺失值。这可能是因为填充数据的用户在原始数据集中一致地显示缺失值。获得这一见解将使我们能够生成数据驱动的洞察，以更有效地减少缺失值数量。

输出 1.10 使用 seaborn 数据可视化生成每列每行的缺失值热图

理解 pH 变量分布

最终评估将是对我们已知的变量进行审查。使用 seaborn 库，我们能够生成 pH 变量的直方图。

# set the histogram, mean and median
sns.displot(df["ph"], kde=False)
plt.axvline(x=df.ph.mean(), linewidth=3, color='g', label="mean", alpha=0.5)
plt.axvline(x=df.ph.median(), linewidth=3, color='y', label="median", alpha=0.5)

# set title, legends and labels
plt.xlabel("ph")
plt.ylabel("Count")
plt.title("Distribution of ph", size=14)
plt.legend(["mean", "median"]);

print(f'Mean pH value {df.ph.mean()} 
        \n Median pH value {df.ph.median()} 
        \n Min pH value {df.ph.min()} 
        \n Max pH value {df.ph.max()}')

与之前的打印语句类似，f 字符串语句允许我们添加均值、中位数、最小值和最大值，以便更容易地查看分布。

输出 1.11 使用直方图查看 pH 变量分布

输出 1.11 显示大多数 pH 值接近中间。其分布类似于正态分布，我们可以利用这一见解在向外部用户展示细节时提供帮助。

结论

在本文中，我们旨在回顾 EDA 评估的早期阶段。最初审查了导入数据的元数据，以展示早期洞察。深入挖掘摘要统计数据让我们关注缺失值。最后，我们审查了 pH 变量的直方图，以确保该变量符合外部预期。

后续文章将继续这一旅程，并寻求开发旨在预测水质的模型。将使用分类机器学习技术提供基线模型。

留下你的评论，非常感谢你的阅读！

你可以通过 LinkedIn 与我联系，进行关于数据的一次友好聊天。其他我分享的故事包括：

## 在 SQL 中声明变量

确保在 SQL 代码的开头声明关键变量，可以帮助自动化代码的重用。

[towardsdatascience.com ## 高级 SQL 操作

审查更高级的 SQL 操作，以从爱尔兰天气数据集中提取更多的数据洞察。

[towardsdatascience.com ## 开发 SQL 表

只有通过创建和开发 SQL 表，我们才能理解如何最佳利用可用内存。

[towardsdatascience.com ## Python 中的 NLP 入门

开始进入自然语言处理领域

[towardsdatascience.com

[1] : Kaggle 数据集水质来自 www.kaggle.com/datasets/adityakadiwal/water-potability，许可证协议见 creativecommons.org/publicdomain/zero/1.0/

Python 水印：旧 vs 新，笨重 vs 干净 — 你会选择哪个？

原文：towardsdatascience.com/python-watermarking-old-vs-new-clunky-vs-clean-which-will-you-choose-5f4f1e75a9f3

图片由Siegfried Frech提供，来源于Pixabay

Python 水印制作简化：OpenCV、PIL 和 filestools 的全面比较

Christopher Tao

·发表于数据科学前沿 ·8 分钟阅读·2023 年 3 月 28 日

对图像进行水印处理是摄影师、艺术家以及任何希望保护其视觉内容免受未经授权使用的人的重要任务。在 Python 世界中，有许多库可以让你为图像添加水印。在本文中，我们将比较三种流行的 Python 图像水印方法：OpenCV、PIL（Python Imaging Library）和filestools。对于最后一种方法，你只需一行代码！

在这篇文章中，我将演示使用我在澳大利亚维多利亚州菲利普岛拍摄的照片的水印功能。原始照片在这里。请随意下载以便使用。

作者拍摄的照片

1. OpenCV — 小任务的大工具

图片由Lukas提供，来源于Pixabay

OpenCV 是一个综合性的计算机视觉库，提供了广泛的图像处理功能，包括向图像添加文本水印的能力。虽然 OpenCV 并非专门为添加水印设计，但它仍然提供了实现这一目标的灵活性和控制力。然而，使用 OpenCV 添加水印可能会有些挑战，尤其是对于那些不熟悉该库的人来说。此外，使用 OpenCV 实现基于图像的水印需要一些手动处理。

无论如何，让我们看看 OpenCV 如何为我们完成这项任务。

在一切之前，请确保如果你还没有安装库，需要安装它。只需使用 pip 如下。

pip install opencv-python

要在 Python 代码中使用 OpenCV，我们需要导入 cv2 模块。为了使这个示例更简单，我还想导入 matplotlib，这样我就可以即时显示图像。

import cv2
import matplotlib.pyplot as plt

OpenCV 使从本地路径读取图像变得非常简单。你只需使用 imread 函数即可。

img = cv2.imread("my_photo.jpeg")

以下函数是可选的，我创建了这个函数以方便在 Jupyter Notebook 环境中内联显示图像。如果你想查看图像对象的样子，可以随意使用它。

def show_image(img, is_cv=False):
    if is_cv:
        img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    plt.figure(figsize=(16, 9))
    plt.imshow(img)
    plt.axis("off")
    plt.show()

在上述函数中，我添加了 is_cv 来指定这个图像对象是否来自 OpenCV。我们需要这样做，因为我们可能希望以后将这个函数用于 PIL 库。OpenCV 图像对象默认使用 BGR 而不是 RGB。因此，我们需要使用 cvtColor() 函数来转换编码方法。

之后，使用 matplotlib 来显示图像。在我的例子中，我指定了一个适合浏览器窗口的大小。此外，由于我们只是显示图像，可以关闭坐标轴。imshow() 是显示图像对象的关键函数。

因此，我们可以简单地通过调用我们刚刚创建的函数来显示图像。

show_image(img, is_cv=True)

现在，让我们创建一个字符串，这个字符串就是我们想要添加到图像上的水印文本。接下来，我们需要配置字体。有几种 OpenCV 内置的字体样式可以选择。font_scale 将决定水印文本的大小。最后，我们可以创建一个元组作为颜色。(255, 255, 255) 将使水印文本为白色。

watermark_text = "Christopher Tao @TDS"

# Set the font, font scale, and color of the text
font = cv2.FONT_HERSHEY_TRIPLEX
font_scale = 5
color = (255, 255, 255)

接下来是决定水印位置。getTextSize() 方法将帮助我们获取文本的大小。同时，我们可以从图像的 shape 属性中获取图像的维度。

# Get the size of the text
text_size, _ = cv2.getTextSize(watermark_text, font, font_scale, thickness=20)

# Calculate the position of the text
x = int((img.shape[1] - text_size[0]) / 2)
y = int((img.shape[0] + text_size[1]) / 2)

然而，需要强调的是，图像的大小是“H x W”，而文本的大小是“W x H”。因此，当我们计算坐标时，需要使用图像形状中的第二项（宽度）减去文本大小中的第一项（宽度），反之亦然。

最后，我们可以使用 putText() 方法将水印文本添加到图像中，使用我们定义的所有参数。

# Add the text watermark to the image
cv2.putText(img, watermark_text, (x, y), font, font_scale, color, thickness=2)

让我们看看结果。成功！

2. PIL — 简化水印处理

图片来源：an_photos来自 Pixabay

PIL（Python Imaging Library）是一个流行的第三方图像处理库，它提供了比 OpenCV 更简单直接的方式来给图像添加水印。然而，它仍然需要一些步骤来实现水印。PIL 是那些需要可靠且相对简单的方式来给图像添加水印的用户的不错选择，无需复杂的计算机视觉能力。

同样，在使用 PIL 库之前，我们需要按照如下方式安装它。

pip install pillow

对于 PIL 库，我们需要以下 3 个模块。

Image 模块：提供了一个用于表示和操作 PIL 中图像的类。
ImageDraw 模块：提供了一组用于在图像上绘制的函数，包括线条、矩形、圆形和文本。
ImageFont 模块：提供了一个用于加载和操作字体的类，包括设置字体大小、样式和颜色。

from PIL import Image, ImageDraw, ImageFont

然后，我们可以使用Image模块打开图像，如下所示。我们也可以重用之前定义的show_image()方法来显示原始图像。

img = Image.open('my_photo.jpeg')
show_image(img)

要操作图像，我们需要从图像对象创建一个ImageDraw实例。

# Create an ImageDraw object
draw = ImageDraw.Draw(img)

下一步有点棘手。与 OpenCV 内置的字体样式不同，PIL 只能使用单独的“.ttf”文件。虽然所有操作系统都有一些字体样式，但我们仍需要了解现有的字体样式，以便可以使用它们。

在这种情况下，我建议最简单的方法是使用matplotlib来显示可用的字体，如下所示，除非你有特定的字体样式需要使用。

import matplotlib

matplotlib.font_manager.findSystemFonts(fontpaths=None, fontext='ttf')

以下是我所使用的一些可用字体。

现在，我们可以开始设置参数。

# Prepare watermark text
font = ImageFont.truetype('Humor-Sans.ttf', size=150)

# Calculate the size of the watermark text
t_width, t_height = draw.textsize(watermark_text, font)

# Calculate the x and y coordinates for the text
x = int((img.size[0] - t_width) / 2)
y = int((img.size[1] - t_height) / 2)

我们可以使用ImageFont.truetype创建一个特定大小的水印字体。之后，我们可以通过draw对象使用textsize()方法获取文本大小。之后，计算坐标的方式与我们在 OpenCV 演示中做的一样。

最后，我们可以使用draw对象的text()方法添加水印。

# Add the text as a watermark on the image
draw.text((x, y), watermark_text, font=font, fill=(255, 255, 255))

3. Filestools — 一行代码奇迹

图片来源：Pexels来自 Pixabay

filestools 是一个第三方 Python 库，提供了一系列有用的文件和图像处理工具。它包括显示目录结构的功能，如 Linux 中的 tree 命令，比较文件差异的功能，如 diff 命令，以及使用 marker 命令给图像添加水印。此外，filestools 还可以用于将 curl 请求转换为 Python 请求代码。尽管该库由一位中国开发者创建，但它仍然被广泛访问和使用，尽管一些日志是中文的。

同样，要使用这个库，我们可以按如下方式安装它。

pip install filestools

然后，我们将水印文字添加到图像中。我们可以按如下方式从库的 watermarker 模块中导入 add_mark() 函数。然后，这个函数将完成我们需要的一切。

from watermarker.marker import add_mark

add_mark(file="my_photo.jpeg", 
         out="watermarked",
         mark=watermark_text, 
         size=60,
         color="#ffffff",
         opacity=0.5, 
         angle=30, 
         space=60)

out 参数是一个目录名称，因此带水印的图像将被输出到这个目录中。opacity 指定了水印的透明度。我们确实可以使用 OpenCV 和 PIL 实现这一点，但需要更多的步骤和复杂的逻辑。除此之外，水印还会被渲染为图像上的“图案”。因此，我们可以给文字指定一个 angle，以及定义文本实例之间间距的 space。

运行这个函数后，会显示“成功保存”。现在，我们可以检查我们的工作目录。我们应该能够找到一个包含带水印图像的新子目录。

这是我们打开后的带水印照片。

作者拍摄的照片

总结

图片由 Nikolett Emmert 提供，来自 Pixabay

在这篇文章中，我们比较了三种流行的 Python 库用于给图像加水印：OpenCV、PIL（Python Imaging Library）和 filestools。OpenCV 是一个综合的计算机视觉库，提供广泛的图像处理功能，而 PIL 提供了一种更简单直接的方法来给图像加水印。然而，这两个库都需要多个步骤和一些手动处理才能实现水印。另一方面，filestools 提供了一行代码的解决方案来添加水印，使其成为三者中最简单和最流线型的库。总体而言，虽然 OpenCV 和 PIL 提供了更高级的图像处理功能，但在水印添加的易用性方面，filestools 是明显的赢家。

[## 使用我的推荐链接加入 Medium - Christopher Tao

感谢你阅读我的文章！如果你不介意，请请我喝杯咖啡 😃 你的会员费用支持成千上万的…

如果你觉得我的文章有帮助，请考虑加入 Medium 会员来支持我和其他成千上万的作者！(点击上面的链接)

除非另有说明，所有图片均由作者提供

对 Python 3.12 的期待

原文：towardsdatascience.com/python3-12-98245ecd6a97

即将发布的 Python 3.12 版本中的新特性、更新和移除项

使用我的推荐链接加入 Medium — Giorgos Myrianthous

·发表于Towards Data Science ·阅读时间 6 分钟·2023 年 1 月 4 日

摄影：由Yulia Matvienko提供，来源于Unsplash

尽管开发者和团队仍在将项目升级到具有革命性（在性能方面）的Python 3.11，但新版本的发布正在进行中。

Python 3.12 预计将在接下来的几个月内发布，但 alpha 版本（当前为3.12.0a3）已发布，预发布用户现在可以访问它以测试新功能、报告错误并提供进一步建议——如果需要的话。

在这篇文章中，我们将深入探讨根据相关 PEP 预计将引入的一些更改，包括 Python 3.12 的更新和新增内容。

移除和弃用

从 Python 3.10 开始，distutils被标记为弃用——根据PEP 632——Python 3.12 将彻底移除该模块。请注意，不提供向后兼容性，这意味着任何来自distutils的导入都将导致错误。

多年来，作为标准库的一部分的distutils是 Python 中首选的包管理模块，但由于setuptools的出现改变了这一格局，即使是Python 包装用户指南也会推荐setuptools，因为它旨在克服一些distutils的限制。

尽管 setuptools 仍然使用 distutils 的功能，但前者现在已经整合了后者的副本，这意味着它不再依赖于标准库，而 pip 长期以来一直在用 setuptools 替代 distutils。因此，将遗留的 distutils 从 Python 3.12 版本中移除是有意义的。

此外，在 Python 3.12 中，wstr 和 wstr_length 成员将从 Unicode 中移除，如 PEP-623 所示。这一变更与 PEP-393 中某些 Unicode API 的弃用一致。这些成员的移除使得 64 位平台上的对象大小减少了 8 或 16 字节。

改进的错误消息

Python 3.12 还将对某些错误报告的消息进行改进。

每当在顶层模块中引发 NameError 时，Python 3.12 解释器将会在错误信息中报告建议：

>>> sys.version
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'sys' is not defined. Did you forget to import 'sys'?

同样，如果在方法中发生 NameError 并且实例具有与异常同名的属性，纠正错误的建议将是 self.<NAME>，而不是方法范围内的最接近匹配。例如，

class Foo:

  def __init__(self):
    self.my_var = 'Hello'

  def bar(self):
    another_var = my_var

>>> Foo().bar()
  File "<stdin>", line 1
    another_var = my_var
                  ^^^^^^
NameError: name 'my_var' is not defined. Did you mean: 'self.my_var'?

此外，每当因无效的导入语法（遵循模式 import x from y 而不是有效的语法 from y import x）引发 SyntaxError 时，错误信息中将会报告一个提示，告知用户这个潜在的问题，如下例所示。

>>> import mymodule.a from anothermodule.b
  File "<stdin>", line 1
    import mymodule.a from anothermodule.b
    ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
SyntaxError: Did you mean to use 'from ... import ...' instead?

最后，错误信息的另一个改进与 ImportError 相关，以及当 from <module> import <name> 因名称未解析而失败时引发的错误。在 Python 3.12 中，这些错误信息将包括有关未解析名称 <name> 的建议，基于模块 <module> 中实际包含的名称。

>>> from collections import ordereddict
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
ImportError: cannot import name 'ordereddict' from 'collections'. Did you mean: 'OrderedDict'?

现在，Linux perf profile 可用于 Python 函数

Linux perf profiler 是一个有用的工具，可以帮助用户分析应用程序并获取与其性能相关的信息。在较早的 Python 版本中，profile 能够报告原生函数和过程的信息，这些函数和过程用 C 编写。从 Python 3.12 开始，解释器能够以一种特殊模式运行，使得 perf profiler 也可以报告 Python 函数的信息。

perf 性能分析支持可以通过环境变量 [PYTHONPERFSUPPORT](https://docs.python.org/3.12/using/cmdline.html#envvar-PYTHONPERFSUPPORT) 或 [-X perf](https://docs.python.org/3.12/using/cmdline.html#cmdoption-X) 选项启用，也可以通过动态方式使用 [sys.activate_stack_trampoline()](https://docs.python.org/3.12/library/sys.html#sys.activate_stack_trampoline) 和 [sys.deactivate_stack_trampoline()](https://docs.python.org/3.12/library/sys.html#sys.deactivate_stack_trampoline) 启用。

— Python 文档

sqlite3 命令行接口

Python 3.12 还将引入一个 sqlite3 的命令行接口。这意味着 sqlite3 模块也可以通过使用语言解释器的 -m 标志作为脚本调用，从而启动 SQLite Shell。

python -m sqlite3 [-h] [-v] [filename] [sql]

此外，sqlite3 默认适配器和转换器现在已被弃用。

移除已弃用的 unittest 特性

作为 Python 3.12 发布的一部分，一些在早期版本（主要是 v3.1 和 3.2）中已被弃用的 unittest 模块特性将被移除。移除的特性包括：

许多 TestCase 方法别名，包括 failUnless、failIf、failUnlessEqual、failIfEqual、failUnlessAlmostEqual、failIfAlmostEqual、failUnlessRaises、assert_、assertEquals、assertNotEquals、assertAlmostEquals、assertNotAlmostEquals、assertRegexpMatches、assertRaisesRegexp 和 assertNotRegexpMatches
TestCase 方法 assertDictContainsSubset
TestLoader.loadTestsFromModule 参数 *use_load_tests*
TextTestResult 的别名 _TextTestResult

其他语言添加和改进

尽管不可能分享 Python 3.12 中每一个修改的详细信息，这里有一些我个人觉得相当有趣的额外改进和变化的高层概述：

在标准库的 os 模块中引入了 [os.path.isjunction()](https://docs.python.org/3.12/library/os.path.html#os.path.isjunction) 成员，允许用户检查给定路径是否为连接点
引入了一个新的 [pathlib.Path.walk()](https://docs.python.org/3.12/library/pathlib.html#pathlib.Path.walk) 方法，允许遍历目录树，类似于 os.walk()
移除了一些在早期 Python 版本中已被弃用的模块和 API

要全面了解作为版本 3.12 正式发布的一部分计划引入的所有更改，可以参考相关文档，在官方文档中。

结束语

Python 3.12 alpha 版本最近已向预发布用户公开。在本文中，我们讨论了一些最有趣的新特性和更新，基于目前分享的发布细节。有关即将发布的完整详细信息，可以参考官方变更日志。本文讨论的一些变化包括：

移除 distutils 模块
从 Unicode 中移除了 wstr 和 wstr_length
改进了 NameError、SyntaxError 和 ImportError 的错误消息
增加对 Linux perf profiler 的支持
添加了 sqlite3 命令行界面，并弃用了默认适配器和转换器。
移除了一些之前被弃用的 unittest 功能。

如官方 Python 文档所述，讨论的新功能和更新目前处于草稿阶段，预计在实际发布时会有更多更新。

预发布用户应注意，本文件目前处于草稿阶段。随着 Python 3.12 接近发布，它将会有 substantial 更新，因此即使阅读了早期版本，也值得回访查看最新内容。

成为会员 并阅读 Medium 上的每一个故事。您的会员费直接支持我和您阅读的其他作家。您还将获得对 Medium 上每一个故事的完全访问权限。

作为 Medium 会员，您的会员费的一部分将用于支持您阅读的作家，并且您可以完全访问每一个故事……