celery源码解读

Celery启动的入口：

文件：Celery/bin/celery.py

看下main函数做了什么事

可以看到主要做了几个事根据-P参数判断是否需要打patch，如果是gevent或者eventlet则要打对应的补丁。

然后执行命令行逻辑

可以看到，这边取出系统参数

然后执行基类Command的execute_from_commandline，

文件：celery/bin/base.py

setup_app_from_commandline是核心函数，作用是获得我们的app对象和获得我们的配置参数

文件：Celery/bin/celery.py

这边主要获取启动类别及启动参数，我们的类别是worker所以：

这边是开始准备启动对应类别的对象，worker、beat等。

self.commands是支持的命令：

上面我们知道，我们的类型是worker，即celery.bin.worker.worker，初始化该类，然后执行run_from_argv函数

文件：celery/bin/worker.py

最后一行会执行到父类的__call__函数，

文件：celery/bin/base.py

这边主要执行的是run函数

这个函数主要是启动worker

终于进入worker了，现在这里涉及一些比较关键的东西了，

文件：celery/worker/__init__.py

在WorkController类里，是worker的基类

这是worker的蓝图，这边会形成一个依赖图，是启动的必要组件，分别负责worker的一部分任务，比较重要的几个：

Timer：用于执行定时任务的 Timer，和 Consumer 那里的 timer 不同

Hub：Event loop 的封装对象

Pool：构造各种执行池（线程/进程/协程）的

Beat：创建Beat进程，不过是以子进程的形式运行（不同于命令行中以beat参数运行)

文件：celery/apps/worker.py

文件：celery/apps/trace.py

文件：celery/app/base.py

从init_before开始，这边是最主要的，即绑定所有的task到我们的app，注册task在下面

每个task都有delay和apply_async函数，这个可以用来帮我们启动任务。

文件：celery/worker/__init__.py

这边是设置关注及不关注的队列，可以看到，celery支持ampq协议。

调用setup_includes安装一些通过CELERY_INCLUDE配置的模块,保证所有的任务模块都导入了

最后初始化蓝图，并进行apply完成蓝图各个step的依赖关系图的构建，并进行各个组件的初始化，依赖在component中已经标出

这个requires就是依赖，说明hub依赖timer，上面蓝图声明的组件都有互相依赖关系。

回到文件：celery/worker/__init__.py执行start

执行的是蓝图的start。

分别执行各个步骤的start，在apply时，会判断step是否需要start，不start但是仍要create。

通过启动日志看，worker启动的step为Pool，和Consumer；

如果换成prefork方式起，worker会多起hub和autoscaler两个step：

Hub依赖Timer，我们用gevent，所以include_if是false，这个不需要start。

Hub创建时候引用的kombu的Hub组件，Connection会注册到Hub，Connection是各种类型连接的封装，对外提供统一接口

Queue依赖Hub，这边是基于Hub创建任务队列

下面是我们的worker启动的step其中的一个，重点进行说明

初始化线程/协程池，是否弹缩，最大和最小并发数

Celery支持的几种TaskPool，

我们是gevent，所以这边直接找gevent的代码。

这边直接引用gevent的Pool

下面看worker启动的第二个step

可以看到，这边启动的是celery.worker.consumer.Consumer，这边就会涉及另一个重要的蓝图了。

文件：celery/worker/consumer，Consumer类

这是Consumer的蓝图，

Consumer启动的step为Connection，events，mingle，Gossip，Tasks，Contorl，Heart和event loop。

__init__初始化一些必要的组件，很多都是之前worker创建的。

然后执行blueprint的apply，做的事我worker之前是一样的。

执行Consumer的start，也就是执行blueprint的start。

启动的step的基本功能：

Connection：管理和broker的Connection连接

Mingle：不同worker之间同步状态用的

Tasks：启动消息Consumer

Gossip：消费来自其他worker的事件

Heart：发送心跳事件（consumer的心跳）

Control：远程命令管理服务

其中Connection，Tasks，Heart和event loop是最重要的几个。

先看Connection。

使用了consumer的connect()

Conn引用了ampq的connection，ampq的Connection是直接使用的kombu的Connection，上面说过，这个Connection是各种支持的类型（如redis，rabbitMQ等）的抽象，对外提供统一接口。

如果hub存在，会将连接注册到event loop。

再看Tasks：

这边引用的ampq的TaskConsumer，ampq的TaskConsumer继承了kombu的Consumer。

可以看到，在关键的几个地方，celery都引用了kombu，Kombu对所有的MQ进行抽象，然后通过接口对外暴露出一致的API（Redis/RabbitMQ/MongoDB），Kombu对MQ的抽象如下：

Message：生产消费的基本单位，就是一条条消息

Connection：对 MQ 连接的抽象，一个 Connection 就对应一个 MQ 的连接

Transport：真实的 MQ 连接，也是真正连接到 MQ(redis/rabbitmq) 的实例

Producers: 发送消息的抽象类

Consumers：接受消息的抽象类

Exchange：MQ 路由，这个和 RabbitMQ 差不多，支持 5种类型

Queue：对应的 queue 抽象，其实就是一个字符串的封装

Hub是一个eventloop，Connection注册到Hub，一个Connection对应一个Hub。Consumer绑定了消息的处理函数，每一个Consumer初始化的时候都是和Channel绑定的，也就是说我们Consumer包含了Queue也就和Connection关联起来了，Consumer消费消息是通过Queue来消费，然后Queue又转嫁给Channel，再转给connection，Channel是AMQP对MQ的操作的封装，Connection是AMQP对连接的封装，那么两者的关系就是对MQ的操作必然离不开连接，但是，Kombu并不直接让Channel使用Connection来发送/接受请求，而是引入了一个新的抽象Transport，Transport负责具体的MQ的操作，也就是说Channel的操作都会落到Transport上执行。