进程相关

一.进程和线程的区别或者GIL锁

　　1.进程是cpu资源分配的最小单元

　　　线程是cpu计算的最小单元

　　2.一个进程中可以有多个线程

　　3.对于python来说他的进程和线程和其他语言有差异, 是有GIL锁.

　　　GIL锁保证一个进程中同一时刻只有一个线程被cpu调度.

　　IO密集型操作可以使用多线程, 计算密集型操作可以使用多进程.

二.进程

　　进程（Process）是计算机中的程序关于某数据集合上的一次运行活动，是系统进行资源分配和调度的基本单位，是操作系统结构的基础。在早期面向进程设计的计算机结构中，进程是程序的基本执行实体；在当代面向线程设计的计算机结构中，进程是线程的容器。程序是指令、数据及其组织形式的描述，进程是程序的实体。

　　操作系统引入进程的概念的原因

从理论角度看，是对正在运行的程序过程的抽象；

从实现角度看，是一种数据结构，目的在于清晰地刻画动态系统的内在规律，有效管理和调度进入计算机系统主存储器运行的程序。

　进程的特征
动态性：进程的实质是程序在多道程序系统中的一次执行过程，进程是动态产生，动态消亡的。
并发性：任何进程都可以同其他进程一起并发执行
独立性：进程是一个能独立运行的基本单位，同时也是系统分配资源和调度的独立单位；
异步性：由于进程间的相互制约，使进程具有执行的间断性，即进程按各自独立的、不可预知的速度向前推进
结构特征：进程由程序、数据和进程控制块三部分组成。
多个不同的进程可以包含相同的程序：一个程序在不同的数据集里就构成不同的进程，能得到不同的结果；但是执行过程中，程序不能发生改变。

　进程与程序的区别

程序是指令和数据的有序集合，其本身没有任何运行的含义，是一个静态的概念。
而进程是程序在处理机上的一次执行过程，它是一个动态的概念。
程序可以作为一种软件资料长期存在，而进程是有一定生命期的。
程序是永久的，进程是暂时的。

　　进程间的数据不共享

1.进程间的通信应该尽量避免共享数据的方式

2.进程间的数据是独立的，可以借助队列或管道实现通信，二者都是基于消息传递的。虽然进程间数据独立，但可以用过Manager实现数据共享

import multiprocessing
data_list = []
def task(arg):
    data_list.append(arg)
    print(data_list)
def run():
    for i in range(10):
        p = multiprocessing.Process(target=task, args=(i,))
        # p = threading.Thread(target=task,args=(i,))
        p.start()
if __name__ == '__main__':
    run()
#结果
　　[2]
　　[0]
　　[1]
　　[3]
　　[8]
　　[5]
　　[6]
　　[7]
　　[4]
　　[9]

进程的常用功能

　　join

　　　　无参数,让主线程在这里等着,等到子线程t1执行完毕，才可以继续往下走
　　　　有参数,让主线程在这里最多等待n秒,无论是否执行完毕,会继续走下去

　　deamon 设置为后台线程或前台线程（默认）
如果是后台线程，主线程执行过程中，后台线程也在进行，主线程执行完毕后，后台线程不论成功与否，均停止
如果是前台线程，主线程执行过程中，前台线程也在进行，主线程执行完毕后，等待前台线程也执行完成后，程序停止

　　name

　　　　setName 为线程设置名称

　　　　getName 获取线程名称

　　multiprocessing.current_process() 获取当前执行该函数的线程的对象

　　multiprocessing.current_process().ident/pid 获取当前执行该函数的线程的ID

import time
import multiprocessing
def task(arg):
    p = multiprocessing.current_process()
    print(p.name)
    time.sleep(2)
    print(arg)
def run():
    print('111111111')
    p1 = multiprocessing.Process(target=task,args=(1,))
    p1.name = 'pp1'
    p1.start()
    print('222222222')
    p2 = multiprocessing.Process(target=task, args=(2,))
    p2.name = 'pp2'
    p2.start()
    print('333333333')
if __name__ == '__main__':
    run()
#结果:111111111
     222222222
　　　333333333
　　　pp1
　　　pp2
　　　1
　　　2

通过类继承方式创建进程

import multiprocessing
class MyProcess(multiprocessing.Process):
    def run(self):
        print('当前进程',multiprocessing.current_process())
def run():
        p1 = MyProcess()
        p1.start()
        p2 = MyProcess()
        p2.start()
if __name__ == '__main__':
    run()
#结果:当前进程 <MyProcess(MyProcess-1, started)>
     当前进程 <MyProcess(MyProcess-2, started)>

进程间的数据共享

　　进程之间的通信有两种实现方式：管道和队列

from multiprocessing import Manager,Process,Lock
def work(dic,mutex):
    # mutex.acquire()
    # dic['count']-=1
    # mutex.release()
    # 也可以这样加锁
   with mutex:
        dic['count'] -= 1
if __name__ == '__main__':
    mutex = Lock()
    m = Manager()  #实现共享，由于字典是共享的字典，所以得加个锁
    share_dic = m.dict({'count':100})
    p_l = []
    for i in range(100):
        p = Process(target=work,args=(share_dic,mutex))
        p_l.append(p)  #先添加进去
        p.start()
    for i in p_l:
        i.join()
    print(share_dic)
 # 共享就意味着会有竞争，

三.进程锁

　　Lock

　　RLock (一次放一个)( 递归锁 )

　　BoundedSemaphore（1次放N个）信号量

　　条件（Condition）(1次放动态N个)

　　事件Event（1次放所有）

import time
import threading
import multiprocessing
lock = multiprocessing.RLock()
def task(arg):
    print('鬼子来了')
    lock.acquire()
    time.sleep(2)
    print(arg)
    lock.release()
if __name__ == '__main__':
    p1 = multiprocessing.Process(target=task, args=(1,))
    p1.start()
    p2 = multiprocessing.Process(target=task, args=(2,))
    p2.start()

为什么要加锁

　　因数据共享

四.进程池

在利用Python进行系统管理的时候，特别是同时操作多个文件目录，或者远程控制多台主机，并行操作可以节约大量的时间。多进程是实现并发的手段之一，需要注意的问题是：

很明显需要并发执行的任务通常要远大于核数
一个操作系统不可能无限开启进程，通常有几个核就开几个进程
进程开启过多，效率反而会下降（开启进程是需要占用系统资源的，而且开启多余核数目的进程也无法做到并行）

那么什么是进程池呢？进程池就是控制进程数目

创建进程池的类：如果指定numprocess为3，则进程池会从无到有创建三个进程，然后自始至终使用这三个进程去执行所有任务，不会开启其他进程

import time
from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor
def task(arg):
    time.sleep(2)
    print(arg)
if __name__ == '__main__':
    pool = ProcessPoolExecutor(5)
    for i in range(10):
        pool.submit(task,i)

五.初始爬虫

　　1.安装:

　　　　pip3 install requests

　　　　pip3 install beautifulsoup4

import requests
from bs4 import BeautifulSoup
from concurrent.futures import ThreadPoolExecutor, ProcessPoolExecutor
# 模拟浏览器发送请求
# 内部创建 sk = socket.socket()
# 和抽屉进行socket连接 sk.connect(...)
# sk.sendall('...')
# sk.recv(...)
def task(url):
    print(url)
    r1 = requests.get(
        url=url,
        headers={
            'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36'
        }
    )
    # 查看下载下来的文本信息
    soup = BeautifulSoup(r1.text, 'html.parser')
    print(soup.text)
    content_list = soup.find('div',attrs={'id':'content-list'})
    for item in content_list.find_all('div',attrs={'class':'item'}):
        title = item.find('a').text.strip()
        target_url = item.find('a').get('href')
        print(title,target_url)
def run():
    pool = ThreadPoolExecutor(5)
    for i in range(1, 50):
        pool.submit(task, 'https://dig.chouti.com/all/hot/recent/%s' % i)
if __name__ == '__main__':
    run()

示例

晨曦的等待

进程相关

公告