摘要: 简单爬虫实例: 功能:通过urllib.request实现网站爬虫,捕获网站内容。 from urllib import request def f(url): print("GET:%s"% url) # 实例化 resp = request.urlopen(url) # data就是下载的网页 阅读全文
posted @ 2018-01-04 17:55 kevin.Xiang 阅读(445) 评论(0) 推荐(0)
摘要: Gevent Gevent Gevent 是一个第三方库,可以轻松通过gevent实现并发同步或异步编程,在gevent中用到的主要模式是Greenlet, 它是以C扩展模块形式接入Python的轻量级协程。 Greenlet全部运行在主程序操作系统进程的内部,但它们被协作式地调度。 # geven 阅读全文
posted @ 2018-01-04 17:40 kevin.Xiang 阅读(1020) 评论(0) 推荐(0)
摘要: 协程: 1.协程,又称微线程,纤程。英文名Coroutine。 2.协程是跑在线程内的单线程,串行没有锁。 3.协程是一种用户态的轻量级线程。 4.协程CPU是访问不到的,协程是用户自己控制的。 协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其他地方,在切回来的时候,恢复先 阅读全文
posted @ 2018-01-04 17:36 kevin.Xiang 阅读(220) 评论(0) 推荐(0)
摘要: 进程池: 每一个进程在启动一个子进程时都会克隆一分数据,并开启额外一份内存空间,如果多次开启子进程,对内存的开销比较大,这里可以通过进程池来控制进程的最大个数,来解决。 进程池中有两个方法: apply #串行 apply_async #并行 回调callback: 可以启动10台机器批量进行数据库 阅读全文
posted @ 2018-01-04 17:25 kevin.Xiang 阅读(368) 评论(0) 推荐(0)