上一页 1 2 3 4 5 6 7 ··· 21 下一页
摘要: 多进程multiprocessing和多线程treading类似,都是用在python中进行并行计算的, 而多进程则是为了弥补Python在多线程中的劣势而出现的 mutiprocessing 是使用计算机的多核进行运算, 它可以避免多线程中GIL的影响 Python使用multiprocesssing模块实现多进程, 用法和threading基本一致 import multiprocessi... 阅读全文
posted @ 2019-08-07 09:54 wy0925 阅读(135) 评论(0) 推荐(0)
摘要: 1,一个cpu一次只能执行一个任务, 多个cpu同时可以执行多个任务 2,一个cpu一次只能执行一个进程, 其他进程处于非运行状态 3,进程里包含的执行单元叫线程,一个进程可以包含多个线程 4,一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间 5,一个线程在使用这个共享空间的时候, 其它的线程必须等待(阻塞状态) 6,互斥锁作用就是防止多个线程同时使用这块内存空间, 先使用的线程 阅读全文
posted @ 2019-08-07 09:40 wy0925 阅读(175) 评论(0) 推荐(0)
摘要: 1,json.loads (字符串转换成Python对象) 2,json.dumps(Python对象转换成字符串) 3,json.load() 读取json文件内容转换为Python类型 例如: 4,json.dump() 将Python内置类型序列化为json对象写入文件 例如: jsonPat 阅读全文
posted @ 2019-07-26 15:29 wy0925 阅读(164) 评论(0) 推荐(0)
摘要: https://www.bilibili.com/video/av49809274/?p=13(ajax请求的抓取, https请求的使用, proxy的使用) 阅读全文
posted @ 2019-07-26 14:17 wy0925 阅读(259) 评论(0) 推荐(0)
摘要: 爬取图片资源 阅读全文
posted @ 2019-07-26 10:26 wy0925 阅读(207) 评论(0) 推荐(0)
摘要: 说一下我的爬取过程吧 第一步: 当然是 scrapy startproject + 名字 新建爬虫项目 第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的域名 (-t crawl是全站爬虫) 第三步: 最后执行爬虫代码 scrapy crawl + 爬虫名字 阅读全文
posted @ 2019-07-26 10:16 wy0925 阅读(456) 评论(0) 推荐(0)
摘要: 第一个: 静态页面类爬取猫眼电影 TOP 100 , 应用beautifulsoup + requests def getHtml(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding ... 阅读全文
posted @ 2019-07-24 15:38 wy0925 阅读(161) 评论(0) 推荐(0)
摘要: 一, 介绍: scrapy是一个专业的,高效的爬虫框架, 它使用专业的Twisted包高效的处理网络通信, 使用lxml(专业的XML处理包),cssselect 高效的提取HTML页面的有效信息, 同时它也提供了有效的线程管理, 爬虫框架 是实现爬虫功能的一个软件结构和功能组件集合, 爬虫框架是一 阅读全文
posted @ 2019-07-23 17:28 wy0925 阅读(314) 评论(0) 推荐(0)
摘要: 功能描述: 1)目标: 获取淘宝搜索页面的信息, 提取其中的商品名称和价格. 2)理解: 淘宝的搜索接口, 翻页的处理 3)技术路线 requests-re import re """ 1, 提交商品搜索请求, 循环获取页面 2, 对于每个页面, 提取商品名称和价格信息 3, 将信息输出到屏幕上 """ def getHtmlText(url): try: r... 阅读全文
posted @ 2019-07-23 15:10 wy0925 阅读(417) 评论(0) 推荐(0)
摘要: Re库的match对象 阅读全文
posted @ 2019-07-23 14:34 wy0925 阅读(821) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 21 下一页