爬虫 - 随笔分类 - wy0925

如何选择多线程/多进程

摘要：1.结论: cpu密集型代码(各种循环处理, 计算等等);使用多进程 IO密集型代码(文件处理,网络爬虫等): 使用多线程 2,解释: 单线程是只有一条公路而且是单车道，只能同时行驶一辆汽车；多线程是只有一条公路，但是是多车道，可以同时行驶多辆汽车; 多进程是有很多条公路，每条公路可能是单车道也可阅读全文

posted @ 2019-08-07 09:56 wy0925 阅读(155) 评论(0) 推荐(0)

多进程的使用

摘要：多进程multiprocessing和多线程treading类似,都是用在python中进行并行计算的, 而多进程则是为了弥补Python在多线程中的劣势而出现的 mutiprocessing 是使用计算机的多核进行运算, 它可以避免多线程中GIL的影响 Python使用multiprocesssing模块实现多进程, 用法和threading基本一致 import multiprocessi... 阅读全文

posted @ 2019-08-07 09:54 wy0925 阅读(137) 评论(0) 推荐(0)

多线程的使用

摘要：1,一个cpu一次只能执行一个任务, 多个cpu同时可以执行多个任务 2,一个cpu一次只能执行一个进程, 其他进程处于非运行状态 3,进程里包含的执行单元叫线程,一个进程可以包含多个线程 4,一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间 5,一个线程在使用这个共享空间的时候, 其它的线程必须等待(阻塞状态) 6,互斥锁作用就是防止多个线程同时使用这块内存空间, 先使用的线程阅读全文

posted @ 2019-08-07 09:40 wy0925 阅读(177) 评论(0) 推荐(0)

JsonPath的使用

摘要：1,json.loads (字符串转换成Python对象) 2,json.dumps(Python对象转换成字符串) 3,json.load() 读取json文件内容转换为Python类型例如: 4,json.dump() 将Python内置类型序列化为json对象写入文件例如: jsonPat 阅读全文

posted @ 2019-07-26 15:29 wy0925 阅读(165) 评论(0) 推荐(0)

爬虫比较好的视频推荐

摘要：https://www.bilibili.com/video/av49809274/?p=13(ajax请求的抓取, https请求的使用, proxy的使用) 阅读全文

posted @ 2019-07-26 14:17 wy0925 阅读(260) 评论(0) 推荐(0)

Scrapy爬取某装修网站部分装修效果图

摘要：爬取图片资源阅读全文

posted @ 2019-07-26 10:26 wy0925 阅读(210) 评论(0) 推荐(0)

scrapy爬取阳光电影网全站资源

摘要：说一下我的爬取过程吧第一步: 当然是 scrapy startproject + 名字新建爬虫项目第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的域名 (-t crawl是全站爬虫) 第三步: 最后执行爬虫代码 scrapy crawl + 爬虫名字阅读全文

posted @ 2019-07-26 10:16 wy0925 阅读(484) 评论(0) 推荐(0)

爬虫练手实例

摘要：第一个: 静态页面类爬取猫眼电影 TOP 100 , 应用beautifulsoup + requests def getHtml(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding ... 阅读全文

posted @ 2019-07-24 15:38 wy0925 阅读(165) 评论(0) 推荐(0)

Scrapy框架详解

摘要：一, 介绍: scrapy是一个专业的,高效的爬虫框架, 它使用专业的Twisted包高效的处理网络通信, 使用lxml(专业的XML处理包),cssselect 高效的提取HTML页面的有效信息, 同时它也提供了有效的线程管理, 爬虫框架是实现爬虫功能的一个软件结构和功能组件集合, 爬虫框架是一阅读全文

posted @ 2019-07-23 17:28 wy0925 阅读(317) 评论(0) 推荐(0)

淘宝商品信息定向爬虫实例介绍

摘要：功能描述: 1)目标: 获取淘宝搜索页面的信息, 提取其中的商品名称和价格. 2)理解: 淘宝的搜索接口, 翻页的处理 3)技术路线 requests-re import re """ 1, 提交商品搜索请求, 循环获取页面 2, 对于每个页面, 提取商品名称和价格信息 3, 将信息输出到屏幕上 """ def getHtmlText(url): try: r... 阅读全文

posted @ 2019-07-23 15:10 wy0925 阅读(420) 评论(0) 推荐(0)

Re库的基本使用

摘要：Re库的match对象阅读全文

posted @ 2019-07-23 14:34 wy0925 阅读(822) 评论(0) 推荐(0)

正则表达式的语法

摘要：""" 1) . 表示任何单个字符 2)[] 字符集, 对单个字符给出取值范围 [abc]表示a、b、c, [a-z]表示a到z单个字符 3)[^]非字符集, 对单个字符给出排除范围, [^abc] 除了a、b、c的单个字符 4)* 前一个字符0次或无限次扩展 abc* 表示ab,abc,abcc,abccc等 5)+ 前一个字符1次或者无限次扩展 abc+ 表示 abc, abcc,... 阅读全文

posted @ 2019-07-22 17:02 wy0925 阅读(148) 评论(0) 推荐(0)

Beautisoup库

摘要：所看视频: https://www.bilibili.com/video/av9784617/?p=34 一, Beautifulsoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式二,安装: pipenv insta 阅读全文

posted @ 2019-07-22 11:57 wy0925 阅读(858) 评论(0) 推荐(0)

Robots协议

摘要：好的网络爬虫, 首先需要遵守Robots协议, Robots协议:也称为爬虫协议,机器人协议, 全称是"网络爬虫排除标准", 通过Robots协议高速搜索引擎哪些页面可以抓取,哪些页面不能抓取在网站根目录下放一个robots.txt文本文件（如 https://www.taobao.com/rob 阅读全文

posted @ 2019-07-22 09:58 wy0925 阅读(403) 评论(0) 推荐(0)

LXML解析html代码和文件

摘要：from lxml import etree text = """ 糗事百科 - 超搞笑的原创糗事笑话分享社区 ... 阅读全文

posted @ 2019-06-27 10:42 wy0925 阅读(492) 评论(0) 推荐(0)

XPath简介

摘要：参考视频: https://www.bilibili.com/video/av49809274/?p=22 一，什么是XPATH? xpath(xml path language)是一门在xml和HTML文件中查找信息的语言，可用来在xml和HTML文档中对元素和属性进行遍历 XPATH开发工具 1 阅读全文

posted @ 2019-06-27 10:20 wy0925 阅读(133) 评论(0) 推荐(0)

requests库 cookie和session

摘要：cookie 如果一个相应中包含了cookie，那么可以利用cookie属性拿到这个返回的cookie值： session 之前用urllib库，是可以使用opener发送多个请求，多个请求之间是可以共享cookie的，那么如果使用requests，也要达到共享cookie的目的，那么可以使用req 阅读全文

posted @ 2019-06-26 21:59 wy0925 阅读(796) 评论(0) 推荐(0)

requests库代理

摘要：import requests proxy = { 'http': '125.123.137.2208:9999' } res = requests.get('http://httpbin.org/ip', proxies=proxy) print(res.text) 阅读全文

posted @ 2019-06-26 21:49 wy0925 阅读(140) 评论(0) 推荐(0)

requests库GET

摘要：文档地址：http://docs.python-requests.org/zh_CN/latest/index.html 阅读全文

posted @ 2019-06-26 21:23 wy0925 阅读(165) 评论(0) 推荐(0)

Cookie信息保存到本地（MozillaCookieJar）

摘要：过期的cookie也能获取到阅读全文

posted @ 2019-06-26 17:49 wy0925 阅读(1199) 评论(0) 推荐(0)

随笔分类 - 爬虫