随笔分类 -  爬虫

1 2 下一页
如何选择多线程/多进程
摘要:1.结论: cpu密集型代码(各种循环处理, 计算等等);使用多进程 IO密集型代码(文件处理,网络爬虫等): 使用多线程 2,解释: 单线程是只有一条公路而且是单车道,只能同时行驶一辆汽车; 多线程是只有一条公路,但是是多车道,可以同时行驶多辆汽车; 多进程是有很多条公路,每条公路可能是单车道也可 阅读全文
posted @ 2019-08-07 09:56 wy0925 阅读(155) 评论(0) 推荐(0)
多进程的使用
摘要:多进程multiprocessing和多线程treading类似,都是用在python中进行并行计算的, 而多进程则是为了弥补Python在多线程中的劣势而出现的 mutiprocessing 是使用计算机的多核进行运算, 它可以避免多线程中GIL的影响 Python使用multiprocesssing模块实现多进程, 用法和threading基本一致 import multiprocessi... 阅读全文
posted @ 2019-08-07 09:54 wy0925 阅读(137) 评论(0) 推荐(0)
多线程的使用
摘要:1,一个cpu一次只能执行一个任务, 多个cpu同时可以执行多个任务 2,一个cpu一次只能执行一个进程, 其他进程处于非运行状态 3,进程里包含的执行单元叫线程,一个进程可以包含多个线程 4,一个进程的内存空间是共享的,每个进程里的线程都可以使用这个共享空间 5,一个线程在使用这个共享空间的时候, 其它的线程必须等待(阻塞状态) 6,互斥锁作用就是防止多个线程同时使用这块内存空间, 先使用的线程 阅读全文
posted @ 2019-08-07 09:40 wy0925 阅读(177) 评论(0) 推荐(0)
JsonPath的使用
摘要:1,json.loads (字符串转换成Python对象) 2,json.dumps(Python对象转换成字符串) 3,json.load() 读取json文件内容转换为Python类型 例如: 4,json.dump() 将Python内置类型序列化为json对象写入文件 例如: jsonPat 阅读全文
posted @ 2019-07-26 15:29 wy0925 阅读(165) 评论(0) 推荐(0)
爬虫 比较好的视频推荐
摘要:https://www.bilibili.com/video/av49809274/?p=13(ajax请求的抓取, https请求的使用, proxy的使用) 阅读全文
posted @ 2019-07-26 14:17 wy0925 阅读(260) 评论(0) 推荐(0)
Scrapy爬取某装修网站部分装修效果图
摘要:爬取图片资源 阅读全文
posted @ 2019-07-26 10:26 wy0925 阅读(210) 评论(0) 推荐(0)
scrapy爬取阳光电影网全站资源
摘要:说一下我的爬取过程吧 第一步: 当然是 scrapy startproject + 名字 新建爬虫项目 第二步: scrapy genspider -t crawl +爬虫名字+ 所爬取网站的域名 (-t crawl是全站爬虫) 第三步: 最后执行爬虫代码 scrapy crawl + 爬虫名字 阅读全文
posted @ 2019-07-26 10:16 wy0925 阅读(484) 评论(0) 推荐(0)
爬虫练手实例
摘要:第一个: 静态页面类爬取猫眼电影 TOP 100 , 应用beautifulsoup + requests def getHtml(url): try: r = requests.get(url, timeout=30) r.raise_for_status() r.encoding = r.apparent_encoding ... 阅读全文
posted @ 2019-07-24 15:38 wy0925 阅读(165) 评论(0) 推荐(0)
Scrapy框架详解
摘要:一, 介绍: scrapy是一个专业的,高效的爬虫框架, 它使用专业的Twisted包高效的处理网络通信, 使用lxml(专业的XML处理包),cssselect 高效的提取HTML页面的有效信息, 同时它也提供了有效的线程管理, 爬虫框架 是实现爬虫功能的一个软件结构和功能组件集合, 爬虫框架是一 阅读全文
posted @ 2019-07-23 17:28 wy0925 阅读(317) 评论(0) 推荐(0)
淘宝商品信息定向爬虫实例介绍
摘要:功能描述: 1)目标: 获取淘宝搜索页面的信息, 提取其中的商品名称和价格. 2)理解: 淘宝的搜索接口, 翻页的处理 3)技术路线 requests-re import re """ 1, 提交商品搜索请求, 循环获取页面 2, 对于每个页面, 提取商品名称和价格信息 3, 将信息输出到屏幕上 """ def getHtmlText(url): try: r... 阅读全文
posted @ 2019-07-23 15:10 wy0925 阅读(420) 评论(0) 推荐(0)
Re库的基本使用
摘要:Re库的match对象 阅读全文
posted @ 2019-07-23 14:34 wy0925 阅读(822) 评论(0) 推荐(0)
正则表达式的语法
摘要:""" 1) . 表示任何单个字符 2)[] 字符集, 对单个字符给出取值范围 [abc]表示a、b、c, [a-z]表示a到z单个字符 3)[^]非字符集, 对单个字符给出排除范围, [^abc] 除了a、b、c的单个字符 4)* 前一个字符0次或无限次扩展 abc* 表示ab,abc,abcc,abccc等 5)+ 前一个字符1次或者无限次扩展 abc+ 表示 abc, abcc,... 阅读全文
posted @ 2019-07-22 17:02 wy0925 阅读(148) 评论(0) 推荐(0)
Beautisoup库
摘要:所看视频: https://www.bilibili.com/video/av9784617/?p=34 一, Beautifulsoup是一个可以从HTML或XML文件中提取数据的Python库,它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式 二,安装: pipenv insta 阅读全文
posted @ 2019-07-22 11:57 wy0925 阅读(858) 评论(0) 推荐(0)
Robots协议
摘要:好的网络爬虫, 首先需要遵守Robots协议, Robots协议:也称为爬虫协议,机器人协议, 全称是"网络爬虫排除标准", 通过Robots协议高速搜索引擎哪些页面可以抓取,哪些页面不能抓取 在网站根目录下放一个robots.txt文本文件(如 https://www.taobao.com/rob 阅读全文
posted @ 2019-07-22 09:58 wy0925 阅读(403) 评论(0) 推荐(0)
LXML解析html代码和文件
摘要:from lxml import etree text = """ 糗事百科 - 超搞笑的原创糗事笑话分享社区 ... 阅读全文
posted @ 2019-06-27 10:42 wy0925 阅读(492) 评论(0) 推荐(0)
XPath简介
摘要:参考视频: https://www.bilibili.com/video/av49809274/?p=22 一,什么是XPATH? xpath(xml path language)是一门在xml和HTML文件中查找信息的语言,可用来在xml和HTML文档中对元素和属性进行遍历 XPATH开发工具 1 阅读全文
posted @ 2019-06-27 10:20 wy0925 阅读(133) 评论(0) 推荐(0)
requests库 cookie和session
摘要:cookie 如果一个相应中包含了cookie,那么可以利用cookie属性拿到这个返回的cookie值: session 之前用urllib库,是可以使用opener发送多个请求,多个请求之间是可以共享cookie的,那么如果使用requests,也要达到共享cookie的目的,那么可以使用req 阅读全文
posted @ 2019-06-26 21:59 wy0925 阅读(796) 评论(0) 推荐(0)
requests库 代理
摘要:import requests proxy = { 'http': '125.123.137.2208:9999' } res = requests.get('http://httpbin.org/ip', proxies=proxy) print(res.text) 阅读全文
posted @ 2019-06-26 21:49 wy0925 阅读(140) 评论(0) 推荐(0)
requests库GET
摘要:文档地址:http://docs.python-requests.org/zh_CN/latest/index.html 阅读全文
posted @ 2019-06-26 21:23 wy0925 阅读(165) 评论(0) 推荐(0)
Cookie信息保存到本地(MozillaCookieJar)
摘要:过期的cookie也能获取到 阅读全文
posted @ 2019-06-26 17:49 wy0925 阅读(1199) 评论(0) 推荐(0)

1 2 下一页