随笔分类 -  爬虫

赵凡老师的爬虫观后感
摘要:去百度注册调取api可准确识别 阅读全文
posted @ 2019-03-07 16:35 Corey0606 阅读(232) 评论(0) 推荐(0)
摘要:什么是selenium注意:chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理( 阅读全文
posted @ 2018-11-30 16:50 Corey0606 阅读(288) 评论(0) 推荐(0)
摘要:官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: http://jquery.cuishifeng.cn/ 初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件 字符串初始化 URL初始化 文件初始化我们在pq()这 阅读全文
posted @ 2018-11-30 16:35 Corey0606 阅读(355) 评论(0) 推荐(0)
摘要:上述为选择器的大体使用方法 基本使用标签选择器 通过这种soup.标签名 我们就可以获得这个标签的内容这里有个问题需要注意,通过这种方式获取标签,如果文档中有多个这样的标签,返回的结果是第一个标签的内容,如上面我们通过soup.p获取p标签,而文档中有多个p标签,但是只返回了第一个p标签内容 获取名 阅读全文
posted @ 2018-11-30 16:16 Corey0606 阅读(206) 评论(0) 推荐(0)
摘要:在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先 scrapy框架默认的是深度优先算法 深度优先与广度 阅读全文
posted @ 2018-11-29 10:39 Corey0606 阅读(367) 评论(0) 推荐(0)
摘要:总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通 阅读全文
posted @ 2018-11-28 16:41 Corey0606 阅读(2975) 评论(0) 推荐(0)
摘要:第一种请求头的方式 第二种请求头的方式 设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c 阅读全文
posted @ 2018-11-27 13:53 Corey0606 阅读(409) 评论(0) 推荐(0)