爬虫 - 随笔分类 - Corey0606

摘要：去百度注册调取api可准确识别阅读全文

posted @ 2019-03-07 16:35 Corey0606 阅读(233) 评论(0) 推荐(0)

selenium

摘要：什么是selenium注意：chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统，包含了测试的录制（selenium IDE）,编写及运行（Selenium Remote Control）和测试的并行处理（阅读全文

posted @ 2018-11-30 16:50 Corey0606 阅读(289) 评论(0) 推荐(0)

PyQuery库的使用

摘要：官网地址：http://pyquery.readthedocs.io/en/latest/jQuery参考文档： http://jquery.cuishifeng.cn/ 初始化初始化的时候一般有三种传入方式：传入字符串，传入url,传入文件字符串初始化 URL初始化文件初始化我们在pq()这阅读全文

posted @ 2018-11-30 16:35 Corey0606 阅读(355) 评论(0) 推荐(0)

BeautifulSoup相关的用法

摘要：上述为选择器的大体使用方法基本使用标签选择器通过这种soup.标签名我们就可以获得这个标签的内容这里有个问题需要注意，通过这种方式获取标签，如果文档中有多个这样的标签，返回的结果是第一个标签的内容，如上面我们通过soup.p获取p标签，而文档中有多个p标签，但是只返回了第一个p标签内容获取名阅读全文

posted @ 2018-11-30 16:16 Corey0606 阅读(209) 评论(0) 推荐(0)

关于深度优先和广度优先

摘要：在爬虫系统中，待抓取URL队列是很重要的一部分，待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题，因为这涉及到先抓取哪个页面，后抓取哪个页面。而决定这些URL排列顺序的方法，叫做抓取策略。下面是常用的两种策略：深度优先、广度优先 scrapy框架默认的是深度优先算法深度优先与广度阅读全文

posted @ 2018-11-29 10:39 Corey0606 阅读(369) 评论(0) 推荐(0)

request库的基本使用

摘要：总体功能的一个演示我们可以看出response使用起来确实非常方便，这里有个问题需要注意一下：很多情况下的网站如果直接response.text会出现乱码的问题，所以这个使用response.content这样返回的数据格式其实是二进制格式，然后通过decode()转换为utf-8，这样就解决了通阅读全文

posted @ 2018-11-28 16:41 Corey0606 阅读(2978) 评论(0) 推荐(0)

urllib的各种方法

摘要：第一种请求头的方式第二种请求头的方式设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数，如果访问次数过多，它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c 阅读全文

posted @ 2018-11-27 13:53 Corey0606 阅读(412) 评论(0) 推荐(0)

COREY

随笔分类 - 爬虫

公告