摘要: 反爬机制:网站检查请求的UA, 如果发现UA是爬虫程序,则拒绝提供网站数据 User-Agent(UA) : 请求载体的身份标识 反反爬机制:伪装爬虫程序请求的UA 阅读全文
posted @ 2018-12-07 10:14 Corey0606 阅读(422) 评论(0) 推荐(0) 编辑
摘要: 1.接口excel 2. sqlite数据库写入excel、导出excel数据 重点:(1)注意pycharm中的database可视化管理,必须是DDL的数据库才可以与代码联合使用 (2) 建议以sql原生语句的形式去代码创建表跟数据库 (3) sqlite3 只支持? 和:啥 这2个占位符格式, 阅读全文
posted @ 2018-12-04 10:01 Corey0606 阅读(1306) 评论(0) 推荐(0) 编辑
摘要: 什么是selenium注意:chrome 需要与 chromedriver版本对应才能运行网上有相应的版本支持范围对照表 selenium 是一套完整的web应用程序测试系统,包含了测试的录制(selenium IDE),编写及运行(Selenium Remote Control)和测试的并行处理( 阅读全文
posted @ 2018-11-30 16:50 Corey0606 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 官网地址:http://pyquery.readthedocs.io/en/latest/jQuery参考文档: http://jquery.cuishifeng.cn/ 初始化 初始化的时候一般有三种传入方式:传入字符串,传入url,传入文件 字符串初始化 URL初始化 文件初始化我们在pq()这 阅读全文
posted @ 2018-11-30 16:35 Corey0606 阅读(344) 评论(0) 推荐(0) 编辑
摘要: 上述为选择器的大体使用方法 基本使用标签选择器 通过这种soup.标签名 我们就可以获得这个标签的内容这里有个问题需要注意,通过这种方式获取标签,如果文档中有多个这样的标签,返回的结果是第一个标签的内容,如上面我们通过soup.p获取p标签,而文档中有多个p标签,但是只返回了第一个p标签内容 获取名 阅读全文
posted @ 2018-11-30 16:16 Corey0606 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 在爬虫系统中,待抓取URL队列是很重要的一部分,待抓取URL队列中的URL以什么样的顺序排队列也是一个很重要的问题,因为这涉及到先抓取哪个页面,后抓取哪个页面。而决定这些URL排列顺序的方法,叫做抓取策略。下面是常用的两种策略:深度优先、广度优先 scrapy框架默认的是深度优先算法 深度优先与广度 阅读全文
posted @ 2018-11-29 10:39 Corey0606 阅读(329) 评论(0) 推荐(0) 编辑
摘要: 总体功能的一个演示 我们可以看出response使用起来确实非常方便,这里有个问题需要注意一下:很多情况下的网站如果直接response.text会出现乱码的问题,所以这个使用response.content这样返回的数据格式其实是二进制格式,然后通过decode()转换为utf-8,这样就解决了通 阅读全文
posted @ 2018-11-28 16:41 Corey0606 阅读(2911) 评论(0) 推荐(0) 编辑
摘要: 第一种请求头的方式 第二种请求头的方式 设置代理通过rulllib.request.ProxyHandler()可以设置代理,网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问,所以这个时候需要通过设置代理来爬取数据 cookie,HTTPCookiProcessor c 阅读全文
posted @ 2018-11-27 13:53 Corey0606 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 1.同步调用 2.异步调用之回调函数 3.异步调用之携程简单版 4.异步调用之携程提升版 5.异步调用之携程最终版 阅读全文
posted @ 2018-11-26 10:44 Corey0606 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 1.Queue使用方法: Queue.qsize():返回当前队列包含的消息数量; Queue.empty():如果队列为空,返回True,反之False ; Queue.full():如果队列满了,返回True,反之False; Queue.get():获取队列中的一条消息,然后将其从列队中移除, 阅读全文
posted @ 2018-11-26 10:06 Corey0606 阅读(429) 评论(0) 推荐(0) 编辑