JerryZao

2018年12月12日

摘要： 1、概述：很多网站都采用AJAX 技术，SPA技术，部分都是异步动态加载的，可以提高用户体验，减少不必要的流浪，方便CDN 加速但是，对于爬虫程序爬到的HTML页面相当于页面的模板，动态内容不在其中解决办法之一：如果能构造一个包含js引擎的浏览器，让他加载网页并和网站交互，我们编程从这个浏览器阅读全文

posted @ 2018-12-12 21:04 JerryZao 阅读(582) 评论(0) 推荐(0)

2018年12月11日

爬虫实战—模拟登陆oschina

摘要： 1、模拟登陆oschina（新浪）一般登录后，用户就可以一段时间内可以使用该用户身份操作，不需要频繁登录。这背后往往使用了Cookie技术登录后，用户获得一个cookie 值，这个值在浏览器当前会话中保存，只要不过期甚至可以保存很久用户每次想服务器提交请求时，将这些cookie提交到服务器，服阅读全文

posted @ 2018-12-11 15:35 JerryZao 阅读(1057) 评论(0) 推荐(0)

2018年12月9日

RabbitMQ

摘要： 1、RabbitMQ RabbitMQ 是由 LShift 提供的一个Advanced Message Quenuing Protocol（AMQP）的开源实现，由以高性能，健壮性记忆可伸缩性出名的rlang 写成，因此也继承了这些优点很成熟，久经考验，应用广泛文档详细，客户端丰富，几乎常用语言阅读全文

posted @ 2018-12-09 22:20 JerryZao 阅读(395) 评论(0) 推荐(0)

2018年12月8日

概述和HTTP请求与响应处理

摘要： 1、概述爬虫，应该称为网络爬虫，也叫网页蜘蛛人，网络蚂蚁等搜索引擎，就是网络爬虫的应用者 2、爬虫分类通用爬虫：常见就是搜索引擎，无差别的收集数据，存储，提交关键字，构建索引库，给用户提供搜索接口爬取一般流程： 1、初始一批URL，将这些URL放到待爬的队列 2、从队列取出这些URL，通过阅读全文

posted @ 2018-12-08 19:38 JerryZao 阅读(1609) 评论(0) 推荐(0)

2018年12月5日

概述和HTTP请求和响应处理

摘要： 1、概述爬虫，应该称为网络爬虫，也叫网页蜘蛛人，网络蚂蚁等搜索引擎，就是网络爬虫的应用者 2、爬虫分类通用爬虫：常见就是搜索引擎，无差别的收集数据，存储，提交关键字，构建索引库，给用户提供搜索接口爬取一般流程： 1、初始一批URL，将这些URL放到待爬的队列 2、从队列取出这些URL，通过阅读全文

posted @ 2018-12-05 11:54 JerryZao 阅读(1314) 评论(1) 推荐(0)

为什么坚持，想一想当初，每天进步一点点！

公告