会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
JerryZao
为什么坚持,想一想当初,每天进步一点点!
管理
上一页
1
2
3
4
5
6
7
···
47
下一页
2018年12月12日
动态网页处理
摘要: 1、概述: 很多网站都采用AJAX 技术,SPA技术,部分都是异步动态加载的,可以提高用户体验,减少不必要的流浪,方便CDN 加速 但是,对于爬虫程序爬到的HTML页面相当于页面的模板,动态内容不在其中 解决办法之一:如果能构造一个包含js引擎的浏览器,让他加载网页并和网站交互,我们编程从这个浏览器
阅读全文
posted @ 2018-12-12 21:04 JerryZao
阅读(579)
评论(0)
推荐(0)
2018年12月11日
爬虫实战—模拟登陆oschina
摘要: 1、模拟登陆oschina(新浪) 一般登录后,用户就可以一段时间内可以使用该用户身份操作,不需要频繁登录。这背后往往使用了Cookie技术 登录后,用户获得一个cookie 值,这个值在浏览器当前会话中保存,只要不过期甚至可以保存很久 用户每次想服务器提交请求时,将这些cookie提交到服务器,服
阅读全文
posted @ 2018-12-11 15:35 JerryZao
阅读(1049)
评论(0)
推荐(0)
2018年12月9日
RabbitMQ
摘要: 1、RabbitMQ RabbitMQ 是由 LShift 提供的一个Advanced Message Quenuing Protocol(AMQP)的开源实现,由以高性能,健壮性记忆可伸缩性出名的rlang 写成,因此也继承了这些优点 很成熟,久经考验,应用广泛 文档详细,客户端丰富,几乎常用语言
阅读全文
posted @ 2018-12-09 22:20 JerryZao
阅读(394)
评论(0)
推荐(0)
2018年12月8日
概述和HTTP请求与响应处理
摘要: 1、概述 爬虫,应该称为网络爬虫,也叫网页蜘蛛人,网络蚂蚁等 搜索引擎,就是网络爬虫的应用者 2、爬虫分类 通用爬虫: 常见就是搜索引擎,无差别的收集数据,存储,提交关键字,构建索引库,给用户提供搜索接口 爬取一般流程: 1、初始一批URL,将这些URL放到待爬的队列 2、从队列取出这些URL,通过
阅读全文
posted @ 2018-12-08 19:38 JerryZao
阅读(1603)
评论(0)
推荐(0)
2018年12月5日
概述和HTTP请求 和 响应处理
摘要: 1、概述 爬虫,应该称为网络爬虫,也叫网页蜘蛛人,网络蚂蚁等 搜索引擎,就是网络爬虫的应用者 2、爬虫分类 通用爬虫: 常见就是搜索引擎,无差别的收集数据,存储,提交关键字,构建索引库,给用户提供搜索接口 爬取一般流程: 1、初始一批URL,将这些URL放到待爬的队列 2、从队列取出这些URL,通过
阅读全文
posted @ 2018-12-05 11:54 JerryZao
阅读(1295)
评论(1)
推荐(0)
上一页
1
2
3
4
5
6
7
···
47
下一页
公告