随笔分类 -  爬虫

摘要:人人网登录地址:http://www.renren.com/ 此处登录没有考虑验证码验证码。 首先对登录方法进行分析 有两种方法。 一)在Elements中分析源码 发现登录点击后的事件是http://www.renren.com/PLogin.do 二)在Network中分析网络请求 请求链接:h 阅读全文
posted @ 2017-12-11 00:15 AntzUhl 阅读(3359) 评论(0) 推荐(1)
摘要:爬取目标网址 : http://music.163.com/#/song?id=409649818 需要爬取信息 : 网易云top13热评 使用之前的 HttpURLConnection 获取网页源码,经过分析发现,在源码中并没有热评信息 部分源码如下: 1 {/if} 2 {else} 3 <sp 阅读全文
posted @ 2017-12-09 11:31 AntzUhl 阅读(2082) 评论(0) 推荐(2)
摘要:对 http://bestcbooks.com/ 这个网站的书籍进行爬取 (爬取资源分享在结尾) 下面是通过一个URL获得其对应网页源码的方法 传入一个 url 返回其源码 (获得源码后,对源码进行解析,获得页面中其他的书籍地址和当前页面的书籍的百度网盘的链接,因为这个网站分享的书籍都是用网盘分享的 阅读全文
posted @ 2017-12-06 23:07 AntzUhl 阅读(8882) 评论(1) 推荐(0)
摘要:https网站服务器都是有证书的。 是由网站自己的服务器签发的,并不被浏览器或操作系统广泛接受。 在使用CloseableHttpClient时经常遇到证书错误(知乎的网站就是这样) 现在需要SSL绕过证书,下面直接贴出代码,调用时只需要在发送请求后 new HttpsBerBer(文件的字节码) 阅读全文
posted @ 2017-12-06 17:47 AntzUhl 阅读(4061) 评论(1) 推荐(0)
摘要:根据一个网页链接,爬取该网页下所有子网页链接,存入一个队列,再从子网页中爬取新的网页链接。 队列设计 LinkQueue : 待访问链接队列 : unVisitedUrl 已访问链接队列 : visitedUrl 所需实现的具体方法: 队列中取出一个链接 队列添加链接时判断待访问和已访问队列是否存在 阅读全文
posted @ 2017-12-03 13:22 AntzUhl 阅读(1021) 评论(0) 推荐(0)
摘要:HttpsURLConnection 扩展 HttpURLConnection,支持各种特定于 https 功能。 有关 https 规范的更多详细信息,请参见 http://www.w3.org/pub/WWW/Protocols/ 和 RFC 2818。 从1.4版本开始,此类使用 Hostna 阅读全文
posted @ 2017-12-02 22:10 AntzUhl 阅读(2062) 评论(0) 推荐(1)