摘要: 上次我们已经能把知乎的问题抓出来了,但是答案还木有抓出来。这一回合,我们就连着把答案也一起从网站中抠出来=。=前期我们抓取标题是在该链接下:http://www.zhihu.com/explore/recommendations但是显然这个页面是无法获取答案的。一个完整问题的页面应该是这样的链接:h... 阅读全文
posted @ 2015-09-06 19:27 独孤龟 阅读(203) 评论(0) 推荐(0) 编辑
摘要: 上一回我们拿百度做了测试,那么这一次开始做知乎下巴啦。首先花个三五分钟设计一个Logo=。=作为一个程序员我一直有一颗做美工的心!好吧做的有点小凑合,就先凑合着用咯。接下来呢,我们开始制作知乎的爬虫。首先,确定第一个目标:编辑推荐。网页链接:http://www.zhihu.com/explore/... 阅读全文
posted @ 2015-09-06 14:18 独孤龟 阅读(171) 评论(1) 推荐(0) 编辑
摘要: 上一集中我们说到需要用Java来制作一个知乎爬虫,那么这一次,我们就来研究一下如何使用代码获取到网页的内容。首先,没有HTML和CSS和JS和AJAX经验的建议先去W3C(点我点我)小小的了解一下。说到HTML,这里就涉及到一个GET访问和POST访问的问题。如果对这个方面缺乏了解可以阅读W3C的这... 阅读全文
posted @ 2015-09-06 13:42 独孤龟 阅读(149) 评论(0) 推荐(0) 编辑
摘要: 身边的小伙伴们很多都喜欢刷知乎,当然我也不例外,但是手机刷太消耗流量,电脑又不太方便。于是,就诞生了这一款小软件:铛铛铛铛!知乎下巴=。=知乎下巴,音译就是知乎下吧 ~首先我们来缕一缕思绪,想想到底要做什么,列个简单的需求。需求如下:1.模拟访问知乎官网(http://www.zhihu.com/)... 阅读全文
posted @ 2015-09-06 13:41 独孤龟 阅读(153) 评论(0) 推荐(0) 编辑
摘要: 新浪微博模拟登陆 java第一篇博客把经历记录下来,最近要做微博模拟登陆,网上找了大量的代码登陆都很繁琐,终于皇天不负有心人,找到了段简单的代码,也学习了。package us.codecraft.jobhunter;import java.io.BufferedReader;import java... 阅读全文
posted @ 2015-09-06 13:26 独孤龟 阅读(328) 评论(0) 推荐(0) 编辑
摘要: HttpClient4.3 教程 第五章 快速APIPosted on2013 年 10 月 22 日5.1.Easy to use facade APIHttpClient从4.2开始支持快速api。快速api仅仅实现了HttpClient的基本功能,它只要用于一些不需要灵活性的简单场景。例如,快... 阅读全文
posted @ 2015-09-06 13:18 独孤龟 阅读(158) 评论(0) 推荐(0) 编辑
摘要: HttpClient 4.3教程 第六章 HTTP缓存Posted on2013 年 10 月 28 日6.1.基本概念HttpClient的缓存机制提供一个与HTTP/1.1标准兼容的缓存层 – 相当于Java的浏览器缓存。HttpClient缓存机制的实现遵循责任链(Chain of Respo... 阅读全文
posted @ 2015-09-06 13:18 独孤龟 阅读(292) 评论(0) 推荐(0) 编辑
摘要: HttpClient4.3教程 第四章 HTTP认证Posted on2013 年 10 月 17 日HttpClient既支持HTTP标准规范定义的认证模式,又支持一些广泛使用的非标准认证模式,比如NTLM和SPNEGO。4.1.用户凭证任何用户认证的过程,都需要一系列的凭证来确定用户的身份。最简... 阅读全文
posted @ 2015-09-06 13:17 独孤龟 阅读(164) 评论(0) 推荐(0) 编辑
摘要: HttpClient4.3教程 第三章 Http状态管理Posted on2013 年 10 月 13 日最初,Http被设计成一个无状态的,面向请求/响应的协议,所以它不能在逻辑相关的http请求/响应中保持状态会话。由于越来越多的系统使用http协议,其中包括http从来没有想支持的系统,比如电... 阅读全文
posted @ 2015-09-06 13:16 独孤龟 阅读(136) 评论(0) 推荐(0) 编辑
摘要: HttpClient4.3教程 第二章 连接管理Posted on2013 年 10 月 11 日2.1.持久连接两个主机建立连接的过程是很复杂的一个过程,涉及到多个数据包的交换,并且也很耗时间。Http连接需要的三次握手开销很大,这一开销对于比较小的http消息来说更大。但是如果我们直接使用已经建... 阅读全文
posted @ 2015-09-06 13:15 独孤龟 阅读(216) 评论(0) 推荐(0) 编辑