随笔分类 -  网络爬虫

摘要:一、urllib2库介绍 urllib2是Python的一个获取URLs(Uniform Resource Locators)的组件。他以urlopen函数的形式提供了一个非常简单的接口。 这是具有利用不同协议获取URLs的能力,他同样提供了一个比较复杂的接口来处理一般情况,例如:基础验证,cook 阅读全文
posted @ 2016-07-08 14:24 zzblee苦瓜 阅读(252) 评论(0) 推荐(0)
摘要:超文本传输协议 (HTTP-Hypertext transfer protocol) 是一种详细规定了浏览器和万维网服务器之间互相通信的规则,通过因特网传送万维网文档的数据传送协议。转自:http://blog.csdn.net/gueter/article/details/1524447Autho... 阅读全文
posted @ 2014-09-13 10:28 zzblee苦瓜 阅读(207) 评论(0) 推荐(0)
摘要:通过URL去访问另一台计算机1、理解URL : HTTP协议的URL文件中的URL2、网页抓取,就是把URL 地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE 浏览器的功能,把URL 作为HTTP 请求的内容发送到服务器端,然后读取服务器端的响应资源。 Java 语言是为网... 阅读全文
posted @ 2014-08-04 23:45 zzblee苦瓜 阅读(242) 评论(0) 推荐(0)