上一页 1 ··· 55 56 57 58 59 60 61 62 63 ··· 216 下一页

2014年8月31日

Linux企业级项目实践之网络爬虫(11)——处理http请求头

摘要: http请求头,HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST)。如有必要,客户程序还可以选择发送其他的请求头。HTTP客户程序(例如浏览器),向服务器发送请求的时候必须指明请求类型(一般是GET或者POST)。如有必要,客户程序还可以选择发送其他... 阅读全文

posted @ 2014-08-31 22:35 三少爷的剑123 阅读(188) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(10)——处理HTTP状态码

摘要: HTTP状态码(HTTP Status Code)是用以表示网页服务器HTTP响应状态的3位数字代码。所有状态码的第一个数字代表了响应的五种状态之一。他们分别是:消息(1字头)成功(2字头)这一类型的状态码,代表请求已成功被服务器接收、理解、并接受。重定向(3字头)这类状态码代表需要客户端采取进一... 阅读全文

posted @ 2014-08-31 22:25 三少爷的剑123 阅读(169) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(9)——通过URL抓取网页内容

摘要: 基本URL包含模式(或称协议)、服务器名称(或IP地址)、路径和文件名,如“协议://授权/路径?查询”。完整的、带有授权部分的普通统一资源标志符语法看上去如下:协议://用户名:密码@子域名.域名.顶级域名:端口号/目录/文件名.文件后缀?参数=值#标志爬虫系统要处理的URL是指使用超文本传输协... 阅读全文

posted @ 2014-08-31 22:19 三少爷的剑123 阅读(297) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(8)——认识URL

摘要: URL是Uniform Resource Location的缩写,译为“统一资源定位符”。也可以说,URL是Internet上用来描述信息资源的字符串,主要用在各种WWW客户程序和服务器程序上。采用URL可以用一种统一的格式来描述各种信息资源,包括文件、服务器的地址和目录等。URL的格式由三部分组... 阅读全文

posted @ 2014-08-31 22:08 三少爷的剑123 阅读(307) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(7)——DNS解析

摘要: DNS 是Domain Name Service的缩写。域名系统为Internet上的主机分配域名地址和IP地址。IP地址不易于记忆,然而域名地址相比较而言是方便于记忆的。用户如果使用域名地址,当想获得IP地址时,就要向域名服务器发送请求。这个域名服务器就会自动把域名地址转为IP地址返回给用户。爬... 阅读全文

posted @ 2014-08-31 22:06 三少爷的剑123 阅读(482) 评论(1) 推荐(0)

Linux企业级项目实践之网络爬虫(6)——将程序设计成为守护进程

摘要: 在linux或者unix操作系统中在系统的引导的时候会开启很多服务,这些服务就叫做守护进程。为了增加灵活性,root可以选择系统开启的模式,这些模式叫做运行级别,每一种运行级别以一定的方式配置系统。 守护进程是脱离于终端并且在后台运行的进程。守护进程脱离于终端是为了避免进程在执行过程中的信息在任何... 阅读全文

posted @ 2014-08-31 21:58 三少爷的剑123 阅读(196) 评论(0) 推荐(0)

2014年8月28日

Linux企业级项目实践之网络爬虫(5)——处理配置文件

摘要: 配置文件在Linux下使用得非常普遍,但是Linux下没有统一个配置文件标准。我们把配置文件的规则制定如下:1、把“#”视作注释开始2、所有的配置项都都是以键值对的形式出现3、严格区分大小写4、允许数据类型为整型的配置项5、允许数据类型为字符串类型的配置项6、允许数据类型为逻辑型的配置项,取值为y... 阅读全文

posted @ 2014-08-28 01:31 三少爷的剑123 阅读(353) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(3)——设计自己的网络爬虫

摘要: 网络抓取系统分为核心和扩展组件两部分。核心部分是一个精简的、模块化的爬虫实现,而扩展部分则包括一些便利的、实用性的功能。目标是尽量的模块化,并体现爬虫的功能特点。这部分提供简单、灵活的API,在基本不改变开发模式的情况下,编写一个爬虫。扩展组件部分提供一些扩展的功能,内置了一些常用的组件,便于对爬... 阅读全文

posted @ 2014-08-28 01:15 三少爷的剑123 阅读(281) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(4)——主程序流程

摘要: 当我们设计好程序框架之后就要开始实现它了。第一步当然是要实现主程序的流程框架。之后我们逐渐填充每个流程的细节和其需要调用的模块。 主程序的流程如下:1、 解析命令行参数,并根据参数跳转到相应的处理分支2、 解析配置文件3、 载入处理模块4、 加载种子URL5、 启动抓取任务 主程序的代码... 阅读全文

posted @ 2014-08-28 01:14 三少爷的剑123 阅读(372) 评论(0) 推荐(0)

Linux企业级项目实践之网络爬虫(1)——项目概述及准备工作

摘要: 我们在学习了Linux系统编程之后,需要一些实战项目来提高自己的水平,本系列我们通过编写一个爬虫程序,将我们学习的知识进行综合应用,同时在实现项目的过程中逐渐养成一些有用的思维方式,并具有初步的软件开发思想。网络爬虫是搜索引擎的一个重要基本功能。由于互联网上的信息非常庞大,我们借... 阅读全文

posted @ 2014-08-28 01:11 三少爷的剑123 阅读(268) 评论(1) 推荐(0)

上一页 1 ··· 55 56 57 58 59 60 61 62 63 ··· 216 下一页

导航