08 2018 档案

摘要:1.1 简述 浏览器在访问一个IP地址的时候,一般会自动在地址前方加上HTTP:// 表示其基于http协议访问。 一般而言,http跟tcp在本质上没有区别。 tcp连接的过程,在JAVA语言中,在java.net包中被集成,可以很方便的调用。 tcp连接的确立基于三次握手,其过程本质上是C端与S 阅读全文
posted @ 2018-08-25 17:35 calll_me_gaga 阅读(498) 评论(0) 推荐(0)
摘要:单机爬虫,在通过优先级队列合并下载队列和访问队列,通过统一的下载器去合并下载器以及访问器之后,其机构就变的非常简单。 其启动代码也特别简单。 中间还需要加入对访问失败的URL的处理单元,比如建立一个逻辑,访问失败的URL放回任务池中等待重新访问,当访问失败3次就保存到本地。 然而,单台计算机当作爬虫 阅读全文
posted @ 2018-08-23 19:41 calll_me_gaga 阅读(581) 评论(0) 推荐(0)
摘要:1.1单机爬虫 网络爬虫是指按照一定的规则,自动抓取互联网信息的程序或脚本。其原理很简单,就是获取到一个页面的内容,获取其中所有的下一级URL,然后访问。 单线程的爬虫可以设计成递归的模式。即使,方法的入口是一个URL,方法中对URL对象内容进行解析,操作和存储,同时,在方法中获取子集URL并调用方 阅读全文
posted @ 2018-08-21 13:45 calll_me_gaga 阅读(810) 评论(0) 推荐(0)