随笔分类 -  云计算

摘要:http://dmyz.org/archives/423遇到MongoDB突然无法启动,第一反应是删除mongod.lock。这个文件在MongoDB的数据库目录下,默认是/data/db。这是最常见的问题了,产生原因是MongoDB没有正常结束(比如被kill -9杀掉或是其他意外情况导致中断)。... 阅读全文
posted @ 2015-08-10 10:16 HuijunZhang 阅读(7322) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2015-08-04 21:24 HuijunZhang 阅读(47) 评论(0) 推荐(0)
摘要:原文链接:http://yangshangchuan.iteye.com/blog/2030741当我们配置Nutch抓取 http://yangshangchuan.iteye.com的时候,抓取的所有页面内容均为:您的访问请求被拒绝 ...... 这是最简单的反爬虫策略(该策略简单地读取HTTP... 阅读全文
posted @ 2015-04-21 11:06 HuijunZhang 阅读(532) 评论(0) 推荐(0)
摘要:Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程:2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本2004年9月Oregon State Univ... 阅读全文
posted @ 2015-04-21 11:04 HuijunZhang 阅读(523) 评论(0) 推荐(0)
摘要:转载:http://www.cnblogs.com/jingmoxukong/p/4433945.htmlAnt 简易教程Apache Ant,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具,大多用于Java环境中的软件开发。由Apache软件基金会所提供。Ant是纯Java语言编... 阅读全文
posted @ 2015-04-20 08:56 HuijunZhang 阅读(370) 评论(0) 推荐(0)
摘要:nutch 插件开发[资料整理]:http://my.oschina.net/cloudcoder/blog/472915Nutch2.3+Mongodb+ElasticSearch:http://www.cnblogs.com/zhjsll/p/4703170.html在线文档-nutch2.0 ... 阅读全文
posted @ 2015-03-21 15:33 HuijunZhang 阅读(222) 评论(0) 推荐(0)
摘要:Robots.txt是一种专门用于搜索引擎网络爬虫的文件,当构造一个网站时,如果作者希望该网站的内容被搜索引擎收录,就可以在网站中创建一个纯文本文件robots.txt,在这个文件中,声明该网站不想被robot访问的部分。这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收... 阅读全文
posted @ 2015-02-01 13:47 HuijunZhang 阅读(1380) 评论(0) 推荐(0)
摘要:本文是Heritrix的使用的高级篇,针对对Heritrix已经能够运行的码农朋友们!我们在抓取网页的时候,网页的链接中往往会包含有js、css、图片、视频等文件,第一次执行抓取任务的时候,许多农民朋友们可能会发现抓取速度令人着急,可能是由于抓取了太多的不必要的数据文件,尤其是视频文件,少则几十... 阅读全文
posted @ 2015-01-29 21:44 HuijunZhang 阅读(1636) 评论(0) 推荐(0)
摘要:jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。jsoup 的API地址:http://tool.oschina.net/apido... 阅读全文
posted @ 2015-01-28 16:10 HuijunZhang 阅读(232) 评论(0) 推荐(0)
摘要:使用Heritrix抓取到自己所需的网页后,还需要对网页中的内容进行分类等操作,这个时候就需要用到htmlparser,但是使用htmlparser并不是那么容易!因为相关的文档比较少,很多更能需要开发者自己去摸索,去发掘! 不过这里给大家提供一个比较好的网站(htmlparser的API):... 阅读全文
posted @ 2015-01-26 19:37 HuijunZhang 阅读(530) 评论(0) 推荐(0)
摘要:在Eclipse中配置HeritrixHeritrix:http://www.oschina.net/question/1465651_152024下载:http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(... 阅读全文
posted @ 2014-12-19 19:27 HuijunZhang 阅读(269) 评论(0) 推荐(0)

中国