云计算 - 随笔分类 - HuijunZhang

MongoDB无法启动的解决方法

摘要：http://dmyz.org/archives/423遇到MongoDB突然无法启动，第一反应是删除mongod.lock。这个文件在MongoDB的数据库目录下，默认是/data/db。这是最常见的问题了，产生原因是MongoDB没有正常结束（比如被kill -9杀掉或是其他意外情况导致中断）。... 阅读全文

posted @ 2015-08-10 10:16 HuijunZhang 阅读(7322) 评论(0) 推荐(0)

Nutch2.3+Mongodb+ElasticSearch

该文被密码保护。

posted @ 2015-08-04 21:24 HuijunZhang 阅读(47) 评论(0) 推荐(0)

配置Nutch模拟浏览器以绕过反爬虫限制

摘要：原文链接：http://yangshangchuan.iteye.com/blog/2030741当我们配置Nutch抓取 http://yangshangchuan.iteye.com的时候，抓取的所有页面内容均为：您的访问请求被拒绝 ...... 这是最简单的反爬虫策略（该策略简单地读取HTTP... 阅读全文

posted @ 2015-04-21 11:06 HuijunZhang 阅读(532) 评论(0) 推荐(0)

Nutch的发展历程

摘要：Nutch的创始人是Doug Cutting，他同时也是Lucene、Hadoop和Avro开源项目的创始人下面是Nutch的发展历程：2002年8月由Doug Cutting发起，托管于Sourceforge，之后发布了0.4、0.5、0.6三个版本2004年9月Oregon State Univ... 阅读全文

posted @ 2015-04-21 11:04 HuijunZhang 阅读(523) 评论(0) 推荐(0)

Ant 简易教程

摘要：转载：http://www.cnblogs.com/jingmoxukong/p/4433945.htmlAnt 简易教程Apache Ant,是一个将软件编译、测试、部署等步骤联系在一起加以自动化的一个工具，大多用于Java环境中的软件开发。由Apache软件基金会所提供。Ant是纯Java语言编... 阅读全文

posted @ 2015-04-20 08:56 HuijunZhang 阅读(370) 评论(0) 推荐(0)

Nutch

摘要：nutch 插件开发[资料整理]:http://my.oschina.net/cloudcoder/blog/472915Nutch2.3+Mongodb+ElasticSearch:http://www.cnblogs.com/zhjsll/p/4703170.html在线文档-nutch2.0 ... 阅读全文

posted @ 2015-03-21 15:33 HuijunZhang 阅读(222) 评论(0) 推荐(0)

在Prefetcher中取消robots.txt的限制

摘要：Robots.txt是一种专门用于搜索引擎网络爬虫的文件，当构造一个网站时，如果作者希望该网站的内容被搜索引擎收录，就可以在网站中创建一个纯文本文件robots.txt，在这个文件中，声明该网站不想被robot访问的部分。这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收... 阅读全文

posted @ 2015-02-01 13:47 HuijunZhang 阅读(1380) 评论(0) 推荐(0)

Heritrix个性化设置抓取目标

摘要：本文是Heritrix的使用的高级篇，针对对Heritrix已经能够运行的码农朋友们！我们在抓取网页的时候，网页的链接中往往会包含有js、css、图片、视频等文件，第一次执行抓取任务的时候，许多农民朋友们可能会发现抓取速度令人着急，可能是由于抓取了太多的不必要的数据文件，尤其是视频文件，少则几十... 阅读全文

posted @ 2015-01-29 21:44 HuijunZhang 阅读(1636) 评论(0) 推荐(0)

初学JSoup

摘要：jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS 以及类似于 jQuery 的操作方法来取出和操作数据。jsoup 的API地址：http://tool.oschina.net/apido... 阅读全文

posted @ 2015-01-28 16:10 HuijunZhang 阅读(232) 评论(0) 推荐(0)

浅谈HtmlParser

摘要：使用Heritrix抓取到自己所需的网页后，还需要对网页中的内容进行分类等操作，这个时候就需要用到htmlparser，但是使用htmlparser并不是那么容易！因为相关的文档比较少，很多更能需要开发者自己去摸索，去发掘！不过这里给大家提供一个比较好的网站（htmlparser的API）：... 阅读全文

posted @ 2015-01-26 19:37 HuijunZhang 阅读(530) 评论(0) 推荐(0)

Heritrix

摘要：在Eclipse中配置HeritrixHeritrix:http://www.oschina.net/question/1465651_152024下载：http://sourceforge.net/projects/archive-crawler/files/archive-crawler%20(... 阅读全文

posted @ 2014-12-19 19:27 HuijunZhang 阅读(269) 评论(0) 推荐(0)

小小码农

博客地址已转移至：https://zhanghuijun0.github.io/

随笔分类 - 云计算

公告