2013年11月22日

nutch2.1+ solr4.5 遇到的一个问题

摘要: 最近搭建nutch和solr,nutch运行时用-solr参数,使用solr作为索引。但是按照安装的一些方法搭建好环境以后,nutch可以单独运行,solr也可以单独正常运行。但是nutch向solr发送的时候出现空指针异常。查看错误提示发现时batchId是空值导致的。最后在crawler.java中添加了Nutch.AGR_BATCH的值,这个值是-all。根据solr运行的提示:Usage: SolrIndexerJob ( | -all | -reindex) [-crawlId ],可见可以用-all替换batchId。修改后,可以正常用solr索引了。 if (sol... 阅读全文

posted @ 2013-11-22 19:37 fengjiaoan 阅读(374) 评论(0) 推荐(0) 编辑

2013年11月14日

nutch2.2.1+ mysql 乱码问题

摘要: 最近搭建了nutch2.2.1+mysql+solr4.5分布式环境。遇到了mysql的保存的问题,导致hadoop异常退出。1、前面的博客介绍过mysql的配置,需要修改gora.property等配置。具体可以参考前面的博客。运行少量抓取的时候没有发现问题,可以正常保存。但是抓了一些发现出现了异常。即使我们已经改成utf8的编码还是出现这样的错误Incorrect string value: '\xF0\x90\x8D\x83\xF0\x90...' for column 如下图:参考了一些博客:MySQL'sutf8permits only the Unicode 阅读全文

posted @ 2013-11-14 20:02 fengjiaoan 阅读(693) 评论(1) 推荐(0) 编辑

2013年11月4日

nutch2.2.1+ hadoop1.2.1 + mysql5.6.13

摘要: 1、首先搭建好hadoop环境,具体过程不详细说了,网上的教程很多。2、下载nutch,在其目录下面运行ant,将会产生runtime目录。然后配置nutch-site.xml等文件,可以参考http://wiki.apache.org/nutch/NutchHadoopTutorial。注意的是runtime下面有一个local目录和一个deploy目录,一般博客写的都是在local目录下面运行的,这个是单机运行。而deploy目录下面运行是分布式运行。3、nutch连接数据库mysql。只是需要修改几个配置文件即可,还要注意编码问题。4、分布式下面运行nutch。是在deploy目录下面运 阅读全文

posted @ 2013-11-04 15:37 fengjiaoan 阅读(969) 评论(0) 推荐(0) 编辑

2013年10月18日

nutch2.2.1用solr4.1建立索引

摘要: 1、首先下载jetty8.1,用于昨晚solr的容器。2、然后下载solr4.1 1)ant ivy-bootstrap 这是安装ivy。 2)运行ant compile 3)进入solr的子目录solr 运行ant dist。编译成功后,会在solr下面生成solr-4.1-SNAPSHOT.war,改名为solr.war后复制到jetty/webapps里面。修改jetty/etc/jetty.xml port由8080变成8983。将solr4.1.0/example/contexts/solr.xml 放到jetty下面contexts目录里。在jetty目录下创建solr 目录。将s 阅读全文

posted @ 2013-10-18 16:38 fengjiaoan 阅读(450) 评论(0) 推荐(0) 编辑

gora编码问题

摘要: gora的编码导致nutch的结果不能保存到数据库,错误显示如下:通过查看log,显示如下错误解决方案:将数据库中id的编码修改: 阅读全文

posted @ 2013-10-18 09:03 fengjiaoan 阅读(109) 评论(0) 推荐(0) 编辑

2013年10月16日

nutch导入eclipse

摘要: 主要是希望将nutch导入eclipse,方便调试。主要参考的资料有http://wiki.apache.org/nutch/RunNutchInEclipse。http://blog.csdn.net/amelia9/article/details/8568684。开始一直没找到好的参考资料。非常感谢上面两个博客。1、在cygwin下首先运行了ant eclipse,build成功,如下图2、在eclipse下面打开nutch2.2.1,主要遇到plugin的问题以及权限的问题。这些参考上面的资料都可以解决。3、在eclipse中用ant编译nutch,编译成功。4、设置运行参数,如下图所示 阅读全文

posted @ 2013-10-16 10:45 fengjiaoan 阅读(221) 评论(0) 推荐(0) 编辑

2013年10月7日

cygwin安装mysql

摘要: 下载mysql 5.1 源码包,解压后,放到/usr/local目录下1、./configure2、make出现的错误主要有: 1)make[2]: *** [do_abi_check] Error 127解决方法:编辑Makefile,查找do_abi_check: 将do_abi_check: 后到done 都删除,保存。重新make,又出现错误: 2)readline/readline.h:70:29: sys/ttydefaults.h: No such file or directory 解决方法:编辑当前目录下的cmd-line-utils/libedit/readline/r.. 阅读全文

posted @ 2013-10-07 23:44 fengjiaoan 阅读(823) 评论(0) 推荐(0) 编辑

2013年9月30日

nutch 安装配置

摘要: 之前接触过一些爬虫的东西,主要是编写脚本,爬取网页上想要的信息。最近了解了一个开源搜索引擎,这几天主要配置。遇到了一些问题。下面介绍一下安装的流程:1、安装cygwin,主要用于window下提供linux的环境。具体安装过程可以参考http://hi.baidu.com/www100/item/b79723f239cf9449932af29f。注意选择需要的工具包。2、cygwin中安装ssh,最好配置为不需要密码即可登陆。3、下载hadoop1.2.1,安装jdk,配置好环境变量。注意路径下有空格的时候,配置的时候要注意。可以参考http://blog.csdn.net/liu_jas.. 阅读全文

posted @ 2013-09-30 19:46 fengjiaoan 阅读(595) 评论(0) 推荐(0) 编辑

新开博客,纪念一下!

摘要: 一直想把自己学习的东西记录下来,总是忘记,以后要养成习惯记录自己的学习心得。加油哦! 时间过得真快,转眼间又是一年十一。自从保研来到实验室已经两年了,忙忙碌碌,却没有记录下来一些东西。师兄师姐找工作已经一个月了,有的签完了,有的没签。明年9月份自己也要找工作了,应该学着整理一下自己所学的知识。学会推荐自己,争取明年找到称心如意的工作。 阅读全文

posted @ 2013-09-30 18:54 fengjiaoan 阅读(125) 评论(0) 推荐(0) 编辑

导航