随笔分类 -  Hadoop/Spark

摘要:nutch集成solr和中文分词 一、构建nutch环境 1. 设置代理 由于nutch使用ant构建,ant调用ivy,会从maven仓库中下载依赖包,因此若公司需要代理才能上网,需要设置代理, 如果公司不需要代理即可上网,此步骤直接省略. 总结设置代理遇到的几个坑: 强制使用系统代理,即 ant 阅读全文
posted @ 2016-03-23 11:52 int32bit 阅读(1029) 评论(0) 推荐(0)
摘要:sqoop2安装 1. 下载解压缩 此次安装版本为1.99.6 sh Decompress Sqoop distribution tarball tar xvf sqoop bin hadoop.tar.gz ln s sqoop bin hadoop.tar.gz sqoop export SQO 阅读全文
posted @ 2016-03-23 11:41 int32bit 阅读(3427) 评论(0) 推荐(0)
摘要:虽然很简单,但会遇到很多奇怪的坑,而且网上解决方法搜不到。 首先下载kafka包,解压缩后,修改 文件,基本配置项如下(省略了部分默认配置项 : 以上需要注意的是 必须修改为主机名,否则会导致很多问题。 每个主机的 必须不一样。 需要填写所有的zookeeper服务器地址端口,并且以上的主机名对应的 阅读全文
posted @ 2016-03-23 11:37 int32bit 阅读(466) 评论(0) 推荐(0)