06 2017 档案
摘要:public DocumentContent readPath(InputStream stream,Path path) { //Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = new BodyContentHan
阅读全文
摘要:public DocumentContent readPath(InputStream stream,Path path) { //Tika默认是10*1024*1024,这里防止文件过大导致Tika报错 BodyContentHandler handler = new BodyContentHan
阅读全文
摘要:package com.mengyao.tika.app; import java.io.File; import java.io.FileInputStream; import org.apache.tika.metadata.Metadata; import org.apache.tika.pa
阅读全文
摘要:本人用的是solr5.2.1,上传pdf文档,增量配置 按照网上的各种解决方案,效果不理想,有哪位小伙伴配置过的话一块交流交流 https://yq.aliyun.com/articles/70132
阅读全文
摘要:本人用的是solr5.2.1,上传pdf文档,增量配置 按照网上的各种解决方案,效果不理想,有哪位小伙伴配置过的话一块交流交流 https://yq.aliyun.com/articles/70132
阅读全文
摘要:1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器 执行命令 hadoop jar hadoop-mapreduce.jar com.test.hadoop.mr.wordcount.WordCoun
阅读全文
摘要:1、在eclipse中开发好mr程序(windows或linux下都可以),然后打成jar包(hadoop-mapreduce.jar),上传到服务器 执行命令 hadoop jar hadoop-mapreduce.jar com.test.hadoop.mr.wordcount.WordCoun
阅读全文
摘要:ambari HDFS-HA 回滚 查看hdfs的信息 curl -u admin:admin -H "X-Requested-By: ambari" -X GET http://centos1:8080/api/v1/clusters/hadoop1/services/HDFS hadoop1为c
阅读全文
摘要:一.Scala简介 Scala是一种多范式的编程语言,其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台(Java虚拟机),并兼容现有的Java程序。 二.为什么要学Scala 1.优雅:这是框架设计师第一个要考虑的问题,框架的用户是应用开发程序员,API是否优雅直
阅读全文
摘要:Ambari目标 解决Hadoop生态系统部署 部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。 部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。 多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障 组件本身设计:hadoop及其组
阅读全文
摘要:Ambari目标 解决Hadoop生态系统部署 部署:hadoop组件间有依赖,包括配置、版本、启动顺序、权限配置等。 部署过程跟踪。能够展示出部署过程中每个步骤的状态及相关信息。 多机部署问题,当集群规模增加后,机器出问题机率增加,在部署或更新中可能会出现机器故障 组件本身设计:hadoop及其组
阅读全文
摘要:1.安装环境说明: 三台Centos7 Jdk1.7 Mysql5.7 2.操作系统准备 2.1配置ssh免密码登录 mkdir ~/.ssh/ ssh-keygen -t rsa (四个回车) 执行完这个命令后,会生成两个文件id_rsa(私钥)、id_rsa.pub(公钥) 将公钥拷贝到要免登陆
阅读全文
摘要:solrj是solr的java客户端,用于访问solr索引库。它提供了添加、删除、查询、优化等功能。 配置jar: /dist/solrj-lib下的所有jar solr-solrj-5.2.1.jar server/lib/ext下所有jar 如果Maven来构建项目,添加以下代码到你的pom.x
阅读全文
摘要:软件准备: 1.Tomcat 2.solr-5.2.1.tgz 3.hadoop-2.7.2 运行环境 centos7 看以前文档hadoop安装好 在hadoop-2.7.2/etc/hadoop下的hdfs-site.xml增加了以下内容 <property> <name>dfs.webhdfs
阅读全文
摘要:dataimporthandler插件导入pdf 从PDF文件中提取文本进行索引 首先依然是在solrconfig.xml配置文件中配置dataimport请求处理器,并指定data-config.xml配置文件加载路径: <requestHandler name="/dataimport" cla
阅读全文
摘要:hbase 启动不起来,通常是因为节点日期不同步。 HDFS 无法启动,通常是因为hdfs 进入了安全模式,需要先退出来,再启动。 hadoop dfsadmin -safemode leave repo源的地址是可以随时更改的。 更改路径:admin -> stacks and Versions
阅读全文