随笔分类 -  Hadoop02

摘要:导入jar包 阅读全文
posted @ 2019-05-22 08:27 lilixia 阅读(326) 评论(0) 推荐(0)
摘要:取值的时候 得到的 是document对象 将他转换成自己的对象 , 然后 在读取 取值的类 1.按分词查询的 2.按范围查询 3.查询所有 阅读全文
posted @ 2019-05-21 19:06 lilixia 阅读(312) 评论(0) 推荐(0)
摘要://注:先导入依赖的jar包 //创建document 对象 类 //运行第一个类 在E盘中查看生成的结果 结果是二进制的所以看不懂 阅读全文
posted @ 2019-05-21 11:52 lilixia 阅读(256) 评论(0) 推荐(0)
摘要:Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎(英文与德文两种西方语言)。Lucene的目的是为软件开发人员提供一个简单易用的 阅读全文
posted @ 2019-05-21 10:18 lilixia 阅读(393) 评论(0) 推荐(0)
摘要:界面介绍 首页有四个菜单 projects:最重要的部分,创建一个工程,所有flows将在工程中运行。 scheduling:显示定时任务 executing:显示当前运行的任务 history:显示历史运行任务 回到顶部 介绍projects部分 概念介绍 创建工程:创建之前我们先了解下之间的关系 阅读全文
posted @ 2019-05-20 20:04 lilixia 阅读(241) 评论(0) 推荐(0)
摘要:Azkaban安装部署 准备工作 Azkaban Web服务器 azkaban-web-server-2.5.0.tar.gz Azkaban执行服务器 azkaban-executor-server-2.5.0.tar.gz MySQL 目前azkaban只支持 mysql,需安装mysql服务器,本文档中默认已安装好mysql服务器,并建立了 root用户,密码 root. ... 阅读全文
posted @ 2019-05-20 18:50 lilixia 阅读(255) 评论(0) 推荐(0)
摘要:................................. 阅读全文
posted @ 2019-05-20 18:43 lilixia 阅读(95) 评论(0) 推荐(0)
摘要:sqoop是单机工具 1.上传 tar 包 解压 tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz 2.配置环境变量 a .进入sqoop 目录下 pwd 复制路径 /root/Downloads/sqoop-1.4.6.bin__hadoop 阅读全文
posted @ 2019-05-18 21:52 lilixia 阅读(224) 评论(0) 推荐(0)
摘要:sqoop 常用命令 一、Sqoop与MySQL 1.列出mysql数据库中的所有数据库 sqoop list-databases -connect jdbc:mysql://192.168.1.10:3306 -username root -password root 注意: 以下URL写法,都可 阅读全文
posted @ 2019-05-18 21:21 lilixia 阅读(7849) 评论(0) 推荐(2)
摘要:Sqoop教案 1. Sqoop介绍 Apache Sqoop(SQL-to-Hadoop) 项目旨在协助 RDBMS 与 Hadoop 之间进行高效的大数据交流。用户可以在 Sqoop 的帮助下,轻松地把关系型数据库的数据导入到 Hadoop 与其相关的系统 (如HBase和Hive)中;同时也可 阅读全文
posted @ 2019-05-18 20:58 lilixia 阅读(243) 评论(0) 推荐(0)
摘要://将从hbas数据库中用mr读取的数据放入到 hdfs中 注:引入 jar 包 //使用mr 将hbase数据库中的单词计算出来 创建表 wordcount 放入4条数据 在eclipce中 // 先从hdfs上将数据拿出来,再放入hbase数据库中 a.将数据放入工程中 还有jar 都需要导入 阅读全文
posted @ 2019-05-18 17:06 lilixia 阅读(1008) 评论(0) 推荐(1)
摘要:四种过滤器 1、行键 过滤器 2、 前缀过滤器 3、 时间戳过滤器 4、 列族过滤器 阅读全文
posted @ 2019-05-18 11:33 lilixia 阅读(2170) 评论(0) 推荐(0)
摘要:使用java API方法 对hbase的操作 创建hbase表 添加数据 批量添加 查询 扫描数据 注:必须导入依赖的jar 1.使用API创建表 2.put 添加数据 注:去集群中查看 是否添加成功 添加之前将集群都启动 扫描表 scan 'Nurse' 3.Batch批量添加 循环添加 去集群查 阅读全文
posted @ 2019-05-18 09:20 lilixia 阅读(1076) 评论(0) 推荐(0)
摘要:export HBASE_HOME=/root/Downloads/hbase-1.1.2 export PATH=$PATH:$HBASE_HOME/bin source /etc/profile export HBASE_MANAGES_ZK=false export JAVA_HOME=/ro 阅读全文
posted @ 2019-05-16 16:14 lilixia 阅读(281) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2019-05-16 12:32 lilixia 阅读(89) 评论(0) 推荐(0)
摘要:HBase Shell 下面我们看看HBase Shell的一些基本操作命令,我列出了几个常用的HBase Shell命令,如下:filter 名称 命令表达式 创建表 create '表名称', '列名称1','列名称2','列名称N' 添加记录 put '表名称', '行名称', '列名称:', 阅读全文
posted @ 2019-05-16 12:30 lilixia 阅读(853) 评论(0) 推荐(0)
摘要:-ROOT-和.META.表结构 我们来仔细分析一下这个结构,每条Row记录了一个Region的信息。 首先是RowKey,RowKey由三部分组成:TableName, StartKey 和 TimeStamp。RowKey存储的内容我们又称之为Region的Name。哦,还记得吗?我们在前面的文 阅读全文
posted @ 2019-05-16 12:24 lilixia 阅读(431) 评论(0) 推荐(0)
摘要:– HBase – Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩、 实时读写的分布式数据库 – 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中的海量数据,利用Zookeeper作为其分布式协同服务 – 主要用来存储非结构 阅读全文
posted @ 2019-05-16 12:22 lilixia 阅读(463) 评论(0) 推荐(0)
摘要:HBase是什么? Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Apache Hbase 是hadoop数据库,一个分布式的,可扩展的大数据存储。 Use Apache HBase™ w 阅读全文
posted @ 2019-05-15 15:48 lilixia 阅读(426) 评论(0) 推荐(0)
摘要:[root@linux05 conf]# vim replicate.conf //将下面数据放入 a1.sources = r1a1.channels = c1 c2a1.sinks = k1 k2 # Describe/configure the sourcea1.sources.r1.type 阅读全文
posted @ 2019-05-15 11:10 lilixia 阅读(444) 评论(0) 推荐(0)