随笔分类 -  Java大数据

摘要:hdfs中有很多常用命令,持续记录一下。 基本命令 基本命令就是hadoop fs开头或hdfs dfs开头,两者效果相同,可以通过'hadoop fs -help 命令'或'hdfs dfs -help 命令'来查看具体命令的解释。 [hadoop@node01 ~]$ hadoop fs Usa 阅读全文
posted @ 2020-02-12 19:16 斐波那切 阅读(538) 评论(0) 推荐(0)
摘要:sqoop在导入数据时,可以使用--query搭配sql来指定查询条件,并且还需在sql中添加\$CONDITIONS,来实现并行运行mr的功能。 运行测试 测试均基于sqoop1,mysql数据准备如下。 (1)只要有--query+sql,就需要加\$CONDITIONS,哪怕只有一个mapta 阅读全文
posted @ 2020-02-07 12:42 斐波那切 阅读(14161) 评论(0) 推荐(0)
摘要:sqoop中,可以将导入导出任务,写到job中,实现创建、查看、执行和删除job的功能。 数据准备 mysql先准备数据,创建sqooptest数据库,并添加表Man和数据,如下图。 创建作业 可以通过'sqoop job --help'命令查看具体的使用方法。 [hadoop@node01 ~/. 阅读全文
posted @ 2020-02-06 19:45 斐波那切 阅读(543) 评论(0) 推荐(1)
摘要:sqoop是apache旗下,用于关系型数据库和hadoop之间传输数据的工具,sqoop可以用在离线分析中,将保存在mysql的业务数据传输到hive数仓,数仓分析完得到结果,再通过sqoop传输到mysql,最后通过web+echart来进行图表展示,更加直观的展示数据指标。 sqoop基础 基 阅读全文
posted @ 2020-02-06 15:38 斐波那切 阅读(5516) 评论(2) 推荐(1)
摘要:接下来,记录一下azkaban工作流调度器的相关知识。一般一个分析系统,包含大量的分析单元,需要调用shell脚本、java程序、hive脚本等,这些脚本或者程序的调用会存在时间上的先后顺序,为了更好的组织管理这些任务,需要使用工作流调度器。比较常用的就是azkaban和oozie。除了使用第三方提 阅读全文
posted @ 2020-02-04 13:40 斐波那切 阅读(4459) 评论(0) 推荐(0)
摘要:记录一下日志采集框架flume的相关内容,flume是由Cloudera开发,后面贡献给了Apache,是一个分布式的、稳定的,用于日志采集、汇聚和传输的系统,现在用的一般是1.x版本,老版本的因为用得少暂时不考虑。 基本概念 包括agent和event。 Agent 以下是数据流模型图,sourc 阅读全文
posted @ 2020-01-22 21:44 斐波那切 阅读(1143) 评论(0) 推荐(0)
摘要:在使用flume采集日志写入到hdfs时,用到了lzo压缩算法,这个算法将让保存的文件缩小为原文件的三分之一。由于此压缩算法不是hadoop默认的,需要另外安装,下面记录下,全文主要参考文末博文完成。 编译安装lzo和lzop 注意,有多少个节点,就安装多个少!注意,有多少个节点,就安装多个少!注意 阅读全文
posted @ 2020-01-20 13:58 斐波那切 阅读(1652) 评论(0) 推荐(0)
摘要:接下来添加部分HBase优化相关的选择,先添加部分,后续实际工作中再补充完善。优化主要针对外界条件以及自身条件。 外界条件 外界条件包括硬件配置、GC、JVM等。 配置内存 HBase是吃内存的,很多地方都有涉及到,如blockcache读缓存,memStore写缓存,LSM树状结构和日志记录机制等 阅读全文
posted @ 2020-01-16 20:28 斐波那切 阅读(328) 评论(0) 推荐(0)
摘要:接下来记录一下HBase存储原理相关的知识,理解尚浅,后续再补充。 索引 hbase中没有索引,但是mysql有,区别在于mysql是行级存储,hbase是列级存储,索引对行级存储有意义,对于列级存储意义不大。 如下图所示,不管是mysql还是hbase,最终数据都会落地成文件,当给行级存储建立索引 阅读全文
posted @ 2020-01-15 23:53 斐波那切 阅读(484) 评论(0) 推荐(0)
摘要:下面记录一下Hbase的简单命令,以及相关的API操作,Hbase虽然也是一种数据库,但是基本命令和MySQL不一样。 基本概念 Hbase因为是列存储,因此出现了一些新的概念,分别是行键RowKey、列族Column Family、列Column、单元Cell和命名空间NameSpace。大部分概 阅读全文
posted @ 2020-01-11 15:19 斐波那切 阅读(1226) 评论(0) 推荐(0)
摘要:使用kafka和sparkstreaming整合时,IDEA运行程序报错"com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1",初步看是版本不兼容,但是版本后面确认没有问题, 阅读全文
posted @ 2020-01-05 08:18 斐波那切 阅读(4502) 评论(0) 推荐(0)
摘要:HBase是大数据中的数据库,是一种列级存储的数据库,支持秒级查询,官网称能存储10亿行*100万列的数据,下面安装记录一下,基于centos6,后面查看用。 安装hadoop hbase存储的数据在hadoop中,因此需要先安装hadoop,可以安装伪分布式就可以,用作学习用,参考 https:/ 阅读全文
posted @ 2020-01-01 22:44 斐波那切 阅读(318) 评论(0) 推荐(0)
摘要:Kafka是一个比RabbitMQ更加强大的消息中间件,处理消息的能力为80-100M/s,下面安装记录一下,Linux版本为Centos6。 解压压缩包 直接解压即可。 [root@hadoop01 /home/software]# tar -zxvf kafka_2.11-1.0.0.tgz 修 阅读全文
posted @ 2019-12-30 21:28 斐波那切 阅读(1098) 评论(0) 推荐(0)
摘要:下面记录下hadoop完全分布式安装的过程,其中hadoop使用的版本是apache下的,不是cdh,linux版本为centos6。 完全分布式示意图 下面在三台节点上安装hadoop完全分布式,其中一个服务器节点上将有多个hadoop相关的节点,最后是压缩到三台的安装效果,正常来说至少13个服务 阅读全文
posted @ 2019-12-29 01:49 斐波那切 阅读(1004) 评论(0) 推荐(0)
摘要:zookeeper将管理一批''动物'',如小象hadoop,小鲸鱼hbase等,先记录下安装完全分布式zookeeper,以备后用。 解压zookeeper压缩包 [root@hadoop01 /home/software]# tar -zxvf zookeeper-3.4.8.tar.gz 修改 阅读全文
posted @ 2019-12-28 21:22 斐波那切 阅读(913) 评论(0) 推荐(0)
摘要:MapReduce可以实现一个简单的好友推荐,本文参考了文末博主的思路,个人感觉不错,自己修改部分代码也简单实现了,记录下。 数据准备 如下数据就是好友关系,同一行的两个人就是好友,需要在这数据里寻找两个人是否是潜在好友,即两人不是直接好友,但是却有共同的好友,需要将这样关系的两个人作为结果推荐出去 阅读全文
posted @ 2019-12-06 23:21 斐波那切 阅读(902) 评论(0) 推荐(0)
摘要:在配置了伪分布式hadoop集群后,接下来就可以写MapReduce程序,在集群中运行并且可以调试。一般来说需要将代码打成jar包,然后在hadoop集群中使用hadoop jar命令来运行,但是这样无法调试打断点,因此IDEA远程调试是有必要的。 本地准备hadoop包 将安装了hadoop集群的 阅读全文
posted @ 2019-12-06 21:37 斐波那切 阅读(702) 评论(0) 推荐(0)
摘要:Centos6下安装伪分布式hadoop集群,选取的hadoop版本是apache下的hadoop2.7.1,在一台linux服务器上安装hadoop后,同时拥有namenode,datanode和secondarynamenode等节点的功能,下面简单安装下。 前置准备 主要涉及防火墙关闭、jdk 阅读全文
posted @ 2019-12-05 23:36 斐波那切 阅读(917) 评论(0) 推荐(0)
摘要:下面是hive基本练习,持续补充中。 Hive导出数据有几种方式,如何导出数据 1.insert 2.hadoop命令 数据使用hive保存后存在于hdfs,也可以直接从hdfs将数据拉到本地,使用get命令。 hdfs dfs get /user/hive/warehouse/student/st 阅读全文
posted @ 2019-11-17 20:43 斐波那切 阅读(942) 评论(0) 推荐(0)
摘要:下面是hive基本练习,持续补充中。 简述Hive工作原理 hive是基于hadoop,可以管理hdfs上的数据的工具,它本质上是执行MapReduce程序,只是使用了类sql语句更加方便开发,hive驱动器会将类sql语句转换成MapReduce的task来执行,因此执行速度会比较慢。 hive的 阅读全文
posted @ 2019-11-17 20:18 斐波那切 阅读(1974) 评论(0) 推荐(0)