Java大数据 - 随笔分类(第2页) - 斐波那切

HDFS命令整理持续添加

摘要：hdfs中有很多常用命令，持续记录一下。基本命令基本命令就是hadoop fs开头或hdfs dfs开头，两者效果相同，可以通过'hadoop fs -help 命令'或'hdfs dfs -help 命令'来查看具体命令的解释。 [hadoop@node01 ~]$ hadoop fs Usa 阅读全文

posted @ 2020-02-12 19:16 斐波那切阅读(538) 评论(0) 推荐(0)

sqoop导入数据''--query搭配$CONDITIONS''的理解

摘要：sqoop在导入数据时，可以使用--query搭配sql来指定查询条件，并且还需在sql中添加\$CONDITIONS，来实现并行运行mr的功能。运行测试测试均基于sqoop1，mysql数据准备如下。（1）只要有--query+sql，就需要加\$CONDITIONS，哪怕只有一个mapta 阅读全文

posted @ 2020-02-07 12:42 斐波那切阅读(14161) 评论(0) 推荐(0)

sqoop中作业的使用

摘要：sqoop中，可以将导入导出任务，写到job中，实现创建、查看、执行和删除job的功能。数据准备 mysql先准备数据，创建sqooptest数据库，并添加表Man和数据，如下图。创建作业可以通过'sqoop job --help'命令查看具体的使用方法。 [hadoop@node01 ~/. 阅读全文

posted @ 2020-02-06 19:45 斐波那切阅读(543) 评论(0) 推荐(1)

sqoop使用入门

摘要：sqoop是apache旗下，用于关系型数据库和hadoop之间传输数据的工具，sqoop可以用在离线分析中，将保存在mysql的业务数据传输到hive数仓，数仓分析完得到结果，再通过sqoop传输到mysql，最后通过web+echart来进行图表展示，更加直观的展示数据指标。 sqoop基础基阅读全文

posted @ 2020-02-06 15:38 斐波那切阅读(5516) 评论(2) 推荐(1)

Azkaban使用入门

摘要：接下来，记录一下azkaban工作流调度器的相关知识。一般一个分析系统，包含大量的分析单元，需要调用shell脚本、java程序、hive脚本等，这些脚本或者程序的调用会存在时间上的先后顺序，为了更好的组织管理这些任务，需要使用工作流调度器。比较常用的就是azkaban和oozie。除了使用第三方提阅读全文

posted @ 2020-02-04 13:40 斐波那切阅读(4459) 评论(0) 推荐(0)

Flume使用入门

摘要：记录一下日志采集框架flume的相关内容，flume是由Cloudera开发，后面贡献给了Apache，是一个分布式的、稳定的，用于日志采集、汇聚和传输的系统，现在用的一般是1.x版本，老版本的因为用得少暂时不考虑。基本概念包括agent和event。 Agent 以下是数据流模型图，sourc 阅读全文

posted @ 2020-01-22 21:44 斐波那切阅读(1143) 评论(0) 推荐(0)

Hadoop配置lzo和lzop

摘要：在使用flume采集日志写入到hdfs时，用到了lzo压缩算法，这个算法将让保存的文件缩小为原文件的三分之一。由于此压缩算法不是hadoop默认的，需要另外安装，下面记录下，全文主要参考文末博文完成。编译安装lzo和lzop 注意，有多少个节点，就安装多个少！注意，有多少个节点，就安装多个少！注意阅读全文

posted @ 2020-01-20 13:58 斐波那切阅读(1652) 评论(0) 推荐(0)

HBase优化相关

摘要：接下来添加部分HBase优化相关的选择，先添加部分，后续实际工作中再补充完善。优化主要针对外界条件以及自身条件。外界条件外界条件包括硬件配置、GC、JVM等。配置内存 HBase是吃内存的，很多地方都有涉及到，如blockcache读缓存，memStore写缓存，LSM树状结构和日志记录机制等阅读全文

posted @ 2020-01-16 20:28 斐波那切阅读(328) 评论(0) 推荐(0)

HBase原理相关

摘要：接下来记录一下HBase存储原理相关的知识，理解尚浅，后续再补充。索引 hbase中没有索引，但是mysql有，区别在于mysql是行级存储，hbase是列级存储，索引对行级存储有意义，对于列级存储意义不大。如下图所示，不管是mysql还是hbase，最终数据都会落地成文件，当给行级存储建立索引阅读全文

posted @ 2020-01-15 23:53 斐波那切阅读(484) 评论(0) 推荐(0)

Hbase的命令及API操作

摘要：下面记录一下Hbase的简单命令，以及相关的API操作，Hbase虽然也是一种数据库，但是基本命令和MySQL不一样。基本概念 Hbase因为是列存储，因此出现了一些新的概念，分别是行键RowKey、列族Column Family、列Column、单元Cell和命名空间NameSpace。大部分概阅读全文

posted @ 2020-01-11 15:19 斐波那切阅读(1226) 评论(0) 推荐(0)

Spark和Kafka在IDEA整合运行时提示''com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1''

摘要：使用kafka和sparkstreaming整合时，IDEA运行程序报错"com.fasterxml.jackson.databind.JsonMappingException: Incompatible Jackson version: 2.9.1"，初步看是版本不兼容，但是版本后面确认没有问题，阅读全文

posted @ 2020-01-05 08:18 斐波那切阅读(4502) 评论(0) 推荐(0)

HBase的安装

摘要：HBase是大数据中的数据库，是一种列级存储的数据库，支持秒级查询，官网称能存储10亿行*100万列的数据，下面安装记录一下，基于centos6，后面查看用。安装hadoop hbase存储的数据在hadoop中，因此需要先安装hadoop，可以安装伪分布式就可以，用作学习用，参考 https:/ 阅读全文

posted @ 2020-01-01 22:44 斐波那切阅读(318) 评论(0) 推荐(0)

Kafka安装和简单使用

摘要：Kafka是一个比RabbitMQ更加强大的消息中间件，处理消息的能力为80-100M/s，下面安装记录一下，Linux版本为Centos6。解压压缩包直接解压即可。 [root@hadoop01 /home/software]# tar -zxvf kafka_2.11-1.0.0.tgz 修阅读全文

posted @ 2019-12-30 21:28 斐波那切阅读(1098) 评论(0) 推荐(0)

Hadoop完全分布式安装

摘要：下面记录下hadoop完全分布式安装的过程，其中hadoop使用的版本是apache下的，不是cdh，linux版本为centos6。完全分布式示意图下面在三台节点上安装hadoop完全分布式，其中一个服务器节点上将有多个hadoop相关的节点，最后是压缩到三台的安装效果，正常来说至少13个服务阅读全文

posted @ 2019-12-29 01:49 斐波那切阅读(1004) 评论(0) 推荐(0)

Zookeeper完全分布式安装

摘要：zookeeper将管理一批''动物''，如小象hadoop，小鲸鱼hbase等，先记录下安装完全分布式zookeeper，以备后用。解压zookeeper压缩包 [root@hadoop01 /home/software]# tar -zxvf zookeeper-3.4.8.tar.gz 修改阅读全文

posted @ 2019-12-28 21:22 斐波那切阅读(913) 评论(0) 推荐(0)

MapReduce实现好友推荐

摘要：MapReduce可以实现一个简单的好友推荐，本文参考了文末博主的思路，个人感觉不错，自己修改部分代码也简单实现了，记录下。数据准备如下数据就是好友关系，同一行的两个人就是好友，需要在这数据里寻找两个人是否是潜在好友，即两人不是直接好友，但是却有共同的好友，需要将这样关系的两个人作为结果推荐出去阅读全文

posted @ 2019-12-06 23:21 斐波那切阅读(902) 评论(0) 推荐(0)

window下使用IDEA远程调试伪分布式hadoop集群

摘要：在配置了伪分布式hadoop集群后，接下来就可以写MapReduce程序，在集群中运行并且可以调试。一般来说需要将代码打成jar包，然后在hadoop集群中使用hadoop jar命令来运行，但是这样无法调试打断点，因此IDEA远程调试是有必要的。本地准备hadoop包将安装了hadoop集群的阅读全文

posted @ 2019-12-06 21:37 斐波那切阅读(702) 评论(0) 推荐(0)

Centos6下安装伪分布式Hadoop集群

摘要：Centos6下安装伪分布式hadoop集群，选取的hadoop版本是apache下的hadoop2.7.1，在一台linux服务器上安装hadoop后，同时拥有namenode，datanode和secondarynamenode等节点的功能，下面简单安装下。前置准备主要涉及防火墙关闭、jdk 阅读全文

posted @ 2019-12-05 23:36 斐波那切阅读(917) 评论(0) 推荐(0)

Hive基础练习二

摘要：下面是hive基本练习，持续补充中。 Hive导出数据有几种方式，如何导出数据 1.insert 2.hadoop命令数据使用hive保存后存在于hdfs，也可以直接从hdfs将数据拉到本地，使用get命令。 hdfs dfs get /user/hive/warehouse/student/st 阅读全文

posted @ 2019-11-17 20:43 斐波那切阅读(942) 评论(0) 推荐(0)

Hive基础练习一

摘要：下面是hive基本练习，持续补充中。简述Hive工作原理 hive是基于hadoop，可以管理hdfs上的数据的工具，它本质上是执行MapReduce程序，只是使用了类sql语句更加方便开发，hive驱动器会将类sql语句转换成MapReduce的task来执行，因此执行速度会比较慢。 hive的阅读全文

posted @ 2019-11-17 20:18 斐波那切阅读(1974) 评论(0) 推荐(0)

随笔分类 - Java大数据

公告