随笔分类 - 大数据的一些组件
摘要:一、概念 Zookeeper 是 一个典型的分布式数据一致性的解决方案. 1、zookeeper有两种运行模式: 集群模式和单机模式,还有一种伪集群模式,在单机模式下模拟集群的zookeeper服务 2、Zookeeper的典型应用场景: 数据发布/订阅 负载均衡 命名服务 分布式协调/通知 集群管
阅读全文
posted @ 2020-03-22 22:19
飞末
摘要:一、使用sbt引入hbase依赖包 二、检查hbase中是否存在某表 三、将dataframe写入hbase
阅读全文
posted @ 2018-11-23 09:31
飞末
摘要:一、idea中的maven 1.打开IntelliJ IDEA->Settings ->Build, Execution, Deployment -> Build Tools > Maven 一个是本地配置文件的位置,另一个是本地仓库的位置 在.m2下面新建settings.xml文件,内容如下 二
阅读全文
posted @ 2018-06-28 10:43
飞末
摘要:阅读目录(Content) 一、Flume简介 二、Flume特点 三、Flume的一些核心概念 3.1、Agent结构 3.2、source 3.3、Channel 3.4、Sink 四、Flume拦截器、数据流以及可靠性 4.1、Flume拦截器 4.2、Flume数据流 4.3、Flume可靠
阅读全文
posted @ 2018-06-21 12:35
飞末
摘要:1、为什么要使用消息队列? 主要有三个原因:解耦、异步、削峰 (1)解耦 传统模式:传统模式的缺点: 系统间耦合性太强,如上图所示,系统A在代码中直接调用系统B和系统C的代码,如果将来D系统接入,系统A还需要修改代码,过于麻烦! 中间件模式:中间件模式的的优点: 将消息写入消息队列,需要消息的系统自
阅读全文
posted @ 2018-05-31 17:26
飞末
摘要:文件下载 Cloudera Manager 地址:http://archive.cloudera.com/cm5/cm/5/ 这里下载的是5.13.1的版本,https://archive.cloudera.com/cm5/cm/5/cloudera-manager-el6-cm5.13.1_x86
阅读全文
posted @ 2018-03-05 09:48
飞末
摘要:Azkaban3.x安装部署 官方文档地址 三种模式 solo-server模式:exec进程和web进程为同一个进程,存放元数据的数据库为H2 two-server模式:与之前的单机版本类似,exec进程和web进程分开,存放元数据的数据库为mysql multiple-executor模式:ex
阅读全文
posted @ 2018-01-11 09:07
飞末
摘要:为什么需要工作流调度系统 1.一个完整的数据分析系统通常都是由大量任务单元组成:shell脚本程序,java程序,mapreduce程序、hive脚本等,各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某
阅读全文
posted @ 2018-01-02 16:55
飞末
摘要:idea中hbase的sbt依赖: "org.apache.hbase" % "hbase-server" % "2.1.0", "org.apache.hbase" % "hbase-common" % "2.1.0", "org.apache.hbase" % "hbase-client" %
阅读全文
posted @ 2017-11-23 11:15
飞末
摘要:impala: 查询impala表时一定要加库名使用级联删除带有表的数据库:DROP database name cascade; insert插入的两种方式: 1. insert into employee (ID,NAME,AGE,ADDRESS,SALARY)VALUES (1, 'Rames
阅读全文
posted @ 2017-08-14 22:00
飞末
摘要:1.知道某列的值的增量导入(mysql >文件) bin/sqoop import \--connect jdbc:mysql://bigdatcdh01:3306/test \--username root \--password 123456 \--table my_user \--target
阅读全文
posted @ 2017-08-08 16:52
飞末
摘要:1.建表 CREATE TABLE IF NOT EXISTS student( time varchar(64) , num int , age int )PARTITIONED BY ( score int)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\
阅读全文
posted @ 2017-08-08 16:37
飞末

浙公网安备 33010602011771号