摘要:@ HBase是什么 HBase是基于hadoop的数据库! HBase支持随机写 HBase的读写操作还是借助HDFS完成,要完成随机写,根本上还是需要复合HDFS的特性! HDFS只支持追加写! 随机的操作: Update+Delete 借助 追加写+时间戳(版本号) 只允许客户端查询时返回时间 阅读全文
posted @ 2020-11-23 21:49 孙晨c 阅读(15) 评论(0) 推荐(0) 编辑
摘要:@ 数量关系 batchSize: 每个Source和Sink都可以配置一个batchSize的参数。这个参数代表一次性到channel中put|take 多少个event! batchSize <= transactionCapacity transactionCapacity: putList和 阅读全文
posted @ 2020-10-31 09:47 孙晨c 阅读(13) 评论(0) 推荐(0) 编辑
摘要:@ 异步source的缺点 execsource和异步的source一样,无法在source向channel中放入event故障时(比如channel的容量满了),及时通知客户端,暂停生成数据,容易造成数据丢失 解决方案 需要在发生故障时,及时通知客户端! 如果客户端无法暂停,必须有一个数据的缓存机 阅读全文
posted @ 2020-10-19 15:43 孙晨c 阅读(48) 评论(0) 推荐(0) 编辑
摘要:@ Sqoop的简介 sqoop,即SQL To Hadop,目的是完成关系型数据库导入导出到Hadoop Sqoop的原理是将命令翻译为mapreduce程序执行,MR没有Reduce阶段,只有Map阶段 Sqoop的安装 配置环境 可以在/etc/profile中配置,导出为全局变量或在sqoo 阅读全文
posted @ 2020-10-17 22:32 孙晨c 阅读(17) 评论(0) 推荐(0) 编辑
摘要:netcat source: 类似于netcat的 nc -l 端口号!可以监听某个主机的指定端口收到的消息,将每行消息封装为一个event exec source : 执行一个linux命令,根据命令启动的进程获取进程在标注输出输出的内容,将内容封装为event! 要求进程必须是一个可以持续产生消 阅读全文
posted @ 2020-10-16 16:37 孙晨c 阅读(22) 评论(0) 推荐(0) 编辑
摘要:@ Flume定义 Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。 Flume基础架构 Agent Agent是一个JVM进程,它以事件的形式将数据从源头送至目的。 Agent主要有3个部分组成,Source、Ch 阅读全文
posted @ 2020-10-13 14:29 孙晨c 阅读(18) 评论(0) 推荐(0) 编辑
摘要:@ 排名函数 注意:排名函数可以跟Over(),但是不能定义window_clause。在计算名次前,需要先排序! RANK: 允许并列,一旦有并列跳号! ROW_NUMBER: 行号! 连续的,每个号之间差1! DENSE_RANK: 允许并列,一旦有并列不跳号! CUME_DIST: 从排序后的 阅读全文
posted @ 2020-10-07 20:35 孙晨c 阅读(85) 评论(1) 推荐(2) 编辑
摘要:@ 官方文档地址 Hive官网,点我就进 oracle,sqlserver都提供了窗口函数,但是在mysql5.5和5.6都没有提供窗口函数! 窗口函数: 窗口+函数 窗口: 函数运行时计算的数据集的范围 函数: 运行的函数! 仅仅支持以下函数: Windowing functions LEAD ( 阅读全文
posted @ 2020-10-07 20:01 孙晨c 阅读(150) 评论(0) 推荐(1) 编辑
摘要:@ 1.查看函数 函数有库的概念,系统提供的除外,系统提供的函数可以在任意库使用! 查看当前库所有的函数:show functions; 查看函数的使用: desc function 函数名 查看函数的详细使用: desc function extended 函数名 2.函数的分类 按函数的来源: 阅读全文
posted @ 2020-10-04 21:13 孙晨c 阅读(23) 评论(0) 推荐(0) 编辑
摘要:@ 库的常见操作 1.增 CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name [COMMENT database_comment] // 库的注释说明 [LOCATION hdfs_path] // 库在hdfs上的路径 [WITH DBPR 阅读全文
posted @ 2020-10-01 21:42 孙晨c 阅读(53) 评论(0) 推荐(0) 编辑