2020年9月29日
摘要:
1、mapreduce 移动计算不移动数据,那个节点有数据就拷贝一份程序过去运行。input对数据进行split,变成数据的片段。 shuffler,在mapper和reduce之间。map输出的数据按照key重新切分和组合成n份。partion,sort,spilll to disk。fetch
阅读全文
posted @ 2020-09-29 09:41
清浊
阅读(367)
推荐(0)
2020年9月28日
摘要:
1、缺点 低延迟数据访问 毫秒级访问 低延迟与高吞吐率 小文件存取 占用namenode大量内存 寻道时间远大于读取时间 并发写入随机修改 一个文件只能有一个写者 支持append 2、namenode 所有的读写请求都是指向namenode 保存所有文件的metadata,包括文件的owershi
阅读全文
posted @ 2020-09-28 16:52
清浊
阅读(117)
推荐(0)
2020年9月8日
摘要:
1、基于hdfs的大表,支持增删改查。 2、列族,很多个列一起定义一个列族,相关的列放到一个列族,相当于竖切。 3、行键,字典序,按位比较。 4、region 横向表的切分,对照mysql的就是横切。 5、store,物理存储包含rowkey,列族名,列名,时间搓,类型,value。随机写就是靠时间
阅读全文
posted @ 2020-09-08 19:56
清浊
阅读(111)
推荐(0)
摘要:
1、ringbuffer,基于数组实现,sequencer和waitstrategy的入口 2、disruptor,持有ringbuffer,消费者线程池executor,消费者集合ComsumerRepository等引用 3、sequence
阅读全文
posted @ 2020-09-08 14:37
清浊
阅读(154)
推荐(0)
2020年8月28日
摘要:
RDBMS 1、结构化组织 2、SQL 3、数据和关系存在一张表中 4、事务一致性 NoSQL 1、 不仅仅是数据 2、没有查询语言 3、键值对,列存储,文档存储,图存储 4、最终一次性 CAP和BASE定理 NOSQL分类 键值对,列存储,文档存储,图存储 KV数据库 新浪:Redis 美团:Re
阅读全文
posted @ 2020-08-28 18:04
清浊
阅读(155)
推荐(0)
2020年8月18日
摘要:
1、零的作用 占位符,统一规则,2的0次方就是1,
阅读全文
posted @ 2020-08-18 17:41
清浊
阅读(212)
推荐(0)
摘要:
1、首先上传job,利用定时任务将日志文件上传到hdfs # upload.job type=command command=bash uploadFile2Hdfs.sh #!/bin/bash #set java env export JAVA_HOME=/soft/jdk/ export JR
阅读全文
posted @ 2020-08-18 14:41
清浊
阅读(470)
推荐(0)
2020年8月7日
摘要:
insert overwrite table access select * from access where ip =0; insert into mydb2.upflow select ip,sum(upflow) as sum from mydb2.access group by ip or
阅读全文
posted @ 2020-08-07 16:13
清浊
阅读(2115)
推荐(0)
2020年7月20日
摘要:
1、用途 一个完整的数据分析系统通常都是由大量任务单元组成: shell脚本程序,java程序,mapreduce程序、hive脚本等 各任务单元之间存在时间先后及前后依赖关系 为了很好地组织起这样的复杂执行计划,需要一个工作流调度系统来调度执行; 例如,我们可能有这样一个需求,某个业务系统每天产生
阅读全文
posted @ 2020-07-20 11:33
清浊
阅读(209)
推荐(0)
2020年7月17日
摘要:
1、sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。 导入数据:MySQL,Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统; 导出数据:从Hadoop的文件系统中导出数据到关系数据库 2、将导入或导出命令翻译成mapreduce
阅读全文
posted @ 2020-07-17 16:28
清浊
阅读(563)
推荐(0)