清浊 - 博客园

2020年9月29日

摘要： 1、mapreduce 移动计算不移动数据，那个节点有数据就拷贝一份程序过去运行。input对数据进行split，变成数据的片段。 shuffler，在mapper和reduce之间。map输出的数据按照key重新切分和组合成n份。partion，sort，spilll to disk。fetch 阅读全文

posted @ 2020-09-29 09:41 清浊阅读(370) 评论(0) 推荐(0)

2020年9月28日

hdfs

摘要： 1、缺点低延迟数据访问毫秒级访问低延迟与高吞吐率小文件存取占用namenode大量内存寻道时间远大于读取时间并发写入随机修改一个文件只能有一个写者支持append 2、namenode 所有的读写请求都是指向namenode 保存所有文件的metadata，包括文件的owershi 阅读全文

posted @ 2020-09-28 16:52 清浊阅读(127) 评论(0) 推荐(0)

2020年9月8日

hbase

摘要： 1、基于hdfs的大表，支持增删改查。 2、列族，很多个列一起定义一个列族，相关的列放到一个列族，相当于竖切。 3、行键，字典序，按位比较。 4、region 横向表的切分，对照mysql的就是横切。 5、store，物理存储包含rowkey，列族名，列名，时间搓，类型，value。随机写就是靠时间阅读全文

posted @ 2020-09-08 19:56 清浊阅读(117) 评论(0) 推荐(0)

Disruptor核心概念

摘要： 1、ringbuffer，基于数组实现，sequencer和waitstrategy的入口 2、disruptor，持有ringbuffer，消费者线程池executor，消费者集合ComsumerRepository等引用 3、sequence 阅读全文

posted @ 2020-09-08 14:37 清浊阅读(162) 评论(0) 推荐(0)

2020年8月28日

redis详解一

摘要： RDBMS 1、结构化组织 2、SQL 3、数据和关系存在一张表中 4、事务一致性 NoSQL 1、不仅仅是数据 2、没有查询语言 3、键值对，列存储，文档存储，图存储 4、最终一次性 CAP和BASE定理 NOSQL分类键值对，列存储，文档存储，图存储 KV数据库新浪：Redis 美团：Re 阅读全文

posted @ 2020-08-28 18:04 清浊阅读(170) 评论(0) 推荐(0)

2020年8月18日

程序员数学

摘要： 1、零的作用占位符，统一规则，2的0次方就是1，阅读全文

posted @ 2020-08-18 17:41 清浊阅读(214) 评论(0) 推荐(0)

下面是一个azakaban调度大数据脚本的例子

摘要： 1、首先上传job，利用定时任务将日志文件上传到hdfs # upload.job type=command command=bash uploadFile2Hdfs.sh #!/bin/bash #set java env export JAVA_HOME=/soft/jdk/ export JR 阅读全文

posted @ 2020-08-18 14:41 清浊阅读(476) 评论(0) 推荐(0)

2020年8月7日

记录一个hive清空外部表数据的办法

摘要： insert overwrite table access select * from access where ip =0; insert into mydb2.upflow select ip,sum(upflow) as sum from mydb2.access group by ip or 阅读全文

posted @ 2020-08-07 16:13 清浊阅读(2122) 评论(0) 推荐(0)

2020年7月20日

azkaban工作流调度器

摘要： 1、用途一个完整的数据分析系统通常都是由大量任务单元组成： shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务系统每天产生阅读全文

posted @ 2020-07-20 11:33 清浊阅读(214) 评论(0) 推荐(0)

2020年7月17日

sqoop使用详解

摘要： 1、sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据：MySQL，Oracle导入数据到Hadoop的HDFS、HIVE、HBASE等数据存储系统；导出数据：从Hadoop的文件系统中导出数据到关系数据库 2、将导入或导出命令翻译成mapreduce 阅读全文

posted @ 2020-07-17 16:28 清浊阅读(566) 评论(0) 推荐(0)