12 2020 档案
摘要:表设计的优化 1.预分区 建表时,预先创建一些空的Region,这样当数据写入HBase时,会按照Region分区情况,在集群内数据的负载均衡。 默认情况建表自动创建一个Region分区,导入数据的时候所有的HBase客户端都向这一个Region写数据,直到这个Region足够大了才进行切分。 2.
阅读全文
摘要:HBase简介 Hbase(Hadoop Database),是一个高可靠性、高性能、面向列、可伸缩、实时读写的分布式数据库。 利用Hadoop HDFS作为其文件存储系统,利用Hadoop MapReduce来处理HBase中海量数据,利用Zookeeper作为其分布式协同服务。 主要用来存储非结
阅读全文
摘要:Flink状态管理 状态类型:KeyedState、OperatorState 一、KeyedState KeyedState:基于KeyedStream上的状态。状态是跟key绑定的。每一个key对应一个state。所以用之前必须先分组。 1.ValueState 保存一个可以更新和检索的值。通过
阅读全文
摘要:1.Map【DataStream → DataStream】 调用MapFunction对DataStream进行处理,形成新的DataStream。一对一 val line: DataStream[String] = env.socketTextStream("node4", 9999) val
阅读全文