2020 年 6月 9 日随笔档案 - 会飞的猪、li

2020年6月9日

摘要：用spark streamming统计单词数量时，reduceBykey只会统计局部的单词数量，每个batch的每个单词的数量，而不能统计每个key所有value值。所以想要统计全局key的value值，就必须加入有状态计算updataStatusBykey,更新每一个key的状态。在计算单词数阅读全文

posted @ 2020-06-09 22:15 会飞的猪、li 阅读(642) 评论(0) 推荐(0) 编辑

SQL语句的优化

摘要： SQL语句在工作中必不可少，所有在实现功能的基础上进行优化是提升价值的关键所在。 1.在进行查询过程中，尽可能的避免全表扫描，并且考虑在where和order by所涉及的列建立索引。 SELECT * FROM customer WHERE name ='阿爆' ; CREATE UNIQUE I 阅读全文

posted @ 2020-06-09 17:16 会飞的猪、li 阅读(107) 评论(0) 推荐(0) 编辑

Spark的RDD，DataFrame和Dataset

摘要：在Spark1.6版本中，试图为RDD，DataFrame提供一个新的实验性接口Dataset api接口,所以从范围来说，下面这张图能表明： Dataframe是Dataset的row类型。 RDD 是弹性的分布式数据集。 1.懒执行且不可变，支持lambda表达式的并行数据集合 2.面向对象的编阅读全文

posted @ 2020-06-09 17:15 会飞的猪、li 阅读(164) 评论(0) 推荐(0) 编辑

Hbase表的管理

摘要： HBaseAdmin是一个类表示管理，通过这个类可执行管理角色。HBaseAdmin这个类属于org.apache.hadoop.hbase.client包。创建HBaseAdim实例获取表实例创建列簇描述向表描述中加载列簇调用HBaseAdmin创建表后面可以通过HBaseAdmin对阅读全文

posted @ 2020-06-09 17:13 会飞的猪、li 阅读(254) 评论(0) 推荐(0) 编辑

Hbase指定规则扫描表

摘要： 1.创建一个scan扫描对象 2. scan对象中有setStartRow方法和setStopRow方法，分别指向开始扫描的rowkey和结束扫描的rowkey 3.scan对象中的addColumn方法指向所要查询的列簇中的某个列要注意点是在指向同一列簇中的列时，要按照字典顺序指定，如果跳着指定阅读全文

posted @ 2020-06-09 17:12 会飞的猪、li 阅读(480) 评论(0) 推荐(0) 编辑

hbase过滤器

摘要： 1.过滤value的值，可以创建的有正则比较器RegexStringComparator方法，字符串比较器SubstringComparator方法，前缀比较器BinaryPrefixComparator方法，二进制比较器BinaryComparator方法 2.创建列值过滤器SingleColum 阅读全文

posted @ 2020-06-09 17:07 会飞的猪、li 阅读(95) 评论(0) 推荐(0) 编辑

公告