DataDevelop - 随笔分类 - Convict

kafka的auto.offset.reset详解与测试

摘要：1. 取值及定义 auto.offset.reset有以下三个可选值： latest (默认) earliest none 三者均有共同定义：对于同一个消费者组，若已有提交的offset，则从提交的offset开始接着消费意思就是，只要这个消费者组消费过了，不管auto.offset.reset 阅读全文

posted @ 2022-09-16 20:39 Convict 阅读(7617) 评论(0) 推荐(2)

Hive3配置tez引擎

摘要：1. 下载下载地址：https://dlcdn.apache.org/tez/，选择带-bin的，此处下载apache-tez-0.10.1-bin.tar.gz 2. 解压 hive在哪个节点上，就解压到哪个节点 tar -zxvf apache-tez-0.10.1-bin.tar.gz -C 阅读全文

posted @ 2022-08-14 14:23 Convict 阅读(1157) 评论(0) 推荐(0)

Hive的metastore与hiveserver2

摘要：1. metastore metastore有两个意思，一是指存放元数据的地方，一般是用MySQL数据库，二是指metastore server。 1.1 元数据（metastore）如果默认不配置元数据，那则使用本地Derby数据库，这是个仅限单用户访问的数据库，仅适用于入门，不推荐在开发或生产阅读全文

posted @ 2022-08-11 11:58 Convict 阅读(1325) 评论(0) 推荐(0)

Ubuntu18搭建kafka单机集群

摘要：1. 配置zookeeper https://www.cnblogs.com/convict/p/16438634.html 2. 下载kafka http://archive.apache.org/dist/kafka/2.8.0/kafka_2.12-2.8.0.tgz 3. 解压 tar -z 阅读全文

posted @ 2022-07-03 00:17 Convict 阅读(220) 评论(0) 推荐(0)

Ubuntu18搭建zookeeper单机集群

摘要：1. 下载zookeeper https://downloads.apache.org/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz 2. 解压 tar -zxvf apache-zookeeper-3.6.3-bin.tar 阅读全文

posted @ 2022-07-02 21:36 Convict 阅读(192) 评论(0) 推荐(0)

Spark算子 - groupByKey

摘要：释义根据RDD中的某个属性进行分组，分组后形式为(k, [v1, v2, ...]) 方法签名如下： def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { ... } 案例查看每个科目有哪些学生选择 object TestGroup 阅读全文

posted @ 2021-06-14 13:59 Convict 阅读(182) 评论(0) 推荐(0)

Spark算子 - groupBy

摘要：释义根据RDD中的某个属性进行分组，分组后形式为(k, [(k, v1), (k, v2), ...])，即groupBy 后组内元素会保留key值方法签名如下： def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Itera 阅读全文

posted @ 2021-06-14 13:25 Convict 阅读(1269) 评论(0) 推荐(0)

Spark算子 - reduceByKey

摘要：释义 reduceByKey类似reduce，但reduceByKey 是先根据key进行分组，再将每个组内的记录归并成1个记录，最终返回一个PairRDD，k为key类型，v为每个组归并后的记录类型方法签名如下： def reduceByKey(func: (V, V) => V): RDD[( 阅读全文

posted @ 2021-06-09 22:03 Convict 阅读(437) 评论(0) 推荐(0)

Spark算子 - reduce

摘要：释义 reduce将partition内所有记录最终计算成1个记录，结果类型与reduce 时数据类型一致方法签名如下： def reduce(f: (T, T) => T): T = withScope { ... } f: 每个partition内，每每两条记录进行归并计算。输入类型为U跟U，阅读全文

posted @ 2021-06-08 19:51 Convict 阅读(513) 评论(0) 推荐(0)

Spark算子 - aggregateByKey

摘要：释义 aggregateByKey逻辑类似 aggregate，但 aggregateByKey针对的是PairRDD，即键值对 RDD，所以返回结果也是 PairRDD，结果形式为：(各个Key, 同样Key对应的Value聚合后的值) aggregateByKey先将每个partition内元素阅读全文

posted @ 2021-05-30 17:26 Convict 阅读(302) 评论(0) 推荐(0)

Spark算子 - aggregate

摘要：释义将每个partition内元素进行聚合，然后将每个partition的聚合结果进行combine，得到最终聚合结果。最终结果允许跟原始RDD类型不同方法签名如下： def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, com 阅读全文

posted @ 2021-05-30 16:21 Convict 阅读(112) 评论(0) 推荐(0)

Spark入门案例 - 统计单词个数 / wordcount

摘要：Scala版 import org.apache.spark.{SparkConf, SparkContext} object WordCountScala { def main(args: Array[String]): Unit = { val conf: SparkConf = new Spa 阅读全文

posted @ 2021-05-30 15:25 Convict 阅读(630) 评论(0) 推荐(0)

Scala中实现break与continue

摘要：Scala是函数式编程语言，因此没有直接的break与continue关键字，要实现break与continue效果，需要绕一下。需要导入包： import util.control.Breaks.{break, breakable} 实现break breakable { for (i <- 0 阅读全文

posted @ 2021-05-25 20:44 Convict 阅读(544) 评论(0) 推荐(0)

Elasticsearch常用命令

摘要：查看集群索引 curl 'http://172.10.58.20:9200/_cat/indices' 查看集群状态 curl 'http://172.10.58.20:9200/_cat/health' curl 'http://172.10.58.20:9200/_cluster/health' 阅读全文

posted @ 2020-12-04 16:31 Convict 阅读(191) 评论(0) 推荐(0)

Loading

康威特冶楼

随笔分类 - DataDevelop

公告