Loading

随笔分类 -  DataDevelop

摘要:1. 取值及定义 auto.offset.reset有以下三个可选值: latest (默认) earliest none 三者均有共同定义: 对于同一个消费者组,若已有提交的offset,则从提交的offset开始接着消费 意思就是,只要这个消费者组消费过了,不管auto.offset.reset 阅读全文
posted @ 2022-09-16 20:39 Convict 阅读(7598) 评论(0) 推荐(2)
摘要:1. 下载 下载地址:https://dlcdn.apache.org/tez/,选择带-bin的,此处下载apache-tez-0.10.1-bin.tar.gz 2. 解压 hive在哪个节点上,就解压到哪个节点 tar -zxvf apache-tez-0.10.1-bin.tar.gz -C 阅读全文
posted @ 2022-08-14 14:23 Convict 阅读(1155) 评论(0) 推荐(0)
摘要:1. metastore metastore有两个意思,一是指存放元数据的地方,一般是用MySQL数据库,二是指metastore server。 1.1 元数据(metastore) 如果默认不配置元数据,那则使用本地Derby数据库,这是个仅限单用户访问的数据库,仅适用于入门,不推荐在开发或生产 阅读全文
posted @ 2022-08-11 11:58 Convict 阅读(1322) 评论(0) 推荐(0)
摘要:1. 配置zookeeper https://www.cnblogs.com/convict/p/16438634.html 2. 下载kafka http://archive.apache.org/dist/kafka/2.8.0/kafka_2.12-2.8.0.tgz 3. 解压 tar -z 阅读全文
posted @ 2022-07-03 00:17 Convict 阅读(219) 评论(0) 推荐(0)
摘要:1. 下载zookeeper https://downloads.apache.org/zookeeper/zookeeper-3.6.3/apache-zookeeper-3.6.3-bin.tar.gz 2. 解压 tar -zxvf apache-zookeeper-3.6.3-bin.tar 阅读全文
posted @ 2022-07-02 21:36 Convict 阅读(191) 评论(0) 推荐(0)
摘要:释义 根据RDD中的某个属性进行分组,分组后形式为(k, [v1, v2, ...]) 方法签名如下: def groupByKey(): RDD[(K, Iterable[V])] = self.withScope { ... } 案例 查看每个科目有哪些学生选择 object TestGroup 阅读全文
posted @ 2021-06-14 13:59 Convict 阅读(182) 评论(0) 推荐(0)
摘要:释义 根据RDD中的某个属性进行分组,分组后形式为(k, [(k, v1), (k, v2), ...]),即groupBy 后组内元素会保留key值 方法签名如下: def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Itera 阅读全文
posted @ 2021-06-14 13:25 Convict 阅读(1267) 评论(0) 推荐(0)
摘要:释义 reduceByKey类似reduce,但reduceByKey 是先根据key进行分组,再将每个组内的记录归并成1个记录,最终返回一个PairRDD,k为key类型,v为每个组归并后的记录类型 方法签名如下: def reduceByKey(func: (V, V) => V): RDD[( 阅读全文
posted @ 2021-06-09 22:03 Convict 阅读(436) 评论(0) 推荐(0)
摘要:释义 reduce将partition内所有记录最终计算成1个记录,结果类型与reduce 时数据类型一致 方法签名如下: def reduce(f: (T, T) => T): T = withScope { ... } f: 每个partition内,每每两条记录进行归并计算。输入类型为U跟U, 阅读全文
posted @ 2021-06-08 19:51 Convict 阅读(511) 评论(0) 推荐(0)
摘要:释义 aggregateByKey逻辑类似 aggregate,但 aggregateByKey针对的是PairRDD,即键值对 RDD,所以返回结果也是 PairRDD,结果形式为:(各个Key, 同样Key对应的Value聚合后的值) aggregateByKey先将每个partition内元素 阅读全文
posted @ 2021-05-30 17:26 Convict 阅读(301) 评论(0) 推荐(0)
摘要:释义 将每个partition内元素进行聚合,然后将每个partition的聚合结果进行combine,得到最终聚合结果。最终结果允许跟原始RDD类型不同 方法签名如下: def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, com 阅读全文
posted @ 2021-05-30 16:21 Convict 阅读(111) 评论(0) 推荐(0)
摘要:Scala版 import org.apache.spark.{SparkConf, SparkContext} object WordCountScala { def main(args: Array[String]): Unit = { val conf: SparkConf = new Spa 阅读全文
posted @ 2021-05-30 15:25 Convict 阅读(627) 评论(0) 推荐(0)
摘要:Scala是函数式编程语言,因此没有直接的break与continue关键字,要实现break与continue效果,需要绕一下。 需要导入包: import util.control.Breaks.{break, breakable} 实现break breakable { for (i <- 0 阅读全文
posted @ 2021-05-25 20:44 Convict 阅读(544) 评论(0) 推荐(0)
摘要:查看集群索引 curl 'http://172.10.58.20:9200/_cat/indices' 查看集群状态 curl 'http://172.10.58.20:9200/_cat/health' curl 'http://172.10.58.20:9200/_cluster/health' 阅读全文
posted @ 2020-12-04 16:31 Convict 阅读(191) 评论(0) 推荐(0)