2019 年 4月 13 日随笔档案 - _Meditation

2019年4月13日

摘要：属性描述类型默认值 bootstrap.servers 用于建立与kafka集群的连接，这个list仅仅影响用于初始化的hosts，来发现全部的servers。格式：host1:port1,host2:port2,…，数量尽量不止一个，以防其中一个down了 list acks Server完成 p 阅读全文

posted @ 2019-04-13 15:05 _Meditation 阅读(5796) 评论(0) 推荐(0)

kafka 客户端 consumer 配置参数

摘要： 1、Consumer Group 与 topic 订阅每个Consumer 进程都会划归到一个逻辑的Consumer Group中，逻辑的订阅者是Consumer Group。所以一条message可以被多个订阅message 所在的topic的每一个Consumer Group，也就好像是这条m 阅读全文

posted @ 2019-04-13 14:58 _Meditation 阅读(4272) 评论(0) 推荐(0)

spark ML pipeline 学习

摘要：一。pipeline 一个典型的机器学习过程从数据收集开始，要经历多个步骤，才能得到需要的输出。这非常类似于流水线式工作，即通常会包含源数据ETL（抽取、转化、加载），数据预处理，指标提取，模型训练与交叉验证，新数据预测等步骤。在介绍工作流之前，我们先来了解几个重要概念： DataFrame：使用阅读全文

posted @ 2019-04-13 10:38 _Meditation 阅读(289) 评论(0) 推荐(0)

spark streaming

摘要：一。介绍 Spark Streaming最主要的抽象是DStream（Discretized Stream，离散化数据流），表示连续不断的数据流。在内部实现上，Spark Streaming的输入数据按照时间片（如1秒）分成一段一段的DStream，每一段数据转换为Spark中的RDD，并且对DSt 阅读全文

posted @ 2019-04-13 09:38 _Meditation 阅读(462) 评论(0) 推荐(0)

spark DataFrame 读写和保存数据

摘要：一。读写Parquet(DataFrame) Spark SQL可以支持Parquet、JSON、Hive等数据源，并且可以通过JDBC连接外部数据源。前面的介绍中，我们已经涉及到了JSON、文本格式的加载，这里不再赘述。这里介绍Parquet，下一节会介绍JDBC数据库连接。 Parquet是一种阅读全文

posted @ 2019-04-13 09:19 _Meditation 阅读(6440) 评论(0) 推荐(0)

spark DataFrame的创建几种方式和存储

摘要：一。从Spark2.0以上版本开始，Spark使用全新的SparkSession接口替代Spark1.6中的SQLContext及HiveContext接口来实现其对数据加载、转换、处理等功能。SparkSession实现了SQLContext及HiveContext所有功能。 SparkSess 阅读全文

posted @ 2019-04-13 09:09 _Meditation 阅读(4846) 评论(0) 推荐(0)

spark DataFrame

摘要： DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。从上面的图中可以看出DataFrame和RDD的区别。RDD是分布式的 Jav 阅读全文

posted @ 2019-04-13 09:06 _Meditation 阅读(186) 评论(0) 推荐(0)

Meditation

埋滴忒深

公告