会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
垚~垚
博客园
首页
新随笔
联系
订阅
管理
2020年7月19日
使用kafka数据源创建SparkStreaming--DStream
摘要: 1)需求:通过SparkStreaming从Kafka读取数据,并将读取过来的数据做简单计算,最终打印到控制台。 2)导入依赖 <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka-0-1
阅读全文
posted @ 2020-07-19 16:25 垚~垚
阅读(347)
评论(0)
推荐(0)
2020年6月26日
Hadoop--Hive
摘要: DDL数据定义 4.1 创建数据库 CREATE DATABASE [IF NOT EXISTS] database_name [COMMENT database_comment] [LOCATION hdfs_path] [WITH DBPROPERTIES (property_name=prop
阅读全文
posted @ 2020-06-26 15:22 垚~垚
阅读(115)
评论(0)
推荐(0)
2020年6月7日
Spark--行动算子
摘要: Spark行动算子 所谓的行动算子,其实不会再产生新的RDD,而是触发作业的执行 行动算子执行后,会获取到作业的执行结果。 转换算子不会触发作业的执行,只是功能的扩展和包装。 1) reduce 函数签名 def reduce(f: (T, T) => T): T 函数说明 聚集RDD中的所有元素,
阅读全文
posted @ 2020-06-07 15:48 垚~垚
阅读(403)
评论(0)
推荐(0)
RDD转换算子--key-value
摘要: l Key - Value类型 1) partitionBy 函数签名 def partitionBy(partitioner: Partitioner): RDD[(K, V)] 函数说明 将数据按照指定Partitioner重新进行分区。Spark默认的分区器是HashPartitioner v
阅读全文
posted @ 2020-06-07 15:47 垚~垚
阅读(320)
评论(0)
推荐(0)
RDD转换算子--双value
摘要: 双value 1) intersection 函数签名 def intersection(other: RDD[T]): RDD[T] 函数说明 对源RDD和参数RDD求交集后返回一个新的RDD 保留分区中中较大分区数 val dataRDD1 = sparkContext.makeRDD(List
阅读全文
posted @ 2020-06-07 13:29 垚~垚
阅读(244)
评论(0)
推荐(0)
RDD转换算子--单值value
摘要: Sparks算子总结: l Value类型 1) map 函数签名 def map[U: ClassTag](f: T => U): RDD[U] //单值处理逻辑 函数说明 将处理的数据逐条进行映射转换,这里的转换可以是类型的转换,也可以是值的转换。 val dataRDD: RDD[Int] =
阅读全文
posted @ 2020-06-07 13:10 垚~垚
阅读(230)
评论(0)
推荐(0)
2020年6月2日
kafka--环境搭建
摘要: 2.1.3 集群部署 1)解压安装包 [atguigu@hadoop102 software]$ tar -zxvf kafka_2.11-2.4.1.tgz -C /opt/module/ 2)修改解压后的文件名称 [atguigu@hadoop102 module]$ mv kafka_2.11
阅读全文
posted @ 2020-06-02 23:36 垚~垚
阅读(62)
评论(0)
推荐(0)
大数据消息队列--Kafka概括
摘要: 1.1.2 消息队列的两种模式 1)点对点模式(一对一,消费者主动拉取数据,消息收到后消息清除) 消息生产者生产消息发送到Queue中,然后消息消费者从Queue中取出并且消费消息。 消息被消费以后,queue中不再有存储,所以消息消费者不可能消费到已经被消费的消息。Queue支持存在多个消费者,但
阅读全文
posted @ 2020-06-02 23:26 垚~垚
阅读(110)
评论(0)
推荐(0)
公告