会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2020年11月9日
Flink写HBase
摘要: 需求:通过Flink处理流数据,处理结果写入HBase 实现:通过继承RichSinkFunction类,自定义Sink 1.常量类 public class HBaseConstant { public static final String TABLE_NAME = "tableName"; p
阅读全文
posted @ 2020-11-09 00:04 yangyh11
阅读(1055)
评论(0)
推荐(0)
2020年10月27日
【Spark学习笔记】04-提交Spark任务的两种模式详解
摘要: 一、基于Standalone提交任务 1.基于Standalone-client提交任务 --deploy-mode:不写,默认就是client提交 也可以配置:--deploy-mode client ./spark-submit --master spark://node1:7077 \ --c
阅读全文
posted @ 2020-10-27 00:00 yangyh11
阅读(455)
评论(0)
推荐(0)
2020年10月26日
【Spark学习笔记】03-Spark任务提交参数
摘要: --master master的地址,提交任务到哪里执行,如:spark://host:port,yarn,local --deploy-mode client | cluster 在本地启动driver或在cluster上启动,默认是client --class 应用程序的主类,仅针对Java或S
阅读全文
posted @ 2020-10-26 23:12 yangyh11
阅读(223)
评论(0)
推荐(0)
2020年10月25日
【Spark学习笔记】01-Spark简介
摘要: Spark Spark是专为大规模数据处理而设计的快速通用的计算引擎。 Spark拥有MapReduce都具有的优点,但不同的是Spark的job中间处理结果可以保存在内存中,从而不再需要读取HDFS。 Spark能更好的适用于数据挖掘与机器学习等需要迭代的算法。 一、Spark特点 1.速度快。
阅读全文
posted @ 2020-10-25 21:32 yangyh11
阅读(211)
评论(0)
推荐(0)
2020年9月30日
Flink核心概念
摘要: 一、Flink的定义 Flnk是一个分布式处理引擎,用于在无边界和有边界数据流上进行有状态的计算。Flink能在常见集群环境中运行,并能以内存速度和任意规模进行计算。 二、有界流和无界流 Flink的核心是流处理,当然也支持批处理。Flink的本质是流处理,它将批处理看作是流处理的特殊情况,即有界流
阅读全文
posted @ 2020-09-30 00:14 yangyh11
阅读(619)
评论(0)
推荐(0)
2020年9月26日
【Java8新特性】Java新的时间日期API
摘要: Java8引入了新的时间和日期API,非常方便好用。在这里记录下新的api在工作中常用的操作 一、获取当前时间和日期 1.获取当前日期 LocalDate now = LocalDate.now(); System.out.println(now); System.out.println(now.g
阅读全文
posted @ 2020-09-26 22:09 yangyh11
阅读(288)
评论(0)
推荐(0)
2020年9月6日
【Spark学习笔记】05-Spark RDD
摘要: RDD Resilient Distributed DataSet:弹性分布式数据集 弹性:Spark可以通过重新安排计算来自动重建丢失的分区。 分布式:集群中跨多个机器分区存储。 RDD是一个基本的抽象,操作RDD就像操作一个本地集合一样,降低了编程的复杂度。 RDD不存储真正要计算的数据,而是记
阅读全文
posted @ 2020-09-06 15:17 yangyh11
阅读(177)
评论(0)
推荐(0)
2020年9月1日
【Spark学习笔记】06-Spark常用算子
摘要: 一、Tranformation算子 Transformations类算子叫做转换算子,该类算子是延迟加载,也叫懒加载,必须有action类算子才会触发。 1.1 filter 保留符合条件的数据,类似于SQL中的where子句。true保留,false过滤掉 val rdd = sc.makeRDD
阅读全文
posted @ 2020-09-01 23:24 yangyh11
阅读(413)
评论(0)
推荐(0)
2020年8月22日
【Spark学习笔记】02-Spark集群搭建
摘要: Spark集群管理器,总有一款适合你。 Spark运行模式有本地运行和集群运行两种。在实际生产开发中,我们都会选择在集群运行,本地模式仅用于本地测试。 Spark集群管理器: Standalone模式 Yarn K8s Mesos 本文记录前三种集群的搭建,现在主流是Yarn,k8s是趋势,越来越火
阅读全文
posted @ 2020-08-22 21:31 yangyh11
阅读(282)
评论(0)
推荐(0)
2020年7月18日
【大数据-HBase】HBase根据rowKey模糊查询
摘要: 根据rowKey作为过滤条件查询HBase,需要用到过滤器RowFilter。 RowFilter属于比较过滤器的一种,比较过滤器继承自CompareFilter。创建一个比较过滤器需要传入两个参数,分别是比较运算符和比较器。 一、需求背景 车联网项目离线数据分析,采用Spark做分析引擎,数据源是
阅读全文
posted @ 2020-07-18 16:50 yangyh11
阅读(9842)
评论(0)
推荐(0)
上一页
1
2
3
下一页
公告