会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
技术即艺术
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2020年12月1日
Flink CEP实例及基础应用
摘要: ####1.flink CEP描述 CEP(Complex Event Processing)就是在无界事件流中检测事件模式,使能够掌握数据中重要的部分。 ####2.flink CEP编程的四个步骤 1>.输入数据流的创建 2>.模式(Pattern)定义 3>.Pattern应用在事件流上的检测
阅读全文
posted @ 2020-12-01 14:23 技术即艺术
阅读(1136)
评论(0)
推荐(0)
2020年9月28日
Spark JVM参数优化设置及Sparkstreaming优化和反压机制
摘要: ####1.Spark JVM参数优化设置 Spark JVM的参数优化设置适用于Spark的所有模块,包括SparkSQL、SparkStreaming、SparkRdd及SparkML,主要设置以下几个值: spark.yarn.driver.memoryOverhead #driver端最大的
阅读全文
posted @ 2020-09-28 19:11 技术即艺术
阅读(1218)
评论(0)
推荐(0)
2020年9月27日
大数据时序分析组件druid获取kafka和hdfs数据示例
摘要: ####1.说明 druid支持获取数据种类较多,包括本地离线数据,hdfs数据和kafka实时流数据。在实际基于hadoop生态系统的大数据开发应用中,获取hdfs数据和kafka流式数据较为常见。本篇文档着重说明获取kafka和hdfs数据的实例。 想要获取什么样类型的数据,就需要在配置文件配置
阅读全文
posted @ 2020-09-27 16:20 技术即艺术
阅读(964)
评论(0)
推荐(0)
2020年9月13日
大数据时序分析组件Druid集群安装配置部署
摘要: ####1.节点服务规划 master:coordinator,overlord slave1:historical,middle_manager slave2:router,broker ####2.下载安装包解压 从druid官网(https://druid.apache.org/downloa
阅读全文
posted @ 2020-09-13 14:58 技术即艺术
阅读(964)
评论(0)
推荐(1)
2020年6月2日
ElasticSearch集群部署及可视化工具cerebro安装
摘要: ###1.服务器信息 192.168.195.136 master 192.168.195.137 slave1 192.168.195.139 slave2 ###2.主要配置 ####第一步 上传es安装包到master节点的指定的目录,这里安装版本是elasticsearch-5.3.3 解压
阅读全文
posted @ 2020-06-02 17:36 技术即艺术
阅读(1629)
评论(0)
推荐(0)
2020年5月28日
WW大数据平台架构
摘要: ###1.大数据架构 说明: 1.该大数据平台采用的阿里云服务器,所以在集群部署和运维上会减少很多工作量 2.主题的计算引擎采用Spark,部分有Flink 3.数据挖掘主要是应用python的一些挖掘框架,模型比如词袋模型和一些常见的nlp算法 4.任务调度是自研的诸葛大数据调度平台
阅读全文
posted @ 2020-05-28 11:26 技术即艺术
阅读(1418)
评论(0)
推荐(0)
YNGAT-JZ数据治理架构
摘要: ###1.数据治理系统架构 说明: 1.Flume采用的三个client实时监控三个服务器的磁盘路径,七个server提高负载均衡和拉取数据的能力,采用load_balance机制将数据Sink到kafka,其中source zip方式flume官方不支持,需要开发自定义source 2.对于历史数
阅读全文
posted @ 2020-05-28 10:40 技术即艺术
阅读(385)
评论(0)
推荐(0)
2020年5月9日
spark利用sparkSQL将数据写入hive两种通用方式实现及比较
摘要: 1.写在前面 在利用spark计算引擎将kafka或其他源数据组件的数据入hive形成数仓的过程中有两种方式,一种方式是利用spark Rdd的API将数据写入hdfs形成hdfs文件,之后再将文件和hdfs文件和hive表做加载映射。第二种方式是利用sparkSQL将获取的数据Rdd转换成data
阅读全文
posted @ 2020-05-09 18:11 技术即艺术
阅读(12604)
评论(0)
推荐(1)
spark streaming消费kafka数据写入hdfs避免文件覆盖方案(java版)
摘要: 1.写在前面 在 对流式数据处理过程中,往往是spark streaming消费kafka的数据写入hdfs中,再进行hive映射形成数仓,当然也可以利用sparkSQL直接写入hive形成数仓。对于写入hdfs中,如果是普通的rdd则API为 ,如果是PairRDD则API为 。当然高版本的spa
阅读全文
posted @ 2020-05-09 17:22 技术即艺术
阅读(3514)
评论(2)
推荐(0)
2020年3月28日
Spark streaming消费kafka数据通过手动管理kafkaoffset保证实时流消费数据的一致性
摘要: 1.写在前面 在大数据流式和实时数据计算方面,目前大多采用 和`kafka+flink`,这两种方式的不同在于组件的不同,spark是离线批和流式一体的大数据分布式计算引擎,而flink最初是为流式和实时计算而生的,所以在流式和实时上更加有优势。而随着flink不断的更新逐渐对批的支持也非常好。这两
阅读全文
posted @ 2020-03-28 20:23 技术即艺术
阅读(1795)
评论(2)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告