摘要: Ambari集群部署手册 (ambari离线安装) 一、名词介绍: Ambari 集群管理工具 HDP 集群软件存储库 Mysql 元数据库 JDK 开发工具包 https://blog.csdn.net/microhhh/article/details/81239738 二、应用包以及服务器准备: 阅读全文
posted @ 2018-12-25 16:53 YuanSai 阅读(1200) 评论(0) 推荐(0)
摘要: 1.设置maven 1.在File->settings->搜索maven 2.Mavan home directory--设置maven安装包的bin文件夹所在的位置 3.User settings file--设置setting文件所在的位置 4.Local repository--设置本地仓库 阅读全文
posted @ 2020-06-26 19:11 YuanSai 阅读(368) 评论(0) 推荐(0)
摘要: spark内容 https://sq.163yun.com/blog/article/186627375740239872 1、Spark与MR的对比 MR中要完成数据处理,需要写入多个MR程序并且需要反复的读取磁盘中的文件,Spark中处理任务是使用多个job连续在内存中运行。 1、spark把运 阅读全文
posted @ 2020-06-23 19:23 YuanSai 阅读(560) 评论(0) 推荐(0)
摘要: 1、目的 为了编译和打包过程中不加载一些依赖,可在依赖中配置Scope属性。 2、Scope属性 每个依赖项的Scope选项进行该jar包的相关操作设置,默认为compile,根据需要调整设置: (1)compile设置编译范围内有效,在编译和打包时都会将依赖项加载进去。 (2)test设置测试范围 阅读全文
posted @ 2020-06-14 21:01 YuanSai 阅读(3808) 评论(0) 推荐(0)
摘要: 1、目的 启动Flink任务方法的命令为 flink run flink.jar 但是有时候启动时需要向里面传入一些参数,比如配置文件的路径等。 2、带参执行命令 首先在代码中配置: ParameterTool parameters = ParameterTool.fromArgs(args); S 阅读全文
posted @ 2020-06-14 19:02 YuanSai 阅读(5948) 评论(0) 推荐(1)
摘要: Hbase系统架构图 1、数据热点问题 产生数据热点问题的原因: (1)Hbase的数据是按照字典排序的,当大量连续的rowkey集中写到个别的region,各个region之间实际分布不均衡; (2)创建表时没有提前预分区,创建的表默认只有一个region,大量的数据写入当前region; (3) 阅读全文
posted @ 2020-06-14 17:47 YuanSai 阅读(1473) 评论(0) 推荐(0)
摘要: 1、查看kafka的topic kafka-topics.sh --zookeeper localhost:2181 --list 2、创建topic kafka-topics.sh --zookeeper localhost:2181 -create --topic topic1--partiti 阅读全文
posted @ 2020-06-13 15:39 YuanSai 阅读(1786) 评论(0) 推荐(0)
摘要: 1、Failure Rate Restart Strategy 说明 故障率重启策略,flink提供的一种比较"智能"的重启策略;即当任务的失败率上升到一定的程度时,flink认为本次任务最终是失败的; 也可以理解为,在该策略中,flink关注的点是任务的失败率,失败率计算公式如下: 失败率 = 失 阅读全文
posted @ 2020-06-13 14:25 YuanSai 阅读(2577) 评论(0) 推荐(0)
摘要: 1、数据治理 概念:业务中涉及数据使用的一整套管理行为,如何制定和实施针对整个企业内部数据的商业应用和技术管理的一系列政策和流程. 组成部分:元数据管理、主数据管理、大数据质量管理、大数据资产化、大数据共享发布、大数据标准、大数据交换集成 元数据管理:收集元数据,对元数据进行查询、分析、版本管理、后 阅读全文
posted @ 2020-06-13 11:03 YuanSai 阅读(1387) 评论(0) 推荐(0)
摘要: 1、处理时间 处理时间是指执行相应 算子操作的机器的系统时间。 当流程序在处理时间运行时,所有基于时间的 算子操作(如时间窗口)将使用 运行相应算子的机器的系统时钟。每小时处理时间窗口将包括在系统时钟指示 整个小时之间到达特定算子的所有记录。例如,如果应用程序在上午9:15开始 运行,则第一个每小时 阅读全文
posted @ 2020-06-09 11:14 YuanSai 阅读(2494) 评论(0) 推荐(0)
摘要: flink数据源 Flink附带了 许多预先实现的源函数,可以通过实现 SourceFunction 非并行源,或通过 实现 ParallelSourceFunction 接口或扩展 RichParallelSourceFunction 并行源来编写自己的自定义源。 有几个预定义的流源可从以下位置访 阅读全文
posted @ 2020-06-09 10:40 YuanSai 阅读(843) 评论(0) 推荐(0)