摘要: Hadoop参数调优; 1、hdfs-site.xml 文件中配置多目录(提前配置),否则更改目录需要重新启动集群 2、Namenode有一个线程池,来处理不同的DataNode的并发心跳以及客户端并发元数据操作 dfs.namenode.handler.count= 20*log2(Clusete 阅读全文
posted @ 2020-06-15 21:33 七寸青衫 阅读(180) 评论(0) 推荐(0) 编辑
摘要: 一、概念: 处理函数(底层API),可以访问时间戳,水位线以及注册定时时间,还可以输出特定事件(超时事件) Flink主要提供了8个ProcessFunction(斜体标注的重要): ProcessFunction KeyedProcessFunction CoProcessFunction Pro 阅读全文
posted @ 2020-06-15 20:37 七寸青衫 阅读(778) 评论(0) 推荐(0) 编辑
摘要: 编写一个 SQL 查询来实现分数排名。 如果两个分数相同,则两个分数排名(Rank)相同。请注意,平分后的下一个名次应该是下一个连续的整数值。换句话说,名次之间不应该有“间隔”。 + + +| Id | Score |+ + +| 1 | 3.50 || 2 | 3.65 || 3 | 4.00 | 阅读全文
posted @ 2020-06-14 23:40 七寸青衫 阅读(229) 评论(0) 推荐(0) 编辑
摘要: es主要特点: 分布式的实时文件存储,每个字段都被索引并可被搜索 分布式的实时分析搜索引擎–做不规则查询 可以扩展到上百台服务器,处理 PB 级结构化或非结构化数据 es和其他数据存储对比 es基本操作不做介绍 远程向es中写数据: object MyESUtil { val esUrl = "ht 阅读全文
posted @ 2020-06-06 21:51 七寸青衫 阅读(484) 评论(0) 推荐(0) 编辑
摘要: Job的划分 1、Application : 应用,创建一个SparkContext可以认为创建了一个Application 2、Job 在一个app中每执行一次行动算子 就会创建一个Job,一个application会有多个job 3、stage 阶段,每碰到一个shuffle算子,会产生一个新的 阅读全文
posted @ 2020-05-11 22:29 七寸青衫 阅读(1371) 评论(0) 推荐(1) 编辑
摘要: 一、关于UI地址 master: 8080 worker: 8081 application: 4040 (用来查看正在运行的app的情况, 一旦这个应用结束, 则无法查看) 二、历史服务器(这里说明yarn模式) 1、 配置历史服务器 1)spark-defaults.conf 默认配置 spar 阅读全文
posted @ 2020-05-04 23:29 七寸青衫 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2020-05-04 23:16 七寸青衫 阅读(242) 评论(0) 推荐(1) 编辑
摘要: 一、从github上誊代码 如图,然后粘贴连接即可 二、github代码更新 三、idea代码jar包导入虚拟机 参考连接: https://blog.csdn.net/qq_33265875/article/details/103518430 阅读全文
posted @ 2020-05-04 23:12 七寸青衫 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 一、superset的基本介绍 1、super工作原理: 用户通过浏览器访问superset的ui界面 > flask开发的web应用发送请求 > 对接数据源摄取数据 > 返回数据到浏览器 > nvd3.js可视化数据 2、安装: 环境要求: superset安装环境必须有python3.6版本左右 阅读全文
posted @ 2020-04-13 22:08 七寸青衫 阅读(797) 评论(0) 推荐(1) 编辑
摘要: nohup 和&配合使用 具体使用不做介绍 参考:https://www.jianshu.com/p/93a45927f013 这里说一下在shell脚本中 nohup &不起作用 一直输出在控制台的情况 脚本: 执行效果: 将命令传入变量,然后调用变量 修改脚本: 执行效果: 阅读全文
posted @ 2020-04-07 23:55 七寸青衫 阅读(1816) 评论(0) 推荐(0) 编辑
loading: { rebound: { tension: 16, }, spinner: { id: 'spinner', radius: 90, } }