posted @ 2020-12-11 16:34
12 2020 档案
摘要:在安装Kafka-eagle的时候遇见几个坑,在这里分享一下: 注意:版本问题,若按本文章不能解决,则着重查看版本的问题;这里只是提供解决针对问题的思路 Kafka版本:kafka_2.11-0.11.0.2 Kafka-eagle版本:kafka-eagle-bin-1.3.7 MySQL版本:5
阅读全文
摘要:累加器:分布式共享只写变量 1. 把Executor端的信息聚合到Driver端 2. 在Driver程序中定义的变量,在Executor端的每个Task都会得到这个变量的新的副本 每个task更新副本的值之后,传回Driver端进行merge(合并) 3.原理类似于mapreduce,分布式改变,
阅读全文
posted @ 2020-12-05 21:10
摘要:RDD的cache缓存 -如果一个RDD需要重复使用,那么需要从头再次执行来获取数据 -RDD对象可以重用,但是数据不可以重用 -RDD通过Cache或者Persist方法讲前面计算的结果缓存,把数据以缓存在JVM的堆内存中 -但是并不是这两方法被调用时立即缓存,而是触发后面的action算子时,该
阅读全文
posted @ 2020-12-05 20:48
摘要:部署模式对比 模式 Spark安装机器数 需要启动的进程 所属 应用场景 Local 1 无 Spark 测试 Standalone 3 Master&Worker Spark 单独部署 Yarn 1 Yarn&HDFS Hadoop 混合部署 端口号: - 4040(计算端口) : Spark查看
阅读全文
posted @ 2020-12-04 15:47
摘要:首先我们来看看Hadoop的相关简短回顾: 1. Hadoop是由Java语言编写,在分布式集群上存储海量数据并运行分布式分析应用框架 2. HDFS为其存储数据的分布式文件系统 3. 分布式计算框架为MapReduce 4. HBase一个基于HDFS的分布式非关系型数据库 5. Yarn作为分布
阅读全文
posted @ 2020-12-04 15:14
摘要:在开发中遇到自己给的一个txt文件大小达到19Mb 提醒:文件大小超过了2.56MB的默认值,有些功能不可靠 The file size(19.47MB ) exceeds configured limit(2.56MB). Code insight features are not acaliab
阅读全文
posted @ 2020-12-04 10:18
摘要:单例介绍: 保证整个软件系统中,某个类只能存在一个对象实例 应用场景例如:一家店的店主只能有一个;一个车的驾驶员也只能有一个;等 类别: 饿汉式: 类加载时就完成了初始化,所以类加载比较慢,但获取对象的速度快。 不使用时就加载到内存,占用了资源 // 测试类 object TestSingle ex
阅读全文
posted @ 2020-12-01 23:13
浙公网安备 33010602011771号