03 2018 档案
摘要:Configuring Network Names This page is for manual CDH installations only. Cloudera Manager users should disregard.Important: CDH requires IPv4. IPv6 i
阅读全文
摘要:$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm $ sudo rpm -ivh mysql-community-release-el7-5.noarch.rpm $ yum update $ sudo yum install mysql-server $ sudo systemctl start mysq...
阅读全文
摘要:下载rpms包 cm5.14.0版本的下载地址:http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.14.0/RPMS/x86_64/ 为了便于执行命令,我们将在所有节点中创建~/soft/这样一个目录,并在此目录下进行以下安装操作。如果步骤1中
阅读全文
摘要:hadoop 和hbase 版本兼容矩阵:
阅读全文
摘要:架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在不想在文档中贴过多的代码,这章贴这么多,只是为了方面自己回头 debug
阅读全文
摘要:DAGSchedulerEventProcessLoop 源码 上面的eventLoop是事件循环器典型的代码,可以直接应用到自己项目产品中。
阅读全文
摘要:rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函
阅读全文
摘要:spark map reduce 原理图 截图自:《深入理解spark核心思想和源码分析》
阅读全文
摘要:spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop
阅读全文
摘要:Scala中的None,Nothing,Null,Nil 在scala中这四个类型名称很类似,作用确实完全不同的。 None是一个object,是Option的子类型,定义如下 case object None extends Option[Nothing] { def isEmpty = true
阅读全文
摘要:spark streaming 程序设置jvm参数 spark streaming 程序设置jvm参数,比如添加jconsole 远程连接参数: 完整例子
阅读全文
浙公网安备 33010602011771号