03 2018 档案

摘要:Configuring Network Names This page is for manual CDH installations only. Cloudera Manager users should disregard.Important: CDH requires IPv4. IPv6 i 阅读全文
posted @ 2018-03-30 21:39 yimison 阅读(200) 评论(0) 推荐(0)
摘要:$ wget http://repo.mysql.com/mysql-community-release-el7-5.noarch.rpm $ sudo rpm -ivh mysql-community-release-el7-5.noarch.rpm $ yum update $ sudo yum install mysql-server $ sudo systemctl start mysq... 阅读全文
posted @ 2018-03-30 11:50 yimison 阅读(82) 评论(0) 推荐(0)
摘要:下载rpms包 cm5.14.0版本的下载地址:http://archive.cloudera.com/cm5/redhat/7/x86_64/cm/5.14.0/RPMS/x86_64/ 为了便于执行命令,我们将在所有节点中创建~/soft/这样一个目录,并在此目录下进行以下安装操作。如果步骤1中 阅读全文
posted @ 2018-03-28 14:37 yimison 阅读(172) 评论(0) 推荐(0)
摘要:hadoop 和hbase 版本兼容矩阵: 阅读全文
posted @ 2018-03-27 11:59 yimison 阅读(181) 评论(0) 推荐(0)
摘要:架构 前三章从 job 的角度介绍了用户写的 program 如何一步步地被分解和执行。这一章主要从架构的角度来讨论 master,worker,driver 和 executor 之间怎么协调来完成整个 job 的运行。 实在不想在文档中贴过多的代码,这章贴这么多,只是为了方面自己回头 debug 阅读全文
posted @ 2018-03-19 12:07 yimison 阅读(686) 评论(0) 推荐(0)
摘要:DAGSchedulerEventProcessLoop 源码 上面的eventLoop是事件循环器典型的代码,可以直接应用到自己项目产品中。 阅读全文
posted @ 2018-03-19 11:59 yimison 阅读(244) 评论(0) 推荐(0)
摘要:rdd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。 两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。 假设一个rdd有10个元素,分成3个分区。如果使用map方法,map中的输入函 阅读全文
posted @ 2018-03-16 16:38 yimison 阅读(617) 评论(0) 推荐(0)
摘要:spark map reduce 原理图 截图自:《深入理解spark核心思想和源码分析》 阅读全文
posted @ 2018-03-11 16:09 yimison 阅读(162) 评论(0) 推荐(0)
摘要:spark streaming task 序列化源码 1.入口 2.RDD.scala foreachPartition 代码逻辑 3.SparkContext runJob 代码逻辑 4.DAGScheduler runJob 代码逻辑 5.DAGSchedulerEventProcessLoop 阅读全文
posted @ 2018-03-08 17:47 yimison 阅读(426) 评论(0) 推荐(0)
摘要:Scala中的None,Nothing,Null,Nil 在scala中这四个类型名称很类似,作用确实完全不同的。 None是一个object,是Option的子类型,定义如下 case object None extends Option[Nothing] { def isEmpty = true 阅读全文
posted @ 2018-03-08 11:57 yimison 阅读(315) 评论(0) 推荐(0)
摘要:spark streaming 程序设置jvm参数 spark streaming 程序设置jvm参数,比如添加jconsole 远程连接参数: 完整例子 阅读全文
posted @ 2018-03-07 18:41 yimison 阅读(317) 评论(0) 推荐(0)