随笔分类 - 大数据-spark
摘要:一、安装1、flume-ng-1.5.0-cdh5.3.6.tar.gz 下载链接:https://pan.baidu.com/s/1AWPGP2qnY6_VpYr_iSnJ3w 密码:tiog2、对flume进行解压缩:tar -zxvf flume-ng-1.5.0-cdh5.3.6.tar.g
阅读全文
摘要:1、Tuning Spark 文档 原文:http://spark.apache.org/docs/latest/tuning.html 翻译参考:https://www.cnblogs.com/lhfcws/p/6297337.html 2、Cloudera 上关于 Spark 调优的有关博客 H
阅读全文
摘要:【转】Spark性能优化指南——基础篇 http://mp.weixin.qq.com/s?__biz=MjM5NDMwNjMzNA==&mid=2651805828&idx=1&sn=2f413828d1fdc6a64bdbb25c51508dfc&scene=2&srcid=0519iChOET
阅读全文
摘要:网上查阅一些资料,收集整理如下: 1、 通用性 spark更加通用,spark提供了transformation和action这两大类的多个功能api,另外还有流式处理sparkstreaming模块、图计算GraphX等等;mapreduce只提供了map和reduce两种操作,流计算以及其他模块
阅读全文
摘要:一、通用的load和save操作 对于Spark SQL的DataFrame来说,无论是从什么数据源创建出来的DataFrame,都有一些共同的load和save操作。load操作主要用于加载数据,创建出DataFrame;save操作,主要用于将DataFrame中的数据保存到文件中。 Java版
阅读全文
摘要:创建DataFrame使用SQLContext,可以从RDD、Hive表或者其他数据源,来创建一个DataFrame。以下是一个使用JSON文件创建DataFrame的例子: Java版本:JavaSparkContext sc = ...; SQLContext sqlContext = new
阅读全文
摘要:一、Spark SQL的特点 1、支持多种数据源:Hive、RDD、Parquet、JSON、JDBC等。2、多种性能优化技术:in-memory columnar storage、byte-code generation、cost model动态评估等。3、组件扩展性:对于SQL的语法解析器、分析
阅读全文
摘要:DAGScheduler stage 划分算法 stage划分算法很重要,对于spark开发人员来说,必须对stage划分算法很清晰,知道自己编写的spark Application被划分成了几个job,每个job被划分成了几个stage,每个stage包括哪些代码,这样当发现哪个stage报错或者
阅读全文
摘要:sparkContext初始化机制 要点: 1、TaskSchedular如何注册,application、Excutor 如何反向注册 TaskScheduleImpl 即 TaskSchedular, SparkDestroySchedularBackend底层接收TaskScheduleImp
阅读全文
摘要:一、spark的三种提交模式 1、第一种,Spark内核架构,即standalone模式,基于Spark自己的Master-Worker集群。 2、第二种,基于YARN的yarn-cluster模式。 3、第三种,基于YARN的yarn-client模式。 如果,你要切换到第二种和第三种模式,在提交
阅读全文
摘要:假设有这样一个文件,文件内容如下 要求按照班级分组取出每个班前三名,源码如下: topN的排序算法可以理解: 假如有三个山洞,一群土匪排着队来抢占山洞,按如下规则占领山洞,下面算法保证第一个山洞主人永远是最厉害的,以此类推 实现:
阅读全文
摘要:!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.5、zookeeper3.4.5、Scala2.12.6、kafka_2.9.2
阅读全文
摘要:!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.5、zookeeper3.4.5、Scala2.12.6、kafka_2.9.2
阅读全文
摘要:!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.5、zookeeper3.4.5、Scala2.12.6、kafka_2.9.2
阅读全文
摘要:重新启动MySQL 进入mysql shell界面 输入新密码即可
阅读全文
摘要:!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.5、zookeeper3.4.5、Scala2.12.6、kafka_2.9.2
阅读全文
摘要:!!!该系列使用三台虚拟机搭建一个完整的spark集群,集群环境如下: virtualBox5.2、Ubuntu14.04、securecrt7.3.6_x64英文版(连接虚拟机) jdk1.7.0、hadoop2.6.5、zookeeper3.4.5、Scala2.12.6、kafka_2.9.2
阅读全文
摘要:1、先将网络设置为桥接模式 2、打开虚拟机,进入界面,点击编辑 3、设置IP,ipconfig/all查看物理机IP,虚拟机要与本机在同一网段 然后断开重新连接就可以上网了
阅读全文
摘要:http://dblab.xmu.edu.cn/blog/install-mysql/
阅读全文
摘要:一、题目描述 (1)请编写Spark应用程序,该程序可以在分布式文件系统HDFS中生成一个数据文件peopleage.txt,数据文件包含若干行(比如1000行,或者100万行等等)记录,每行记录只包含两列数据,第1列是序号,第2列是年龄。效果如下: (2)请编写Spark应用程序,对分布式文件系统
阅读全文