随笔分类 - spark
摘要:读取文件的数据 使用的数据:https://codeload.github.com/xsankar/fdps-v3/zip/master 读取单个文件的数据 数据转换成一个视图,通过sql查询 join查询 数据的读取和写出 统计方法 线性回归 分类 聚类 推荐
阅读全文
摘要:def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set("spark.app.name", "spark demo") val sc = new SparkContext(conf); ...
阅读全文
摘要:创建SparkContext对象的时候需要传递SparkConf对象,SparkConf至少需要包含spark.master和spark.app.name这两个参数,不然的话程序不能正常运行 maven pom.xml如下 打包提交spark集群运行 本地运行如果hdfs权限有问题,则可以按如下配置
阅读全文
摘要:clone 源码 git clone git://github.com/apache/spark.git maven编译源码 国外镜像比较慢,此处修改maven仓库的镜像为阿里云镜像: 编译的时候内存设置大一点,以免内存溢出,导致编译失败,此处设置maven内存如下: mvn -Pyarn -Pha
阅读全文
摘要:启动spark-shell客户端 spark自带的交互式shell程序,可以在该命令行下使用scala编写spark程序 启动spark-shell bin/spark-shell \--master spark://m1:7077 \--executor-memory 512m \--total-
阅读全文
摘要:官方安装地址:http://spark.apache.org/docs/latest/spark-standalone.html 1、下载,根据hadoop和spark的兼容性,下载spark版本,由于本地安装的hadoop是2.6,因此,下载的spark版本是spark-1.6.3-bin-had
阅读全文
浙公网安备 33010602011771号