spark - 随笔分类(第2页) - 天之涯0204

spark 基本操作

摘要：读取文件的数据使用的数据：https://codeload.github.com/xsankar/fdps-v3/zip/master 读取单个文件的数据数据转换成一个视图，通过sql查询 join查询数据的读取和写出统计方法线性回归分类聚类推荐阅读全文

posted @ 2016-12-20 16:12 天之涯0204 阅读(3255) 评论(0) 推荐(0)

spark读取hdfs上的文件和写入数据到hdfs上面

摘要：def main(args: Array[String]): Unit = { val conf = new SparkConf() conf.set("spark.master", "local") conf.set("spark.app.name", "spark demo") val sc = new SparkContext(conf); ... 阅读全文

posted @ 2016-12-16 11:15 天之涯0204 阅读(51788) 评论(1) 推荐(0)

spark读取hbase数据

摘要：保存数据到hbase数据库中阅读全文

posted @ 2016-12-09 09:11 天之涯0204 阅读(4350) 评论(0) 推荐(0)

spark编写word count

摘要：创建SparkContext对象的时候需要传递SparkConf对象，SparkConf至少需要包含spark.master和spark.app.name这两个参数，不然的话程序不能正常运行 maven pom.xml如下打包提交spark集群运行本地运行如果hdfs权限有问题，则可以按如下配置阅读全文

posted @ 2016-12-08 14:24 天之涯0204 阅读(410) 评论(0) 推荐(0)

spark 源码安装

摘要：clone 源码 git clone git://github.com/apache/spark.git maven编译源码国外镜像比较慢，此处修改maven仓库的镜像为阿里云镜像：编译的时候内存设置大一点，以免内存溢出，导致编译失败，此处设置maven内存如下： mvn -Pyarn -Pha 阅读全文

posted @ 2016-12-08 14:21 天之涯0204 阅读(244) 评论(0) 推荐(0)

spark shell

摘要：启动spark-shell客户端 spark自带的交互式shell程序，可以在该命令行下使用scala编写spark程序启动spark-shell bin/spark-shell \--master spark://m1:7077 \--executor-memory 512m \--total- 阅读全文

posted @ 2016-12-06 10:20 天之涯0204 阅读(693) 评论(0) 推荐(0)

spark的安装

摘要：官方安装地址：http://spark.apache.org/docs/latest/spark-standalone.html 1、下载，根据hadoop和spark的兼容性，下载spark版本，由于本地安装的hadoop是2.6，因此，下载的spark版本是spark-1.6.3-bin-had 阅读全文

posted @ 2016-11-22 14:56 天之涯0204 阅读(243) 评论(0) 推荐(0)

随笔分类 - spark

公告