hadoop学习之spark应用

启动spark(前提是在Hadoop集群中已经安装配置好spark)

命令：cd /usr/local/spark

bin/spark-shell

RDD的创建方法：

（1）在程序内部创建将某个编程语言的有序集合作为参数传入“SparkContex.parallelize(Seq)”方法可以生成一个RDD

（2）从程序外读取通过如“SparkContex.textFile(path)”等方法从外部文件读数据并生成RDD

（3）RDD转换操作通过对一个RDD执行转换操作，得到一个新的RDD

//用Spark自带的本地文件README.md文件生成RDD

val textFile = sc.textFile("file:///usr/local/spark/README.md")

//抽取含有“Spark”的行，生成一个新的RDD

val lineWithSpark = textFile.filter(line => line.contains("Spark"))

posted @ 2020-06-14 00:19 The_Blue_Sky 阅读(207) 评论(0) 收藏举报

刷新页面返回顶部

The_Blue_Sky