Spark shell里的语句探索

　　不多说，直接上干货！

获得垃圾链接数据集的命令如下：

　　wget http://www-stat.stanford.edu/~tibs/ElemStatLearn/datasets/spam.data

scala> val inFile = sc.textFile("./spam.data）

　　这行代码的意思是，将spam.data文件中的每行作为一个RDD中的单独元素加载到spark中，并返回一个名为inFile的RDD。

scala> import spark.SparkFiles;

scala> val file = sc.addFile("spam.data")

scala> val inFile sc.textFile(SparkFiles.get("spam.data"))

　　这段代码的意思是，让spam.data文件在所有机器上都有备份。

_.toDouble 和 x=>x.toDouble等价

scala> val rawFile = sc.textFile("READEME.md")

sclaa> val words = rawFile.flatMap("line=> line.spilt("))

scala> val wordNumber = words.map(w => (w,1))

scala> val wordCounts = wordNumber.reduceBykey(_+_)

scala> wordCounts.foreach(println)

　　这段代码的意思是，读取文件READEME.md，以空格为拆分标志，将文件中的每一行分割为多个单词。对每一个单词进行计数，将单词进行分类合并，计算总的出现次数。将所有单词出现的次数进行打印输出。

欢迎大家，加入我的微信公众号：大数据躺过的坑人工智能躺过的坑

同时，大家可以关注我的个人博客：

http://www.cnblogs.com/zlslch/ 和 http://www.cnblogs.com/lchzls/ http://www.cnblogs.com/sunnyDream/

详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

　　人生苦短，我愿分享。本公众号将秉持活到老学到老学习无休止的交流分享开源精神，汇聚于互联网和个人学习工作的精华干货知识，一切来于互联网，反馈回互联网。
　　目前研究领域：大数据、机器学习、深度学习、人工智能、数据挖掘、数据分析。语言涉及：Java、Scala、Python、Shell、Linux等。同时还涉及平常所使用的手机、电脑和互联网上的使用技巧、问题和实用软件。只要你一直关注和呆在群里，每天必须有收获

对应本平台的讨论和答疑QQ群：大数据和人工智能躺过的坑（总群）（161156071）

posted @ 2016-09-11 14:43 大数据和AI躺过的坑阅读(417) 评论(0) 收藏举报

刷新页面返回顶部

大数据和人工智能躺过的坑

Spark shell里的语句探索

公告