lines = sc.textFile("hdfs://localhost:9000/user/hadoop/test.txt").flatMap(lambda line: line.split()).flatMap(lambda line: re.split(r'\W', line)).flatMap(lambda line: line.split()).map(lambda word: word.lower()).filter(lambda x: x not in stopwords).filter(lambda x: len(x) > 2).map(lambda a: (a, 1)).reduceByKey(lambda a, b: a + b).sortBy(lambda x: x[1], False)

　　　　　　C.和作业2的“二、Python编程练习：英文文本的词频统计 ”进行比较，理解Spark编程的特点。

　　　　　　Spark运行速度快、易用性好、通用性强和随处运行。

　　　　　　二、求Top值

posted on 2022-04-07 20:41 Luirc 阅读(32) 评论(0) 收藏举报

刷新页面返回顶部

公告

导航