摘要:
https://www.cnblogs.com/201806120085px/p/14855504.html 07 Spark RDD编程 综合实例 英文词频统计 没注意截止时间,忘记交了。 大作业: 1.选择使用什么数据,有哪些字段,多大数据量。 数据:中国疫情数据 字段:新增累计确诊人数、新增现 阅读全文
摘要:
1. 用Pyspark自主实现词频统计过程。 >>> s = txt.lower().split()>>> dd = {}>>> for word in s:... if word not in dd:... dd[word] = 1... else:... dd[word] = dic[word] 阅读全文