08 大数据第八次作业

WordCount程序任务：

程序

WordCount

输入

一个包含大量单词的文本文件

输出

文件中每个单词及其出现次数（频数），

并按照单词字母顺序排序，

每个单词和其频数占一行，单词和频数之间有间隔

1.用你最熟悉的编程环境，编写非分布式的词频统计程序。

读文件
分词（text.split列表）
按单词统计（字典,key单词，value次数）
排序（list.sort列表）
输出

代码如下：

(1）方法一（文本暴露在运行环境中）：

sentences = """
Under the mistletoe
Watching the fire glow
And telling me, "I love you"
Just being in your arms
Takes me back to that little farm
Where every wish comes true
"""
sentences=sentences.replace(',','')
sentences=sentences.replace('"','')   #将句子中的逗号，双引号去除掉
sentences=sentences.split()           #将句子分开为单个的单词，分开后产生的是一个列表sentences
count_dict={}

for sentence in sentences:
    if sentence not in count_dict:   #判断是否不在统计的字典中
        count_dict[sentence] = 1
    else:
        count_dict[sentence]+=1      #如果所统计的单词在字典中，就累加1


for key,value in count_dict.items():
    print(f"{key}出现了{value}次")

（2）方法二（新建文本进行读取文本里面内容）：
执行代码：

file_data=open("taylor","rt")
sentences=file_data.read()
file_data.close()
sentences=str(sentences).replace(',','')
sentences=str(sentences).replace('"','')   #将句子中的逗号，双引号去除掉
sentences=str(sentences).split()           #将句子分开为单个的单词，分开后产生的是一个列表sentences
count_dict={}
for sentence in sentences:
    if sentence not in count_dict:   #判断是否不在统计的字典中
        count_dict[sentence] = 1
    else:
        count_dict[sentence]+=1      #如果所统计的单词在字典中，就累加1
for key,value in count_dict.items():
    print(f"{key}出现了{value}次")

文本内容（taylor文本）：

Under the mistletoe
Watching the fire glow
And telling me, "I love you"
Just being in your arms
Takes me back to that little farm
Where every wish comes true