第三次作业
1.自己的基本信息:
- 学号:2017*****1015;
- 姓名:李昊
- 码云仓库地址:https://gitee.com/lihaolh/word_frequency
2.程序分析,对程序中的四个函数做简要说明。要求附上每一段代码及对应的说明
第一段:打开并读取文件到缓冲区
def process_file(dst): # 读文件到缓冲区 try: # 打开文件 f = open(dst) except IOError as s: print (s) return None try: # 读文件到缓冲区 bvffer = f.read() except: print ("Read File Error!") return None f.close() return bvffer
第二段:添加处理缓冲区bvffer代码,统计每个单词的频率,对文本特殊符号进行修改,并读入字典word_freq
def process_buffer(bvffer): 2 if bvffer: 3 word_freq = {} 4 # 下面添加处理缓冲区 bvffer代码,统计每个单词的频率,存放在字典word_freq 5 for item in bvffer.strip().split(): 6 word = item.strip(punctuation+' ') 7 if word in word_freq.keys(): 8 word_freq[word] += 1 9 else: 10 word_freq[word] = 1 11 return word_freq
第三段:设置输出函数,进行排序并输出Top 10 的单词,统计词频
def output_result(word_freq): 2 if word_freq: 3 sorted_word_freq = sorted(word_freq.items(), key=lambda v: v[1], reverse=True) 4 for item in sorted_word_freq[:10]: # 输出 Top 10 的单词 5 print(item)
第四段:调用main函数,输出至控制台
if __name__ == "__main__": import argparse parser = argparse.ArgumentParser() parser.add_argument('dst') args = parser.parse_args() dst = args.dst bvffer = process_file(dst) word_freq = process_buffer(bvffer) output_result(word_freq)
3.性能分析结果及改进
程序运行命令、运行结果截图
用命令python -m cProfile word_freq.py Gone_with_the_wind.txt运行:

分析:Gone_with_the_wind.txt文件大小是2.25 M
总共有869127次函数调用,程序总共耗时0.443秒
指出执行次数最多的代码

执行时间最长的代码

给出改进优化的方法以及你的改进代码
应改把执行时间最长的代码优化一下,函数process_buffer函数中有一行代码:
if word in word_freq.keys():
该代码在for循环中,有多少单词,这个循环就会执行多少遍,每次进行条件判断的时候都要执行一次字典的keys方法,所以耗时很多。于是把keys去除,该行代码变为:
if word in word_freq:
更改后速度会有明显提升
4.总结
在本次课后作业中,使我更加熟练的掌握了码云以及博客网的使用,并且复习了上次作业中git传输远程仓库的操作,又新学会了如何创建git分支。在python中,又学会了新的函数与语句
并且学会了如何使用使用cProfile进行性能分析已经明白了什么是性能分析器,相信在以后的学习中,我会更加努力,学到更多的知识。

浙公网安备 33010602011771号