摘要: 1. 训练停词表,文件夹下每个txt文件,按照关键词提取出topK20 ,合并成一个list,用collection方法得到该文件下所有txt关键词top100 的常用词,然后生成keywords_freq.txt(没有词频,相当于等效),再从这个txt文件中找出top300的常用词 作为停词表 2 阅读全文
posted @ 2018-09-27 16:43 Ming_noob 阅读(99) 评论(0) 推荐(0)
摘要: # 进入的path是个文件夹路径,里面的文件是txt def eachFile(filepath): pathDir = os.listdir(filepath) # 获取当前路径下的文件名,返回List title = [] key1 = [];key2 = [];key3 = [];key4 = [];key5 = [];key6 = [];key7 = [];ke... 阅读全文
posted @ 2018-09-27 11:27 Ming_noob 阅读(163) 评论(0) 推荐(0)
摘要: 1 # 进入的path是个文件夹路径,里面的文件是txt 2 def eachFile(filepath): 3 pathDir = os.listdir(filepath) # 获取当前路径下的文件名,返回List 4 title = [] 5 key1 = [];key2 = [];key3 = 阅读全文
posted @ 2018-09-27 11:26 Ming_noob 阅读(155) 评论(0) 推荐(0)