摘要: 去年暑假使用了TFIDF对一些文本做了处理,本次遇到的文本文件由于量太大,所以全年使用的算法源代码计算速度太慢,问题主要出在重复的循环比对词语的问题上。在设立集合比对的任务中,字典的速度是最快的,同时可以提供一个值作为出现次数。这样一篇文档的词袋模型可以使用字典数据结构完整的表现出来而且速度不会太慢 阅读全文
posted @ 2018-04-08 21:36 六一路晗晗 阅读(980) 评论(3) 推荐(1) 编辑