摘要: #tf-idf (term frequency inverse document frequency) 1:读取文档 2:分词 3:对文档整理成所需格式 4:计算词频 5:对词频低的词语进行过滤 6:通过语料库建立成词典 7:加载要计算对比的文档 8:将要对比文档转化为系数向量(doc2bow) 9 阅读全文
posted @ 2017-12-27 17:39 兔子的尾巴_Mini 阅读(183) 评论(0) 推荐(0)
摘要: 恢复内容开始 1. observe accoding to the purpose of analysis 2. decide a model of specific algorithm 3. clear the steps 4. write the codes classify algorithm 阅读全文
posted @ 2017-12-27 17:32 兔子的尾巴_Mini 阅读(361) 评论(0) 推荐(0)
摘要: 抽象的组织 数据分析处理 分类,聚类,关联,回归 阅读全文
posted @ 2017-12-27 16:08 兔子的尾巴_Mini 阅读(609) 评论(0) 推荐(0)
摘要: import urllib.requestdata=urllib.request.urlopen("http://127.0.0.1/txt1.txt").read().decode("utf-8","ignore")word10=jieba.analyse.extract_tags(data,20 阅读全文
posted @ 2017-12-27 16:04 兔子的尾巴_Mini 阅读(289) 评论(0) 推荐(0)
摘要: candidate applicant employer illnesses:heart disease diabetes high blood press stroke feeble abort deprivation insulin metabolism anesthesia startling 阅读全文
posted @ 2017-12-27 14:57 兔子的尾巴_Mini 阅读(122) 评论(0) 推荐(0)