摘要:
TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 阅读全文
posted @ 2020-03-07 18:37
技术研究与问题解决
阅读(696)
评论(0)
推荐(0)
摘要:
函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 阅读全文
posted @ 2020-03-07 17:56
技术研究与问题解决
阅读(819)
评论(0)
推荐(0)
摘要:
通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 阅读全文
posted @ 2020-03-07 17:54
技术研究与问题解决
阅读(555)
评论(0)
推荐(0)
摘要:
函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component 阅读全文
posted @ 2020-03-07 17:52
技术研究与问题解决
阅读(577)
评论(0)
推荐(0)
摘要:
函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp 阅读全文
posted @ 2020-03-07 17:51
技术研究与问题解决
阅读(538)
评论(0)
推荐(0)
摘要:
对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布 因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布 进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化 代码: 第一步: 阅读全文
posted @ 2020-03-07 17:45
技术研究与问题解决
阅读(765)
评论(1)
推荐(0)
摘要:
datetime是模块,datetime模块还包含一个datetime类,通过from datetime import datetime导入的才是datetime这个类。 strptime(): 用户输入的日期和时间是字符串,要处理日期和时间,首先必须把str转换为datetime。转换方法是通过d 阅读全文
posted @ 2020-03-07 10:01
技术研究与问题解决
阅读(727)
评论(0)
推荐(0)
浙公网安备 33010602011771号