2020 年 3月 7 日随笔档案 - 技术研究与问题解决

2020年3月7日

机器学习入门-文本数据-构造Tf-idf词袋模型(词频和逆文档频率) 1.TfidfVectorizer(构造tf-idf词袋模型)

摘要： TF-idf模型：TF表示的是词频：即这个词在一篇文档中出现的频率 idf表示的是逆文档频率，即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小，表示这个词越稀有，在这篇文档中也是越重要的 TF-idf：表示TF*idf, 即词频*逆文档频率词袋模型不仅考虑了一个词阅读全文

posted @ 2020-03-07 18:37 技术研究与问题解决阅读(696) 评论(0) 推荐(0)

摘要：函数说明： 1. cosing_similarity(array) 输入的样本为array格式，为经过词袋模型编码以后的向量化特征，用于计算两两样本之间的相关性当我们使用词频或者TFidf构造出词袋模型，并对每一个文章内容做词统计以后，我们如果要判断两个文章内容的相关性，这时候我们需要对数字映射阅读全文

posted @ 2020-03-07 17:56 技术研究与问题解决阅读(819) 评论(0) 推荐(0)

机器学习入门-文本数据-使用聚类增加文本的标签属性

摘要：通过对特征做一个kmeans聚类，将聚类的结果做为文本的标签值，可以使得样本的特征更多我们从sklearn.cluster中导入Kmeans建立模型进行聚类代码：第一步：使用Dataframe格式化数据和使用数据格式化数据第二步：对字符串进行分词和去除停用词，并使用' '.join完成连接阅读全文

posted @ 2020-03-07 17:54 技术研究与问题解决阅读(555) 评论(0) 推荐(0)

机器学习入门-文本特征-使用LDA主题模型构造标签 1.LatentDirichletAllocation(LDA用于构建主题模型) 2.LDA.components(输出各个词向量的权重值)

摘要：函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型，将文本分成不同的主题参数说明:n_topics 表示分为多少个主题， max_iters表示最大的迭代次数， random_state 表示随机种子 2. LDA.component 阅读全文

posted @ 2020-03-07 17:52 技术研究与问题解决阅读(577) 评论(0) 推荐(0)

机器学习入门-文本特征-word2vec词向量模型 1.word2vec（进行word2vec映射编码）2.model.wv['sky']输出这个词的向量映射 3.model.wv.index2vec(输出经过映射的词名称)

摘要：函数说明： 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明：corp 阅读全文

posted @ 2020-03-07 17:51 技术研究与问题解决阅读(538) 评论(0) 推荐(0)

机器学习入门-数值特征-对数据进行log变化

摘要：对于一些标签和特征来说，分布不一定符合正态分布，而在实际的运算过程中则需要数据能够符合正态分布因此我们需要对特征进行log变化，使得数据在一定程度上可以符合正态分布进行log变化，就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0，而不能进行log变化代码：第一步：阅读全文

posted @ 2020-03-07 17:45 技术研究与问题解决阅读(765) 评论(1) 推荐(0)

python中datetime.strptime()，strftime()的应用

摘要： datetime是模块，datetime模块还包含一个datetime类，通过from datetime import datetime导入的才是datetime这个类。 strptime(): 用户输入的日期和时间是字符串，要处理日期和时间，首先必须把str转换为datetime。转换方法是通过d 阅读全文

posted @ 2020-03-07 10:01 技术研究与问题解决阅读(727) 评论(0) 推荐(0)

公告