上一页 1 ··· 68 69 70 71 72 73 74 75 76 ··· 123 下一页
摘要: np.r_:是按列连接两个矩阵,就是把两矩阵上下相加,要求列数相等,类似于pandas中的concat()。 np.c_:是按行连接两个矩阵,就是把两矩阵左右相加,要求行数相等,类似于pandas中的merge()。 import numpy as np a = np.array([1, 2, 3] 阅读全文
posted @ 2020-03-08 19:21 技术研究与问题解决 阅读(341) 评论(0) 推荐(0)
摘要: Pandas是Python下一个开源数据分析的库,它提供的数据结构DataFrame极大的简化了数据分析过程中一些繁琐操作,DataFrame是一张多维的表,大家可以把它想象成一张Excel表单或者Sql表。之前这篇文章已经介绍了从各种数据源将原始数据载入到dataframe中,这篇文件介绍怎么将处 阅读全文
posted @ 2020-03-08 11:07 技术研究与问题解决 阅读(921) 评论(0) 推荐(0)
摘要: TF-idf模型:TF表示的是词频:即这个词在一篇文档中出现的频率 idf表示的是逆文档频率, 即log(文档的个数/1+出现该词的文档个数) 可以看出出现该词的文档个数越小,表示这个词越稀有,在这篇文档中也是越重要的 TF-idf: 表示TF*idf, 即词频*逆文档频率 词袋模型不仅考虑了一个词 阅读全文
posted @ 2020-03-07 18:37 技术研究与问题解决 阅读(696) 评论(0) 推荐(0)
摘要: 函数说明: 1. cosing_similarity(array) 输入的样本为array格式,为经过词袋模型编码以后的向量化特征,用于计算两两样本之间的相关性 当我们使用词频或者TFidf构造出词袋模型,并对每一个文章内容做词统计以后, 我们如果要判断两个文章内容的相关性,这时候我们需要对数字映射 阅读全文
posted @ 2020-03-07 17:56 技术研究与问题解决 阅读(819) 评论(0) 推荐(0)
摘要: 通过对特征做一个kmeans聚类,将聚类的结果做为文本的标签值,可以使得样本的特征更多 我们从sklearn.cluster中导入Kmeans建立模型进行聚类 代码: 第一步:使用Dataframe格式化数据和使用数据格式化数据 第二步:对字符串进行分词和去除停用词,并使用' '.join完成连接 阅读全文
posted @ 2020-03-07 17:54 技术研究与问题解决 阅读(555) 评论(0) 推荐(0)
摘要: 函数说明 1.LDA(n_topics, max_iters, random_state) 用于构建LDA主题模型,将文本分成不同的主题 参数说明:n_topics 表示分为多少个主题, max_iters表示最大的迭代次数, random_state 表示随机种子 2. LDA.component 阅读全文
posted @ 2020-03-07 17:52 技术研究与问题解决 阅读(577) 评论(0) 推荐(0)
摘要: 函数说明: 1. from gensim.model import word2vec 构建模型 word2vec(corpus_token, size=feature_size, min_count=min_count, window=window, sample=sample) 参数说明:corp 阅读全文
posted @ 2020-03-07 17:51 技术研究与问题解决 阅读(538) 评论(0) 推荐(0)
摘要: 对于一些标签和特征来说,分布不一定符合正态分布,而在实际的运算过程中则需要数据能够符合正态分布 因此我们需要对特征进行log变化,使得数据在一定程度上可以符合正态分布 进行log变化,就是对数据使用np.log(data+1) 加上1的目的是为了防止数据等于0,而不能进行log变化 代码: 第一步: 阅读全文
posted @ 2020-03-07 17:45 技术研究与问题解决 阅读(765) 评论(1) 推荐(0)
摘要: datetime是模块,datetime模块还包含一个datetime类,通过from datetime import datetime导入的才是datetime这个类。 strptime(): 用户输入的日期和时间是字符串,要处理日期和时间,首先必须把str转换为datetime。转换方法是通过d 阅读全文
posted @ 2020-03-07 10:01 技术研究与问题解决 阅读(727) 评论(0) 推荐(0)
摘要: ,(群组选择器) A , B{ } 空格(后代选择器) //选择A所有的后代B元素 A B{ } 复制代码 >(子元素选择器) //选择A的一代B元素 A > B{ } 总结:“>”是css3中特有的选择器,A B选择所有后代元素,为A>B只选择一代。 +(相邻兄弟选择器) //设置的是紧跟在A元素 阅读全文
posted @ 2020-03-05 17:02 技术研究与问题解决 阅读(1293) 评论(0) 推荐(0)
上一页 1 ··· 68 69 70 71 72 73 74 75 76 ··· 123 下一页