随笔分类 - sklearn
摘要:sklearn: CountVectorize处理及一些使用参数 CountVectorizer是属于常见的特征数值计算类,是一个文本特征提取方法。对于每一个训练文本,它只考虑每种词汇在该训练文本中出现的频率。 CountVectorizer会将文本中的词语转换为词频矩阵,它通过fit_transf
阅读全文
摘要:sklearn: 利用TruncatedSVD做文本主题分析 利用一个demo学习使用TruncatedSVD做文本主题分析。 通过主题分析,我们可以得到一个语料中的关键主题,即各个词语在主题中的重要程度,各个文章在各个主题上的倾向程度。并且可以根据它们,得到主题对应的关键词以及代表性文本。 1、使
阅读全文
摘要:sklearn: TfidfVectorizer 中文处理及一些使用参数 常规使用 TfidfVectorizer可以把原始文本转化为tf-idf的特征矩阵,从而为后续的文本相似度计算,主题模型(如LSI),文本搜索排序等一系列应用奠定基础。基本应用如: from sklearn.feature_e
阅读全文

浙公网安备 33010602011771号