文本分析 - 随笔分类 - 翡翠嫩白菜

8.最佳电影聚类分析

摘要：8.最佳电影聚类分析将使用电影简介作为原始数据，将总共 100 部流行电影进行聚类分析。IMDb 也称为互联网电影数据库（www.imdb.com），是一个在线的数据库，它提供有关电影、电子游戏和电视节目的大量详细信息。它聚集了电影和电视节目的评论以及简介，并有几个精选影片清单。原始数据地址 ht 阅读全文

posted @ 2019-08-14 18:54 翡翠嫩白菜阅读(3069) 评论(1) 推荐(1)

文本分析笔记

摘要：Python 文本分析笔记中文停用词处理自行下载 shotwords.txt，代码如下： def stopwordslist(filepath): stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8 阅读全文

posted @ 2019-08-14 18:54 翡翠嫩白菜阅读(253) 评论(0) 推荐(0)

7.文档聚类

摘要：7.文档聚类文档聚类或聚类分析是 NLP 和文本分析中一个有趣的领域，它应用了无监督的 ML 概念和技术。文档聚类的主要前提类似于文档分类，从文档的完整语料库开始，并根据文档的一些独特的特性、属性和特征将它们分为不同的组。文档分类需要预先标记的培训数据来构建模型，然后对文档进行分类。文档聚类则使用阅读全文

posted @ 2019-08-14 18:53 翡翠嫩白菜阅读(537) 评论(0) 推荐(0)

5.词项相似度分析

摘要：5.词项相似度分析将从分析词项相似度入手，或者更准确的说，将从分析单独的单词标识相似度入手。虽然词项相似度分析没有在实际应用中大量使用，但是仍可以作为理解文本相似度分析的一个很好的出发点。当然，一些应用程序和用例（如自动填充程序、拼写检查和文本校正器）也会使用词项相似度分析中的部分技术来纠正拼写错阅读全文

posted @ 2019-08-14 18:52 翡翠嫩白菜阅读(816) 评论(0) 推荐(0)

6.文档相似度分析

摘要：6.文档相似度分析将尝试分析文档之间的相似度指出。到目前为止，相比已经知道了文档的定义是可以由句子或文本段落组成的文本体。为了分析文档相似度，将使用 utils 模块的 build_feature_matrix() 函数从文档中提取特征。将使用文档的 TF-IDF 相似度对文档进行向量化，在之前的阅读全文

posted @ 2019-08-14 18:52 翡翠嫩白菜阅读(1648) 评论(0) 推荐(0)

4.文本相似度

摘要：4.文本相似度文本相似度分析的主要目的是分析和测量两个文本彼此距离的远近。这些文本实体可以是简单的标识或词频，例如单词，也可以是包含句子和文本段落的整个文档。目前有各种各样的文本相似度分析方法，文本相似度分析的目的大致分为以下两个方面。词汇相似度：通过句法、结构和内容研究文本文档的内容，并根据这阅读全文

posted @ 2019-08-14 18:51 翡翠嫩白菜阅读(556) 评论(0) 推荐(0)

文本规范化

摘要：2.文本规范化再进一步开展分析或 NLP 之前，首先需要规范文本文档的语料库。为此，将再次使用规范化模块，此外还需要应用一些专门针对内容的新技术。在分析了许多语料库后，经过精心挑选了一些新词，并将它们更新禁了停用词名单，如下代码展示： stopword_list = nltk.corpus.st 阅读全文

posted @ 2019-08-14 18:51 翡翠嫩白菜阅读(438) 评论(0) 推荐(0)

3.特征提取

摘要：3.特征提取将使用特征提取函数。函数代码也与之前类似，该函数具体如下： utils.py 折叠源码 # -*- coding: utf-8 -*- """ Created on Sun Sep 11 23:06:06 2016 @author: DIP """ from sklearn.featu 阅读全文

posted @ 2019-08-14 18:48 翡翠嫩白菜阅读(500) 评论(0) 推荐(0)

1.重要概念

摘要：1.重要概念主要目的是为了解文本相似度和聚类。在介绍实际的技术和算法之前，将讨论与信息检索。文档相似度度量和机器学习相关的一些重要概念。虽然这些概念中的部分可能已经讲述过。信息检索信息检索（Information Retrieval，IR）是根据某些需求从存储信息的语料库或实体中检索或获取相关阅读全文

posted @ 2019-08-14 18:44 翡翠嫩白菜阅读(313) 评论(0) 推荐(0)

2.重要概念

摘要：2.重要概念掌握几个重要的数学和机器学习的概念在日常非常有用，因为将立足于这些概念的几个实现。有些会很熟悉，但为了完整起见，将再次介绍，以便于可以重温内容。文档文档通常是一个包含完整文档数据的实体，包含可选的标题和其他元数据信息。语料库通常由一系列文档组成。这些文档可以是简单的句子或完整的文本阅读全文

posted @ 2019-08-14 18:43 翡翠嫩白菜阅读(227) 评论(0) 推荐(0)

随笔分类 - 文本分析

公告