摘要: 词向量只是对词的特征表征,如果要对一篇文档进行特征表征,需要更进一步 ,有几种可以一试的方法: 1.直接使用文档中所有词的词向量的平均值 2.根据文档中每个词的词向量对文档进行聚类,使用聚类后包含词最多的 那个类的中心点作为文档特征向量 3.使用doc2vec模型,这是个类似word2vec的模型, 阅读全文
posted @ 2021-06-05 10:26 ICDTAD 阅读(59) 评论(0) 推荐(0) 编辑
摘要: 有以下几个概念: 1.中心词: 就是每一个待分析的词 2.邻居词: 在文档语料中,出现在中心词周围某个小窗口内的关联词 3. 窗口大小c:就是指寻找邻居词的时候需要观察中心词的前后c个词 举例:“我家/猫/是/我/养/的/第一/只/宠物”这句话中,如果把“猫”是当前正在分析的中心词,如果窗口大小c= 阅读全文
posted @ 2021-06-03 15:08 ICDTAD 阅读(49) 评论(0) 推荐(0) 编辑
摘要: 提取文本特征的方法之一——词向量 词向量,英文叫 Word2Vec,又叫词嵌入(Word Embedding),这种方法可 以解决词袋模型的稀疏性问题,它的核心思想是:每一个词映射到一个多维空间中,成为空间中的一个向量,一般这个多维空间的维数不会太高,在几百个的量级。这几百维的特征向量是稠密的,向量 阅读全文
posted @ 2021-06-01 18:04 ICDTAD 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 我们使用词在文本中出现的次数作为特征值,这个特征值我们也称为词权重。除了使用次数,一般还有三种方法: 1.Bool 表示:即词在文本中出现过则记为 1,没出现则记为 0,忽略了词出现的次数。 2. 词频(Term Frequency):就是词在文本中出现的次数 TF 3. TF-IDF TF-IDF 阅读全文
posted @ 2021-05-28 20:53 ICDTAD 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 文本特征提取 1.切开文本中的每个词,我们把这个叫分词 2.每一个文本都用一组词对应的数值来表示它,这就变成结构化数据了。每个词对应的数值就是该词在文本中出现的次数。 3.上述的这种对文本的特征表示方法就称为“词袋”模型, 词袋的英文是Bag of Words,所以有时候又把词袋叫 BOW 不是每一 阅读全文
posted @ 2021-05-27 17:48 ICDTAD 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 模型进行的是数学运算,因此需要数值类型的数据,而文本不是数值类型数据。 模型需要结构化数据,而文本是非结构化数据。将文本转换为数值特征向量的过程,称为文本向量化。将文本向量化可以分为如下步骤: 1.对文本分词, 拆分成更容处理的单词。 2.将单词转换为数值类型, 即使用合适的数值来表示每个单词。此过 阅读全文
posted @ 2021-05-22 22:39 ICDTAD 阅读(169) 评论(0) 推荐(0) 编辑
摘要: 1.结构化数据与非结构化数据 结构化数据,是可以表示成多行多列的形式,并且,每行( 列) 都有着具体的含义。非结构化数据,无法合理地表示为多行多列的形式,即使那样表示,每行(列)也没有具体的含义。 2.文本数据预处理 文本数据,是一种非结构化数据,与我们之前分析的结构化数据有所不同。因此,其预处理的 阅读全文
posted @ 2021-05-10 17:31 ICDTAD 阅读(213) 评论(0) 推荐(0) 编辑
摘要: 题目要求 利用数据挖掘技术,对企业登记信息进行族谱分析,通过企业登记的股东和对外投资情况,展示各家企业的族谱分析,同时计算出企业的实际控制人。 对于目前登记在册的所有市场主体,均存在股东出资和对外投资情况,通过收集相关信息,可以形成一系列企业之间的族谱关系图形,而通过股东出资和对外投资的比例,根据一 阅读全文
posted @ 2020-12-31 09:52 ICDTAD 阅读(176) 评论(0) 推荐(0) 编辑
摘要: 学习时长10h 考试准备,期间很多课程已考完结课 准备企业信息族谱分析系统的编写,先去找找资料 阅读全文
posted @ 2020-12-24 18:03 ICDTAD 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 软件需求到底是什么 软件需求实际就是“业务知识+问题列表+其他元素” 它分为三个层次 业务需求、用户需求、软件需求 需要注意的事项 需求规格说明书应该采用业务导向的树形层次结构来组织 对于需求分析员而言,真正的专业主义是基于业务利益(解决问题、创造机会、提高管控力等)的沟通 缓解沟通失真的最有效的方 阅读全文
posted @ 2020-12-21 21:08 ICDTAD 阅读(59) 评论(0) 推荐(0) 编辑