摘要: 词向量大致训练步骤: 分词并去停用词 词频过滤 训练 gensim中Word2Vec参数解释: 主要参数介绍如下: sentences:我们要分析的语料,可以是一个列表,或者从文件中遍历读出(word2vec.LineSentence(filename) )。 size:词向量的维度,默认值是100 阅读全文
posted @ 2019-07-14 23:31 一个芝麻糕 阅读(960) 评论(0) 推荐(0)
摘要: 数据集是网上找的 流程: 加载数据集,去停用词 使用 Keras 的 Tokenizer 将每一文本用数字表示 创建 TextCNN 模型,训练并预测 在 1080Ti 上 batch_size = 128 时每一 epoch 用时 2 s,跑 6、7 个 epoch 测试集准确率就到 1.0000 阅读全文
posted @ 2019-07-08 00:26 一个芝麻糕 阅读(957) 评论(1) 推荐(0)
摘要: TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。 算法原理 TF:Term Frequency,词频 IDF:Inverse Document Frequency,逆文档频率 词频(TF):某一个词在该文件中出现的频率 计算方法为: 逆文档频 阅读全文
posted @ 2019-07-01 00:42 一个芝麻糕 阅读(2442) 评论(0) 推荐(0)
摘要: 数据集为玻森命名实体数据。 目前代码流程跑通了,后续再进行优化。 项目地址:https://github.com/cyandn/DS/tree/master/NER_Keras 步骤: 数据预处理: def data_process(): zh_punctuation = [',', '。', '? 阅读全文
posted @ 2019-06-24 01:04 一个芝麻糕 阅读(2307) 评论(0) 推荐(0)
摘要: 网上的 python3 fp-growth代码每次在执行时可能会出现找出的频繁项集不一致的情况,这是因为每次执行代码时建的FP树可能不一致。 加了一行代码可以解决这个问题(第59行):先对 frequentItemsInRecord 按 key 的ASSIC码排序,然后再按照 key 的支持度(即v 阅读全文
posted @ 2019-06-09 20:15 一个芝麻糕 阅读(1111) 评论(0) 推荐(0)
摘要: 读完赵军主编的《知识图谱》第六章和第七章,对关系抽取和事件抽取简单做一下笔记。 关系抽取 定义:自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取(两个实体)和多元关系抽取(三个及以上实体)。 通过关注两个实体间的语义关系,可以得到(arg1, relation, arg2) 阅读全文
posted @ 2019-05-26 22:36 一个芝麻糕 阅读(6976) 评论(1) 推荐(1)
摘要: 命名实体识别(NER)是自然语言处理的一个基础任务,其目的是识别出语料中的人名、地名、组织机构名等命名实体,一般包括三大类(实体类、时间类和数字类)和七小类(人名、地名、机构名、时间、日期、货币和百分比)。NER是信息抽取、机器翻译、知识图谱等多种自然语言处理任务必不可少的组成部分。 NER方法大致 阅读全文
posted @ 2019-05-20 00:06 一个芝麻糕 阅读(800) 评论(0) 推荐(0)
摘要: 词是中文表达语义的最小单位,自然语言处理的基础步骤就是分词,分词的结果对中文信息处理至为关键。 本文先对中文分词方法进行一下概述,然后简单讲解一下结巴分词背后的原理。 中文分词概述 简单来说,中文分词根据实现特点大致可分为两个类别: 基于词典的分词方法、基于统计的分词方法。 基于词典的分词方法 基于 阅读全文
posted @ 2019-05-19 23:58 一个芝麻糕 阅读(8174) 评论(2) 推荐(0)