一个芝麻糕

2019年7月14日

摘要：词向量大致训练步骤：分词并去停用词词频过滤训练 gensim中Word2Vec参数解释：主要参数介绍如下： sentences：我们要分析的语料，可以是一个列表，或者从文件中遍历读出（word2vec.LineSentence(filename) ）。 size：词向量的维度，默认值是100 阅读全文

posted @ 2019-07-14 23:31 一个芝麻糕阅读(968) 评论(0) 推荐(0)

2019年7月8日

文本分类（TextCNN，Keras）

摘要：数据集是网上找的流程：加载数据集，去停用词使用 Keras 的 Tokenizer 将每一文本用数字表示创建 TextCNN 模型，训练并预测在 1080Ti 上 batch_size = 128 时每一 epoch 用时 2 s，跑 6、7 个 epoch 测试集准确率就到 1.0000 阅读全文

posted @ 2019-07-08 00:26 一个芝麻糕阅读(957) 评论(1) 推荐(0)

2019年7月1日

TF-IDF算法简析

摘要： TF-IDF算法可用来提取文档的关键词，关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。算法原理 TF：Term Frequency，词频 IDF：Inverse Document Frequency，逆文档频率词频（TF）：某一个词在该文件中出现的频率计算方法为：逆文档频阅读全文

posted @ 2019-07-01 00:42 一个芝麻糕阅读(2464) 评论(0) 推荐(0)

2019年6月24日

NER（BiLSTM+CRF，Keras）

摘要：数据集为玻森命名实体数据。目前代码流程跑通了，后续再进行优化。项目地址：https://github.com/cyandn/DS/tree/master/NER_Keras 步骤：数据预处理： def data_process(): zh_punctuation = ['，', '。', '？阅读全文

posted @ 2019-06-24 01:04 一个芝麻糕阅读(2309) 评论(0) 推荐(0)

2019年6月9日

fp-growth代码问题（Python）

摘要：网上的 python3 fp-growth代码每次在执行时可能会出现找出的频繁项集不一致的情况，这是因为每次执行代码时建的FP树可能不一致。加了一行代码可以解决这个问题（第59行）：先对 frequentItemsInRecord 按 key 的ASSIC码排序，然后再按照 key 的支持度（即v 阅读全文

posted @ 2019-06-09 20:15 一个芝麻糕阅读(1114) 评论(0) 推荐(0)

2019年5月26日

读书笔记：关系抽取和事件抽取

摘要：读完赵军主编的《知识图谱》第六章和第七章，对关系抽取和事件抽取简单做一下笔记。关系抽取定义：自动识别实体之间具有的某种语义关系。根据参与实体的多少可以分为二元关系抽取（两个实体）和多元关系抽取（三个及以上实体）。通过关注两个实体间的语义关系，可以得到（arg1, relation, arg2）阅读全文

posted @ 2019-05-26 22:36 一个芝麻糕阅读(6989) 评论(1) 推荐(1)

2019年5月20日

基于统计的中文实体识别方法简述

摘要：命名实体识别（NER）是自然语言处理的一个基础任务，其目的是识别出语料中的人名、地名、组织机构名等命名实体，一般包括三大类（实体类、时间类和数字类）和七小类（人名、地名、机构名、时间、日期、货币和百分比）。NER是信息抽取、机器翻译、知识图谱等多种自然语言处理任务必不可少的组成部分。 NER方法大致阅读全文

posted @ 2019-05-20 00:06 一个芝麻糕阅读(817) 评论(0) 推荐(0)

2019年5月19日

中文分词概述及结巴分词原理

摘要：词是中文表达语义的最小单位，自然语言处理的基础步骤就是分词，分词的结果对中文信息处理至为关键。本文先对中文分词方法进行一下概述，然后简单讲解一下结巴分词背后的原理。中文分词概述简单来说，中文分词根据实现特点大致可分为两个类别：基于词典的分词方法、基于统计的分词方法。基于词典的分词方法基于阅读全文

posted @ 2019-05-19 23:58 一个芝麻糕阅读(8191) 评论(2) 推荐(0)

公告