随笔档案「2019年7月」 - 一个芝麻糕

词向量简单实践（gensim）

摘要：词向量大致训练步骤：分词并去停用词词频过滤训练 gensim中Word2Vec参数解释：主要参数介绍如下： sentences：我们要分析的语料，可以是一个列表，或者从文件中遍历读出（word2vec.LineSentence(filename) ）。 size：词向量的维度，默认值是100 阅读全文

posted @ 2019-07-14 23:31 一个芝麻糕阅读(973) 评论(0) 推荐(0)

文本分类（TextCNN，Keras）

摘要：数据集是网上找的流程：加载数据集，去停用词使用 Keras 的 Tokenizer 将每一文本用数字表示创建 TextCNN 模型，训练并预测在 1080Ti 上 batch_size = 128 时每一 epoch 用时 2 s，跑 6、7 个 epoch 测试集准确率就到 1.0000 阅读全文

posted @ 2019-07-08 00:26 一个芝麻糕阅读(957) 评论(1) 推荐(0)

TF-IDF算法简析

摘要：TF-IDF算法可用来提取文档的关键词，关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。算法原理 TF：Term Frequency，词频 IDF：Inverse Document Frequency，逆文档频率词频（TF）：某一个词在该文件中出现的频率计算方法为：逆文档频阅读全文

posted @ 2019-07-01 00:42 一个芝麻糕阅读(2466) 评论(0) 推荐(0)

一个芝麻糕

07 2019 档案

公告