07 2019 档案

摘要:词向量大致训练步骤: 分词并去停用词 词频过滤 训练 gensim中Word2Vec参数解释: 主要参数介绍如下: sentences:我们要分析的语料,可以是一个列表,或者从文件中遍历读出(word2vec.LineSentence(filename) )。 size:词向量的维度,默认值是100 阅读全文
posted @ 2019-07-14 23:31 一个芝麻糕 阅读(973) 评论(0) 推荐(0)
摘要:数据集是网上找的 流程: 加载数据集,去停用词 使用 Keras 的 Tokenizer 将每一文本用数字表示 创建 TextCNN 模型,训练并预测 在 1080Ti 上 batch_size = 128 时每一 epoch 用时 2 s,跑 6、7 个 epoch 测试集准确率就到 1.0000 阅读全文
posted @ 2019-07-08 00:26 一个芝麻糕 阅读(957) 评论(1) 推荐(0)
摘要:TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。 算法原理 TF:Term Frequency,词频 IDF:Inverse Document Frequency,逆文档频率 词频(TF):某一个词在该文件中出现的频率 计算方法为: 逆文档频 阅读全文
posted @ 2019-07-01 00:42 一个芝麻糕 阅读(2466) 评论(0) 推荐(0)