07 2019 档案
摘要:词向量大致训练步骤: 分词并去停用词 词频过滤 训练 gensim中Word2Vec参数解释: 主要参数介绍如下: sentences:我们要分析的语料,可以是一个列表,或者从文件中遍历读出(word2vec.LineSentence(filename) )。 size:词向量的维度,默认值是100
阅读全文
摘要:数据集是网上找的 流程: 加载数据集,去停用词 使用 Keras 的 Tokenizer 将每一文本用数字表示 创建 TextCNN 模型,训练并预测 在 1080Ti 上 batch_size = 128 时每一 epoch 用时 2 s,跑 6、7 个 epoch 测试集准确率就到 1.0000
阅读全文
摘要:TF-IDF算法可用来提取文档的关键词,关键词在文本聚类、文本分类、文献检索、自动文摘等方面有着重要应用。 算法原理 TF:Term Frequency,词频 IDF:Inverse Document Frequency,逆文档频率 词频(TF):某一个词在该文件中出现的频率 计算方法为: 逆文档频
阅读全文

浙公网安备 33010602011771号