随笔分类 -  nlp

摘要:gensim包使用 1 gensim介绍 gensim是一款强大的自然语言处理工具,里面包括N多常见模型: 基本的语料处理工具 LSI LDA HDP DTM DIM TF-IDF word2vec、paragraph2vec 2 Word2Vector使用 训练思路: 将语料库预处理:一行一个文档 阅读全文
posted @ 2020-08-26 11:02 胖墩哥 阅读(4886) 评论(0) 推荐(1)
摘要:分类模型的F1分值、Precision和Recall 计算过程 引入 通常,我们在评价classifier的性能时使用的是accuracy 考虑在多类分类的背景下 accuracy = (分类正确的样本个数) / (分类的所有样本个数) 这样做其实看上去也挺不错的,不过可能会出现一个很严重的问题:例 阅读全文
posted @ 2020-08-03 19:37 胖墩哥 阅读(6352) 评论(0) 推荐(2)
摘要:RNN总结 循环神经网络(Recurrent Neural Network,RNN)是一种用于处理序列数据的神经网络。相比一般的神经网络来说,他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义,RNN 就能够很好地解决这类问题。 RNN基本结构 这里: x为当前状态下 阅读全文
posted @ 2020-07-28 16:18 胖墩哥 阅读(1416) 评论(0) 推荐(0)
摘要:这个是在公众号中看到的,提供一个笔记。 从深度学习基础、卷积网络和循环网络三个方面介绍该笔记。 深度学习基础 1. 深度学习基本概念 监督学习: 所有输入数据都有确定的对应输出数据,在各种网络架构中,输入数据和输出数据的节点层都位于网络的两端,训练过程就是不断地调整它们之间的网络连接权重。 左上: 阅读全文
posted @ 2020-07-24 15:12 胖墩哥 阅读(531) 评论(0) 推荐(0)
摘要:torch.nn.Embedding 在pytorch里面实现word embedding是通过一个函数来实现的:nn.Embedding import torch def look_up(): word_to_ix={'天':0,"地":1} lookup_tensor = torch.tenso 阅读全文
posted @ 2020-07-24 15:09 胖墩哥 阅读(846) 评论(0) 推荐(0)
摘要:梯度下降法主要分为三种, 梯度下降法 随机梯度下降 小批量梯度下降 下面分别来介绍一下,这样更加有助于理解它们之间的联系。 梯度下降法 梯度下降使用整个训练数据集来计算梯度,因此它有时也被称为批量梯度下降 下面就以均方误差讲解一下,假设损失函数如下: 其中 是预测值, 是真实值,那么要最小化上面损失 阅读全文
posted @ 2020-07-20 19:11 胖墩哥 阅读(438) 评论(0) 推荐(0)
摘要:词袋模型和句子相似度 词袋模型(bag of words ,BOW) 词袋模型能够把一个句子转化为向量表示,是比较简单直白的一种方法,它不考虑句子中单词的顺序,只考虑此表中单词在这个句子中的出现的次数。 "John likes to watch movies, Mary likes movies t 阅读全文
posted @ 2020-06-13 17:06 胖墩哥 阅读(673) 评论(0) 推荐(0)
摘要:词向量 one hot 编码 在自然语言处理中,为了将自然语言转化为计算机所能识别的语言,就要对它重新编码,起初使用one hot编码。 一共能产生14901维。 问题:占用太大空间,词和词之间的相识度无法体现。也就是所说的稀疏化。 one hot代码如下: from sklearn.preproc 阅读全文
posted @ 2020-05-27 21:12 胖墩哥 阅读(554) 评论(0) 推荐(0)