nlp - 随笔分类 - 胖墩哥

gensim包使用

摘要：gensim包使用 1 gensim介绍 gensim是一款强大的自然语言处理工具，里面包括N多常见模型：基本的语料处理工具 LSI LDA HDP DTM DIM TF-IDF word2vec、paragraph2vec 2 Word2Vector使用训练思路：将语料库预处理：一行一个文档阅读全文

posted @ 2020-08-26 11:02 胖墩哥阅读(4886) 评论(0) 推荐(1)

分类模型的F1-score、Precision和Recall 计算过程

摘要：分类模型的F1分值、Precision和Recall 计算过程引入通常，我们在评价classifier的性能时使用的是accuracy 考虑在多类分类的背景下 accuracy = (分类正确的样本个数) / (分类的所有样本个数) 这样做其实看上去也挺不错的，不过可能会出现一个很严重的问题：例阅读全文

posted @ 2020-08-03 19:37 胖墩哥阅读(6352) 评论(0) 推荐(2)

RNN总结

摘要：RNN总结循环神经网络（Recurrent Neural Network，RNN）是一种用于处理序列数据的神经网络。相比一般的神经网络来说，他能够处理序列变化的数据。比如某个单词的意思会因为上文提到的内容不同而有不同的含义，RNN 就能够很好地解决这类问题。 RNN基本结构这里： x为当前状态下阅读全文

posted @ 2020-07-28 16:18 胖墩哥阅读(1416) 评论(0) 推荐(0)

深度学习笔记

摘要：这个是在公众号中看到的，提供一个笔记。从深度学习基础、卷积网络和循环网络三个方面介绍该笔记。深度学习基础 1. 深度学习基本概念监督学习：所有输入数据都有确定的对应输出数据，在各种网络架构中，输入数据和输出数据的节点层都位于网络的两端，训练过程就是不断地调整它们之间的网络连接权重。左上：阅读全文

posted @ 2020-07-24 15:12 胖墩哥阅读(531) 评论(0) 推荐(0)

torch.nn.Embedding进行word Embedding

摘要：torch.nn.Embedding 在pytorch里面实现word embedding是通过一个函数来实现的:nn.Embedding import torch def look_up(): word_to_ix={'天':0,"地":1} lookup_tensor = torch.tenso 阅读全文

posted @ 2020-07-24 15:09 胖墩哥阅读(846) 评论(0) 推荐(0)

梯度下降法

摘要：梯度下降法主要分为三种，梯度下降法随机梯度下降小批量梯度下降下面分别来介绍一下，这样更加有助于理解它们之间的联系。梯度下降法梯度下降使用整个训练数据集来计算梯度，因此它有时也被称为批量梯度下降下面就以均方误差讲解一下，假设损失函数如下：其中是预测值，是真实值，那么要最小化上面损失阅读全文

posted @ 2020-07-20 19:11 胖墩哥阅读(438) 评论(0) 推荐(0)

词袋模型和句子相似度

摘要：词袋模型和句子相似度词袋模型（bag of words ,BOW）词袋模型能够把一个句子转化为向量表示，是比较简单直白的一种方法，它不考虑句子中单词的顺序，只考虑此表中单词在这个句子中的出现的次数。 "John likes to watch movies, Mary likes movies t 阅读全文

posted @ 2020-06-13 17:06 胖墩哥阅读(673) 评论(0) 推荐(0)

词向量入门

摘要：词向量 one hot 编码在自然语言处理中，为了将自然语言转化为计算机所能识别的语言，就要对它重新编码，起初使用one hot编码。一共能产生14901维。问题：占用太大空间，词和词之间的相识度无法体现。也就是所说的稀疏化。 one hot代码如下： from sklearn.preproc 阅读全文

posted @ 2020-05-27 21:12 胖墩哥阅读(554) 评论(0) 推荐(0)

胖墩哥

随笔分类 - nlp