nlp学习记录 - 随笔分类 - 国家三级保护废物

seq2seq+Attention(LSTM,transformer)

摘要：相对于普通的LSTM实现的seq2seq模型，在编码器的区别就是传递的隐状态不同。附加Attention的模型会将编码器所有时刻的隐状态作为一个矩阵传入解码器。解码器的大致结构如图：假设编码器传入的矩阵为hs，解码器某LSTM节点生成的向量为h。此时，我们的目标是用数值表示这个 h 在多大程度上和阅读全文

posted @ 2021-11-08 17:23 国家三级保护废物阅读(402) 评论(0) 推荐(1)

RNN+LSTM

摘要：一、RNN RNN的时间顺序展开图： RNN的节点内部结构：其中'MatMul'代表矩阵相乘，'+'代表矩阵相加，'tanh'代表对应的激活函数。Wh为隐状态矩阵，Wx为权重矩阵，其中hprev和x为输入，hnext为输出。公式如下： $$\boldsymbol{h}_{next}=\tanh \ 阅读全文

posted @ 2021-11-04 23:45 国家三级保护废物阅读(232) 评论(0) 推荐(1)

NER(HMM实现)

摘要：1.数据数据部分需要两个文件，一个是字符转化成索引的字典char2id.json，一个是用来训练的语料data.json。 char2id.json字典格式如下 {"UNK": 0, "淖": 20, "箩": 21, "雨": 22, "漳": 23,...} data.json语料格式如下 [ 阅读全文

posted @ 2021-10-30 16:57 国家三级保护废物阅读(94) 评论(0) 推荐(1)

embedding(keras,word2vec)

摘要：一、keras中的Tokenizer tf.keras.preprocessing.text.Tokenizer( num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ', char_ 阅读全文

posted @ 2021-10-24 20:09 国家三级保护废物阅读(714) 评论(0) 推荐(1)

Word2Vec

摘要：图来自书《深度学习进阶：自然语言处理》，CBOW代码实现来自科学空间的苏剑林大神。一、CBOW(continuous bag-of-words) #! -*- coding:utf-8 -*- #Keras版的Word2Vec，作者：苏剑林，http://kexue.fm #Keras 2.0.6 阅读全文

posted @ 2021-10-18 23:29 国家三级保护废物阅读(85) 评论(0) 推荐(1)

nlp文本转化方式小结

摘要：一、独热编码（one-hot）在自然语言处理中，若有个字典或字库里有 $N$ 个单字，则每个单字可以被一个 $N$ 维的one-hot向量代表。如字库里仅有apple，banana ，以及pineapple这三个单词，则他们各自的one-hot向量可以为: $\begin{array}{ll}\t 阅读全文

posted @ 2021-10-12 20:08 国家三级保护废物阅读(232) 评论(0) 推荐(1)

反向传播算法之梯度下降

摘要：一、导数常见性质 1.基本函数的导数常数函数c导数为0，如y=2函数的导数为$\frac{\mathrm{d} y}{\mathrm{d} x} $ = 0 线性函数y = ax + c 导数为a，如函数y = 2x + 1导数$\frac{\mathrm{d} y}{\mathrm{d} x}$ 阅读全文

posted @ 2021-10-06 21:49 国家三级保护废物阅读(550) 评论(0) 推荐(1)

文本向量化(欧氏距离,哈夫曼距离,L1,L2,TF-IDF)

摘要：一、欧氏距离和哈夫曼距离假设有X = (x1,x2,...,xn)和Y = (y1,y2,...,yn) 欧式距离，即欧几里得距离，是最常见的两点之间的距离表示法，它定义在欧几里得空间中，欧式距离可表示为： $\sqrt{\sum_{i=1}^{n}(x_{i} - y_{i})^{2}}$ 曼哈阅读全文

posted @ 2021-10-03 20:06 国家三级保护废物阅读(1122) 评论(0) 推荐(1)

文件读取与保存(nlp,json)

摘要：json.load() 从文件流中读取json格式的字符串，转化为python对象，文件格式为XXX.json json.loads() 将json格式的字符串转换为python对象 json.dump() 将python中符合json格式的对象写到文件中 json.dumps() 将python中阅读全文

posted @ 2021-10-02 22:56 国家三级保护废物阅读(242) 评论(0) 推荐(1)

Loading

国家三级保护废物

理性的代码逻辑正好是我心中澎湃的反义词，多讽刺！

随笔分类 - nlp学习记录

公告