随笔分类 - nlp学习记录
摘要:相对于普通的LSTM实现的seq2seq模型,在编码器的区别就是传递的隐状态不同。附加Attention的模型会将编码器所有时刻的隐状态作为一个矩阵传入解码器。解码器的大致结构如图: 假设编码器传入的矩阵为hs,解码器某LSTM节点生成的向量为h。此时,我们的目标是用数值表示这个 h 在多大程度上和
阅读全文
摘要:一、RNN RNN的时间顺序展开图: RNN的节点内部结构: 其中'MatMul'代表矩阵相乘,'+'代表矩阵相加,'tanh'代表对应的激活函数。Wh为隐状态矩阵,Wx为权重矩阵,其中hprev和x为输入,hnext为输出。公式如下: $$\boldsymbol{h}_{next}=\tanh \
阅读全文
摘要:1.数据 数据部分需要两个文件,一个是字符转化成索引的字典char2id.json,一个是用来训练的语料data.json。 char2id.json字典格式如下 {"UNK": 0, "淖": 20, "箩": 21, "雨": 22, "漳": 23,...} data.json语料格式如下 [
阅读全文
摘要:一、keras中的Tokenizer tf.keras.preprocessing.text.Tokenizer( num_words=None, filters='!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n', lower=True, split=' ', char_
阅读全文
摘要:图来自书《深度学习进阶:自然语言处理》,CBOW代码实现来自科学空间的苏剑林大神。 一、CBOW(continuous bag-of-words) #! -*- coding:utf-8 -*- #Keras版的Word2Vec,作者:苏剑林,http://kexue.fm #Keras 2.0.6
阅读全文
摘要:一、独热编码(one-hot) 在自然语言处理中,若有个字典或字库里有 $N$ 个单字,则每个单字可以被一个 $N$ 维的one-hot向量代表。如字库里仅有apple,banana ,以及pineapple这三个单词,则他们各自的one-hot向量可以为: $\begin{array}{ll}\t
阅读全文
摘要:一、导数常见性质 1.基本函数的导数 常数函数c导数为0,如y=2函数的导数为$\frac{\mathrm{d} y}{\mathrm{d} x} $ = 0 线性函数y = ax + c 导数为a,如函数y = 2x + 1导数$\frac{\mathrm{d} y}{\mathrm{d} x}$
阅读全文
摘要:一、欧氏距离和哈夫曼距离 假设有X = (x1,x2,...,xn)和Y = (y1,y2,...,yn) 欧式距离,即欧几里得距离,是最常见的两点之间的距离表示法,它定义在欧几里得空间中,欧式距离可表示为: $\sqrt{\sum_{i=1}^{n}(x_{i} - y_{i})^{2}}$ 曼哈
阅读全文
摘要:json.load() 从文件流中读取json格式的字符串,转化为python对象,文件格式为XXX.json json.loads() 将json格式的字符串转换为python对象 json.dump() 将python中符合json格式的对象写到文件中 json.dumps() 将python中
阅读全文

浙公网安备 33010602011771号