摘要:
首先来介绍一下可变对象和不可变对象 可变对象:整数,浮点数,字符串,元组等 不可变对象:列表,字典,集合等 然后看一下Python中内存分配的方式 执行x=1会发生什么?此时,内存会分配一个地址给1,1是一个整型对象,而x是一个引用(不是对象!),指向1所在的位置,并不占用实际的内存空间,用图像表示 阅读全文
posted @ 2025-02-19 22:07
最爱丁珰
阅读(18)
评论(0)
推荐(0)
摘要:
之前我们学的RNN尝试先把整个句子全部都记下来,然后在进行翻译,所以可能出现一个问题,就是我们的模型没能够记住句子,这就是导致我们的\(\text{BLEU}\)分数下降。但是注意力机制让我们像人类一样翻译,也就是先翻译一部分,再翻译一部分,他和前者的\(\text{BLEU}\)分数曲线如下 蓝色 阅读全文
posted @ 2025-02-19 15:14
最爱丁珰
阅读(8)
评论(0)
推荐(0)
摘要:
语音识别使用注意力机制,输入是不同时间帧的音频,如下 但是有一个问题,就是语音识别中,很可能输入的长度要比(我们想要的)输出的长度长的多,这个时候可以利用类似“填充”的技巧让两者的长度一样,如下(假设输入的音频说的话是the quick brown fox) 上图只是一个很简单的示例。现实中很可能使 阅读全文
posted @ 2025-02-19 15:09
最爱丁珰
阅读(9)
评论(0)
推荐(0)
摘要:
我们利用\(\text{GRU}\)或者\(\text{LSTM}\)构建一个双向循环神经网络如下 然后预测的时候我们使用普通的RNN,但是这个RNN的输入取决于源句子的每一个单词的加权和。我们用\(y\)表示预测的句子,\(a\)表示输入的句子,那么也就是说我们定义\(\alpha^{\left< 阅读全文
posted @ 2025-02-19 14:40
最爱丁珰
阅读(10)
评论(0)
推荐(0)
摘要:
这里从一堆概率的乘积转化为一堆\(\log\)的求和的原因之一也是为了防止数值下溢。然后原文说是为了惩罚长序列,其实是为了惩罚短序列,在没有除以\(L^{\alpha}\)的时候,模型更倾向于输出短的序列,这个操作叫做规范化,如果\(\alpha=1\),则叫做完全规范化 那么调整超参数束宽的时候我 阅读全文
posted @ 2025-02-19 09:53
最爱丁珰
阅读(20)
评论(0)
推荐(0)

浙公网安备 33010602011771号