RowryCho

2021年10月20日

摘要：物体检测上图就是目标检测的一个应用实例。在图片上标注框是有成本的，所以一般来说，目标检测的数据集要先对图片分类数据集小很多。（人工标注需要很多很多的工具人）目标检测中比较常见的数据集就是MS COCO，它的地位就相当于图片分类中的ImageNet。边缘框实现数据集因为一般目标检测数据集阅读全文

posted @ 2021-10-20 10:36 RowryCho 阅读(381) 评论(0) 推荐(0)

2021年10月11日

动手学深度学习 | 自注意力 | 67

摘要：自注意力在介绍transformer之前，先讲一个比价重要的东西=》 self-attention。self-attention其实没有什么特殊的地方，主要就是key，value，query到底要怎么选择，自注意力机制有自己的一套选法。 CNN，RNN，self-attention都可以用来处理序阅读全文

posted @ 2021-10-11 08:31 RowryCho 阅读(567) 评论(0) 推荐(0)

2021年10月8日

动手学深度学习 | 注意力机制结构 | 66

摘要：使用注意力机制的seq2seq attention机制是在RNN中经常被使用到的一个机制。对于attention这样一个机制，为什么会出现呢？主要就是我们采用传统的encoder-decoder来搭建RNN模型的时候，通常会存在一些问题。问题一：无论输入的序列有多长，都会被编码成一个固定的向量表阅读全文

posted @ 2021-10-08 10:44 RowryCho 阅读(379) 评论(0) 推荐(0)

动手学深度学习 | 注意力机制 | 64

摘要：想做深度学习研究的从这讲开始看就行了说实话... 注意力机制随意：跟随意志注意力机制是没有心理学背景的，但是可以从心理学的角度进行解释。卷积、全连接、池化层都只考虑不随意线索就像是池化也只是把其中最大那一块提取出来，其实也不知道要干什么，就看过去。注意力机制则显示的对随意线索进行建模（主动阅读全文

posted @ 2021-10-08 10:06 RowryCho 阅读(223) 评论(0) 推荐(0)

动手学深度学习 | 注意力分数 | 65

摘要：注意力分数刚刚的注意力权重，如何设计使得和我们现在的东西比较相像？里面一个东西叫做注意力分数。可以看看之前的使用过了高斯核的注意力。上图有一堆key-value pair（训练时候的x和y），输入一个query（推理时候的x），然后query和每一个key做一个计算，得到一个注意力分数a，然后阅读全文

posted @ 2021-10-08 10:04 RowryCho 阅读(553) 评论(0) 推荐(0)

2021年10月7日

动手学深度学习 | 机器翻译数据集 | 60

摘要： ![](https://img2020.cnblogs.com/blog/1517575/202110/1517575-20211007202527233-1299712772.png) 阅读全文

posted @ 2021-10-07 20:26 RowryCho 阅读(64) 评论(0) 推荐(0)

动手学深度学习 | 序列到序列学习（seq2seq）| 62

摘要： Seq2Seq seq2seq，从一个句子翻译到另外一个句子。封面是一个基因转录，这个也是一个seq2seq的过程。 seq2seq最早是来做机器翻译的，不过现在基本都使用bert。（听说google的翻译和搜索都使用了bert） seq2seq是一个encoder-decoder的架构。 enc 阅读全文

posted @ 2021-10-07 20:24 RowryCho 阅读(347) 评论(0) 推荐(0)

动手学深度学习 | 双向循环神经网络 | 59

摘要：双向循环神经网络双向LSTM非常不适合做推理，基础是不能用在预测下一个词。 Bi-RNN的作用主要是对一个句子做特征提取，比如做翻译，给句子A翻译句子B，那么可以对句子A使用Bi-RNN去双向的看它。代码这里代码不会讲具体实现，但是其实很简单，前向的隐藏层就正常进行运算。反向的怎么实现呢？首阅读全文

posted @ 2021-10-07 15:27 RowryCho 阅读(290) 评论(0) 推荐(0)

动手学深度学习 | 深层循环神经网络| 58

摘要：深层循环神经网络代码实现 QA 网络一般需要多深？其实不会特别深，像MLP其实一般也只是2层3层这样。为什么参数量增加，但是计算的时间却没有成倍增加？因为框架会给你做一个很好的并行。阅读全文

posted @ 2021-10-07 11:53 RowryCho 阅读(60) 评论(0) 推荐(0)

动手学深度学习 | 长短期记忆网络（LSTM）| 57

摘要：长短期记忆网络 LSTM 90年代发明的网络，其实挺复杂的，就现在其实大家也没有搞明白为什么要这么设计。 LSTM虽然是长得挺奇怪的，但是使用效果还是不错的，尽管是90年年代发明的网络。 LSTM其实要实现的效果和GRU是差不多的，只不过设计相对复杂一些。 GRU可以认为是对LSTM的一个简化？但阅读全文

posted @ 2021-10-07 11:21 RowryCho 阅读(204) 评论(0) 推荐(0)

好好写代码..

公告