上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 130 下一页
摘要: 首先来看看二元交叉熵的损失公式 然后再来看看nn.functional.binary_cross_entropy_with_logits的用法 然后来讲一下\(0.9352\)是怎么得出的(\(1.8462\)同理) 每个样本没有归一化的输出为[1.1, -2.2, 3.3, -4.4],标签分别为 阅读全文
posted @ 2025-03-01 20:41 最爱丁珰 阅读(5) 评论(0) 推荐(0)
摘要: 一些本人的理解如下: 事件\(D|w_c,w_o\)的意思是以\(w_c\)作为中心词,\(w_o\)是否来自其上下文,若\(D=1\)则表示来自,否则表示不来自 式\((14.17)\)也比较好理解,两个词向量的内积可以衡量两个的相似程度(长度以及夹角) 文中“正样本的事件”指的是\(D=1\); 阅读全文
posted @ 2025-03-01 09:16 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要: 先来讲一下弱大数定律吧,这个比较好理解 弱大数定律的标准形式是这样的: \[\forall \epsilon>0,\underset{n\rightarrow\infty}{\lim}P(|\bar{X}_n-\mu|<\epsilon)=1 \]这里注意的是我们的极限符号是包含概率的,我们按照数列 阅读全文
posted @ 2025-02-28 23:47 最爱丁珰 阅读(133) 评论(0) 推荐(0)
摘要: R11 这个分组首先经过\(\frac{L}{R_1}\)的时间到达分组交换机,再经过\(\frac{L}{R_2}\)的时间到达接收主机,所以总时间为\(\frac{L}{R_1}+\frac{L}{R_2}\) R12 电路交换网络与分组交换网络相比,具有如下优点 电路交换网络适合实时服务因为其 阅读全文
posted @ 2025-02-28 22:17 最爱丁珰 阅读(18) 评论(0) 推荐(0)
摘要: 介绍一些其他的应用 阅读全文
posted @ 2025-02-28 15:54 最爱丁珰 阅读(7) 评论(0) 推荐(0)
摘要: 书上对残差网络的理解讲的有一点不清楚,解释一下。实际上,残差网络真正想干的事是通过在原网络上加入层/块(这就让原网络变得更深),而不改变原来的网络能够学习到的函数,以图\(7-8\)为例(这个图\(7-8\)画的是VGG的架构,与其下面的代码是相符合的,当然还有其他各种各样的残差块) 这两张图片中的 阅读全文
posted @ 2025-02-28 09:31 最爱丁珰 阅读(58) 评论(0) 推荐(0)
摘要: 当网络很深的时候会出现下面的问题 梯度消失是一般情况,所以上面讨论的是梯度消失的情况(每一层的梯度都很小,很多个很小的数相乘就会导致底部的层梯度比上面的层的梯度小);梯度爆炸是另外一回事 之所以会导致上面这种情况是因为不同层之间数据分布是有差别的。所以一个简单的想法就是我给数据的分布固定住 之所以不 阅读全文
posted @ 2025-02-28 08:49 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要: 白色的\(1\times 1\)卷积层是用来降低通道数的,蓝色的卷积层是用来学习特征的 大致解释一下这些数字是怎么分配的。现在我们的通道数是\(192\),于是我们假设最后输出的通道数是\(256\);考虑这些通道如何分配:我们知道\(3\times 3\)的卷积层性质很好(参数不算太多,学习能力也 阅读全文
posted @ 2025-02-27 22:43 最爱丁珰 阅读(14) 评论(0) 推荐(0)
摘要: 本质和主要改进见下 因为模型更大了,所以要用丢弃法做正则;\(\text{ReLu}\)则比\(\text{Sigmoid}\)更能支撑更深的网络(解决了梯度消失);最大汇聚层则让输出更大,梯度更大,训练更容易 还有一些主要区别如下 步长也很大的原因也是当时的算力其实不是很够 池化层更大了就允许像素 阅读全文
posted @ 2025-02-27 20:27 最爱丁珰 阅读(7) 评论(0) 推荐(0)
摘要: 这里为什么要用bmm:看NWKernelRegression定义的过程,我们是将查询数定义为了批量,attention_weights在第1维度展开就可以提取每一个查询,将所有加了权的键变成行向量;values在最后一个维度展开,就将所有值变成了一个列向量;此时两者相乘就是预测值 阅读全文
posted @ 2025-02-26 15:15 最爱丁珰 阅读(19) 评论(0) 推荐(0)
上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 130 下一页