上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 132 下一页
摘要: 在使用torch.autograd.grad计算二阶导数时,可以仅设置create_graph=True而无需设置retain_graph=True。以下是关键点总结: create_graph的作用: 当设置为True时,会保留梯度计算图,使得后续能对梯度再次求导(如计算二阶导数)。这是高阶导数计 阅读全文
posted @ 2025-03-08 19:37 最爱丁珰 阅读(75) 评论(0) 推荐(0)
摘要: 主要讲一下什么叫接近驻点不平滑了:我们看一下关于\(w\)和\(b\)的梯度的式子,会发现前面的\(x^{(i)}\)是固定的,但是后面的符号函数要么是\(1\)要么是\(-1\),假设当符号函数里面的数值接近\(0\)的时候,符号函数的值就可能直接取相反数,这就会导致梯度变化很大;相反可以看看\( 阅读全文
posted @ 2025-03-08 18:44 最爱丁珰 阅读(15) 评论(0) 推荐(0)
摘要: 主要是澄清答案代码中的一些疑惑 阅读全文
posted @ 2025-03-08 14:36 最爱丁珰 阅读(15) 评论(0) 推荐(0)
摘要: 对于文本标注问题,如果不适用BERT,而是使用一般神经网络,那么应该长成下面这个样子 复习一下典型的神经网络反向传播的过程中求导的步骤 那个小圆圈是哈达姆积,想一下为什么可以这么转换 然后来看一下\(\frac{\partial{s}}{\partial{W}}\),如下 所以我们不必进行重复运算, 阅读全文
posted @ 2025-03-08 11:09 最爱丁珰 阅读(23) 评论(0) 推荐(0)
摘要: 这里还要用pandas读取数据集,是因为这里是结构化数据,无论是统计学习还是深度学习,结构化数据使用pandas读入肯定是好的,下面两个概念(结构化数据和非结构化数据)就可以记一下了 阅读全文
posted @ 2025-03-07 21:37 最爱丁珰 阅读(11) 评论(0) 推荐(0)
摘要: 看下这个答案是怎么计算出来的 # shape不一样且大小不匹配的位置任意有一个张量为1 a = torch.arange(3).reshape((1,3,1)) b = torch.arange(9).reshape((3,1,3)) a, b, a+b 我们一维一维拓展 对a: 维度2: a[0] 阅读全文
posted @ 2025-03-07 21:33 最爱丁珰 阅读(12) 评论(0) 推荐(0)
摘要: 目录Word2Vec的直观理解如果采用直接计数的方法呢评估词向量的方法中间任务与实际任务1. 什么是中间任务?2. 为什么能直接分析词向量?内在评估1. 内在评估(Intrinsic Evaluation)外在评估2. 外在评估(Extrinsic Evaluation) Word2Vec的直观理解 阅读全文
posted @ 2025-03-07 12:27 最爱丁珰 阅读(19) 评论(0) 推荐(0)
摘要: 首先来明确一下前端和后端。前端就是指网页什么的,我们打开一个网页或者APIfox都是在模拟前端;后端就是我们写在Pycharm里面的代码,任务只有一个,就是接收前端的请求然后进行处理,再返回一个响应 下面这一段代码直接沾到Pycharm里面去运行的话是不能运行成功的,这是因为我们不知道执行什么,应该 阅读全文
posted @ 2025-03-07 12:21 最爱丁珰 阅读(22) 评论(0) 推荐(0)
摘要: 在词类比任务中,为什么用\(\text{vec}(c)+\text{vec}(b)-\text{vec}(a)\)来进行近似呢?以man,woman,son,daughter为例.\(\text{vec}(\text{son})-\text{vec}(\text{man})\)后,就在son中去除了 阅读全文
posted @ 2025-03-06 21:17 最爱丁珰 阅读(23) 评论(0) 推荐(0)
摘要: 对于文字的意义,语言学家有很多种定义。其中一种定义运用在自然语言处理中非常有用,这种意义的定义见下 分布式语义就是看上下文词来决定单词的意义。于是我们可以利用词向量来衡量两个词之间的相似程度,词的意义被分散在词向量的每一维中 词嵌入之所以叫词嵌入,是因为我们给每个单词分配一个向量的做法就是将每个单词 阅读全文
posted @ 2025-03-06 20:56 最爱丁珰 阅读(21) 评论(0) 推荐(0)
上一页 1 ··· 25 26 27 28 29 30 31 32 33 ··· 132 下一页