上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 132 下一页
摘要: 式\((11.5)\)的推导过程: 令\(Z=P(X|Y)\sim P_1(Z)\),则 \[E_{Y\sim P(Y)}[-\log P(X|Y)]=E_{Z\sim P_1(Z)}[-\log Z] \]\[\geq -\log E[Z]=-\log \int P(Y)P(X|Y)dY=-\lo 阅读全文
posted @ 2025-03-23 09:06 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要: 梯度消失问题是指在深度神经网络中,反向传播时梯度随着层数的增加逐渐变小,导致早期层的权重更新非常缓慢,甚至几乎不更新。这个问题在长序列的循环神经网络(RNN)中尤为明显。 为了缓解这个问题,门控循环单元(GRU)和长短期记忆网络(LSTM)引入了门控机制,使得网络能够更好地控制信息的流动。下面我们将 阅读全文
posted @ 2025-03-22 19:17 最爱丁珰 阅读(69) 评论(0) 推荐(0)
摘要: 字符级语言模型的优缺点见下 好处:不用担心\(\left<\text{UNK}\right>\)的出现 坏处:最终的序列要长的多;训练也要复杂得多(对内存和速度的要求都要高得多) 现如今,人们一般使用单词级RNN,但是也有特殊情况会使用字符级RNN 在训练了一个RNN后,我们可以利用这个RNN采样, 阅读全文
posted @ 2025-03-22 18:54 最爱丁珰 阅读(32) 评论(0) 推荐(0)
摘要: 目录核心功能TabAICustom ModeAskManualAgent模型免费模型付费模型Chat并发Chat@MCPCursor Rules全局规则项目规则Workspace 核心功能 Tab 这个是Cursor最为强大的功能,使用也很简单,在编写代码的时候,如果出现了灰色的提示词,直接按Tab 阅读全文
posted @ 2025-03-21 22:16 最爱丁珰 阅读(1231) 评论(2) 推荐(0)
摘要: 其实BERT预训练任务中,掩蔽语言模型才是最重要的,下一句预测这个任务造成不了什么影响(BERT的原始论文做了两个预训练任务,但后面有一个人只做了掩蔽语言模型,效果还更好,如下)。但是我们需要学到的就是,无论是什么任务,我们总是期望教会模型一点东西(比如下一句预测就是希望模型学会长距离的关系) 上图 阅读全文
posted @ 2025-03-21 14:13 最爱丁珰 阅读(26) 评论(0) 推荐(0)
摘要: 这里在一个特定的目录下运行命令行然后输入,就会在当前的路径下安装一个项目。这个项目的名字就叫jrrg-react-study(这个创建只是为了测试用的),我们就可以对这个项目进行编辑(react相关的包已经在里面了)。在我们进行任何的编辑之前,react框架就已经在里面了。如果我们在对应的目录下运行 阅读全文
posted @ 2025-03-21 11:50 最爱丁珰 阅读(23) 评论(0) 推荐(0)
摘要: 补充一下迁移学习 迁移学习用微调比较多。比如我们按照图像分类去训练了一个神经网络,但是我们现在想要将这个神经网络运用在\(X\)光图像识别上。这就是迁移学习 方法: 我们的新数据(指的是\(X\)光图片)不多 微调(fine tuning)神经网络的最后一层即可,也就是将最后一层的参数重新初始化并训 阅读全文
posted @ 2025-03-20 22:02 最爱丁珰 阅读(24) 评论(0) 推荐(0)
摘要: 除了书上的方法,还有如下方法 人工分析训练集和验证/测试集的差异。以车载语音识别为例,假设发现验证/测试集有很多杂声(如汽车的引擎声等等),或者说包含很多街道的名字(说明模型不擅长识别街道名字)。 收集训练集中不包含的,但是验证集中有的新数据进行训练;或者对已有数据进行修改,使其包含验证集中数据的特 阅读全文
posted @ 2025-03-20 21:58 最爱丁珰 阅读(47) 评论(0) 推荐(0)
摘要: 注意,GPT只基于Transformer的解码器,没有基于编码器。GPT的主要任务是根据已经给了的句子预测下一个词(这本来就是语言模型干的事,不是说语言模型非要进行机器翻译的)。回忆一下,我们在训练Transformer的时候,解码器的部分也是有mask的(尽管我们输入的是一个完整的句子),所以解码 阅读全文
posted @ 2025-03-20 08:54 最爱丁珰 阅读(16) 评论(0) 推荐(0)
摘要: 首先介绍一下早期的多模态模型 现在我们有视觉模型和语言模型 我们现在要把图片嵌入和词嵌入放到同一个空间中,这个时候就要定义一种评估函数,让相近的文字和图片挨在一起,不相近的则远离 除了跨模态迁移(就是结合图片和文本,上面的方法),也可以将他们融合,一起反映多模态词嵌入。一个著名的算法就是视觉词袋 举 阅读全文
posted @ 2025-03-18 16:50 最爱丁珰 阅读(25) 评论(0) 推荐(0)
上一页 1 ··· 20 21 22 23 24 25 26 27 28 ··· 132 下一页