会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
最爱丁珰
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
20
21
22
23
24
25
26
27
28
···
132
下一页
2025年3月23日
11.2.1 定义
摘要: 式\((11.5)\)的推导过程: 令\(Z=P(X|Y)\sim P_1(Z)\),则 \[E_{Y\sim P(Y)}[-\log P(X|Y)]=E_{Z\sim P_1(Z)}[-\log Z] \]\[\geq -\log E[Z]=-\log \int P(Y)P(X|Y)dY=-\lo
阅读全文
posted @ 2025-03-23 09:06 最爱丁珰
阅读(16)
评论(0)
推荐(0)
2025年3月22日
9.1.1 门控隐状态
摘要: 梯度消失问题是指在深度神经网络中,反向传播时梯度随着层数的增加逐渐变小,导致早期层的权重更新非常缓慢,甚至几乎不更新。这个问题在长序列的循环神经网络(RNN)中尤为明显。 为了缓解这个问题,门控循环单元(GRU)和长短期记忆网络(LSTM)引入了门控机制,使得网络能够更好地控制信息的流动。下面我们将
阅读全文
posted @ 2025-03-22 19:17 最爱丁珰
阅读(69)
评论(0)
推荐(0)
8.4.3 基于循环神经网络的字符级语言模型
摘要: 字符级语言模型的优缺点见下 好处:不用担心\(\left<\text{UNK}\right>\)的出现 坏处:最终的序列要长的多;训练也要复杂得多(对内存和速度的要求都要高得多) 现如今,人们一般使用单词级RNN,但是也有特殊情况会使用字符级RNN 在训练了一个RNN后,我们可以利用这个RNN采样,
阅读全文
posted @ 2025-03-22 18:54 最爱丁珰
阅读(32)
评论(0)
推荐(0)
2025年3月21日
Cursor 使用教程
摘要: 目录核心功能TabAICustom ModeAskManualAgent模型免费模型付费模型Chat并发Chat@MCPCursor Rules全局规则项目规则Workspace 核心功能 Tab 这个是Cursor最为强大的功能,使用也很简单,在编写代码的时候,如果出现了灰色的提示词,直接按Tab
阅读全文
posted @ 2025-03-21 22:16 最爱丁珰
阅读(1231)
评论(2)
推荐(0)
14.8.6 整合代码
摘要: 其实BERT预训练任务中,掩蔽语言模型才是最重要的,下一句预测这个任务造成不了什么影响(BERT的原始论文做了两个预训练任务,但后面有一个人只做了掩蔽语言模型,效果还更好,如下)。但是我们需要学到的就是,无论是什么任务,我们总是期望教会模型一点东西(比如下一句预测就是希望模型学会长距离的关系) 上图
阅读全文
posted @ 2025-03-21 14:13 最爱丁珰
阅读(26)
评论(0)
推荐(0)
react 框架
摘要: 这里在一个特定的目录下运行命令行然后输入,就会在当前的路径下安装一个项目。这个项目的名字就叫jrrg-react-study(这个创建只是为了测试用的),我们就可以对这个项目进行编辑(react相关的包已经在里面了)。在我们进行任何的编辑之前,react框架就已经在里面了。如果我们在对应的目录下运行
阅读全文
posted @ 2025-03-21 11:50 最爱丁珰
阅读(23)
评论(0)
推荐(0)
2025年3月20日
13.2.1 微调
摘要: 补充一下迁移学习 迁移学习用微调比较多。比如我们按照图像分类去训练了一个神经网络,但是我们现在想要将这个神经网络运用在\(X\)光图像识别上。这就是迁移学习 方法: 我们的新数据(指的是\(X\)光图片)不多 微调(fine tuning)神经网络的最后一层即可,也就是将最后一层的参数重新初始化并训
阅读全文
posted @ 2025-03-20 22:02 最爱丁珰
阅读(24)
评论(0)
推荐(0)
4.9.3 分布偏移纠正
摘要: 除了书上的方法,还有如下方法 人工分析训练集和验证/测试集的差异。以车载语音识别为例,假设发现验证/测试集有很多杂声(如汽车的引擎声等等),或者说包含很多街道的名字(说明模型不擅长识别街道名字)。 收集训练集中不包含的,但是验证集中有的新数据进行训练;或者对已有数据进行修改,使其包含验证集中数据的特
阅读全文
posted @ 2025-03-20 21:58 最爱丁珰
阅读(47)
评论(0)
推荐(0)
14.8.2 从特定于任务到不可知任务
摘要: 注意,GPT只基于Transformer的解码器,没有基于编码器。GPT的主要任务是根据已经给了的句子预测下一个词(这本来就是语言模型干的事,不是说语言模型非要进行机器翻译的)。回忆一下,我们在训练Transformer的时候,解码器的部分也是有mask的(尽管我们输入的是一个完整的句子),所以解码
阅读全文
posted @ 2025-03-20 08:54 最爱丁珰
阅读(16)
评论(0)
推荐(0)
2025年3月18日
第十九课 多模态深度学习(第十八课没上)
摘要: 首先介绍一下早期的多模态模型 现在我们有视觉模型和语言模型 我们现在要把图片嵌入和词嵌入放到同一个空间中,这个时候就要定义一种评估函数,让相近的文字和图片挨在一起,不相近的则远离 除了跨模态迁移(就是结合图片和文本,上面的方法),也可以将他们融合,一起反映多模态词嵌入。一个著名的算法就是视觉词袋 举
阅读全文
posted @ 2025-03-18 16:50 最爱丁珰
阅读(25)
评论(0)
推荐(0)
上一页
1
···
20
21
22
23
24
25
26
27
28
···
132
下一页
公告