会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
L1nssv-diary
博客园
首页
新随笔
联系
订阅
管理
2026年1月12日
L1、L2、Dropout正则化的理解
摘要: 正则化可以防止模型过拟合,原理是通过给损失加上一个惩罚项,让原损失->(原损失+惩罚值),导致参数更新的时候有一些阻碍和约束,可以防止模型参数过度学习当前训练数据,导致过拟合。看下列式子: 1. 加入正则化后的损失: LOSS_NEW = LOSS_OLD + λ * 惩罚项 2. 参数更新公式:w
阅读全文
posted @ 2026-01-12 17:20 ownnnnn1
阅读(54)
评论(0)
推荐(0)
2026年1月7日
对多头注意力的理解
摘要: 对单头自注意力机制 input*[Wq、Wk、Wv]->[Q、K、V] softmax((Q * K的转置矩阵)缩放)->得到一组权重分数f 将f对V进行加权求和,就得到了注意了全文之后的值V 对于多头自注意力机制: 对input*[Wq、Wk、Wv]得到的[Q、K、V]分成[Q0-Q7,K0-K7
阅读全文
posted @ 2026-01-07 13:04 ownnnnn1
阅读(67)
评论(0)
推荐(0)
2026年1月6日
对位置编码的理解
摘要: 1.为什么要引入位置编码? 答: 西瓜喜欢吃苹果_and_苹果喜欢吃西瓜。每个token的embedding相同,但是表达的意思不同,需要位置编码来协助学习他们之间的关系。 假设每个token映射的向量为512维,则位置编码也需要是512维的,用于和embedding相加 2.于是选择使用三角函数来
阅读全文
posted @ 2026-01-06 23:16 ownnnnn1
阅读(69)
评论(0)
推荐(0)
2025年12月29日
从deepseek官网申请API应用至zotero
摘要: 从github上下载chatgpt插件: https://github.com/MuiseDestiny/zotero-gpt 将插件zotero-gpt.xpi添加至zotero: 在添加的gpt插件处添加deepseek的api和key:(在embedding模块,dsk官网申请的api没有对应
阅读全文
posted @ 2025-12-29 12:51 ownnnnn1
阅读(63)
评论(0)
推荐(0)
2025年12月28日
pycharm终端无法运行conda命令及不显示环境名
摘要: 无法运行conda命令:将anaconda安装目录下的condabin和Scripts的绝对路径添加到系统变量path下 终端前不显示环境名:将pycharm默认的终端powershell.exe改成cmd.exe 2025-12-28
阅读全文
posted @ 2025-12-28 21:04 ownnnnn1
阅读(63)
评论(0)
推荐(0)
公告