摘要: 正则化可以防止模型过拟合,原理是通过给损失加上一个惩罚项,让原损失->(原损失+惩罚值),导致参数更新的时候有一些阻碍和约束,可以防止模型参数过度学习当前训练数据,导致过拟合。看下列式子: 1. 加入正则化后的损失: LOSS_NEW = LOSS_OLD + λ * 惩罚项 2. 参数更新公式:w 阅读全文
posted @ 2026-01-12 17:20 ownnnnn1 阅读(54) 评论(0) 推荐(0)
摘要: 对单头自注意力机制 input*[Wq、Wk、Wv]->[Q、K、V] softmax((Q * K的转置矩阵)缩放)->得到一组权重分数f 将f对V进行加权求和,就得到了注意了全文之后的值V 对于多头自注意力机制: 对input*[Wq、Wk、Wv]得到的[Q、K、V]分成[Q0-Q7,K0-K7 阅读全文
posted @ 2026-01-07 13:04 ownnnnn1 阅读(67) 评论(0) 推荐(0)
摘要: 1.为什么要引入位置编码? 答: 西瓜喜欢吃苹果_and_苹果喜欢吃西瓜。每个token的embedding相同,但是表达的意思不同,需要位置编码来协助学习他们之间的关系。 假设每个token映射的向量为512维,则位置编码也需要是512维的,用于和embedding相加 2.于是选择使用三角函数来 阅读全文
posted @ 2026-01-06 23:16 ownnnnn1 阅读(69) 评论(0) 推荐(0)
摘要: 从github上下载chatgpt插件: https://github.com/MuiseDestiny/zotero-gpt 将插件zotero-gpt.xpi添加至zotero: 在添加的gpt插件处添加deepseek的api和key:(在embedding模块,dsk官网申请的api没有对应 阅读全文
posted @ 2025-12-29 12:51 ownnnnn1 阅读(63) 评论(0) 推荐(0)
摘要: 无法运行conda命令:将anaconda安装目录下的condabin和Scripts的绝对路径添加到系统变量path下 终端前不显示环境名:将pycharm默认的终端powershell.exe改成cmd.exe 2025-12-28 阅读全文
posted @ 2025-12-28 21:04 ownnnnn1 阅读(63) 评论(0) 推荐(0)