ownnnnn1 - 博客园

2026年1月12日

摘要：正则化可以防止模型过拟合，原理是通过给损失加上一个惩罚项，让原损失->（原损失+惩罚值），导致参数更新的时候有一些阻碍和约束，可以防止模型参数过度学习当前训练数据，导致过拟合。看下列式子： 1. 加入正则化后的损失： LOSS_NEW = LOSS_OLD + λ * 惩罚项 2. 参数更新公式：w 阅读全文

posted @ 2026-01-12 17:20 ownnnnn1 阅读(55) 评论(0) 推荐(0)

2026年1月7日

对多头注意力的理解

摘要：对单头自注意力机制 input*[Wq、Wk、Wv]->[Q、K、V] softmax（(Q * K的转置矩阵)缩放）->得到一组权重分数f 将f对V进行加权求和，就得到了注意了全文之后的值V 对于多头自注意力机制：对input*[Wq、Wk、Wv]得到的[Q、K、V]分成[Q0-Q7,K0-K7 阅读全文

posted @ 2026-01-07 13:04 ownnnnn1 阅读(67) 评论(0) 推荐(0)

2026年1月6日

对位置编码的理解

摘要： 1.为什么要引入位置编码？答：西瓜喜欢吃苹果_and_苹果喜欢吃西瓜。每个token的embedding相同，但是表达的意思不同，需要位置编码来协助学习他们之间的关系。假设每个token映射的向量为512维，则位置编码也需要是512维的，用于和embedding相加 2.于是选择使用三角函数来阅读全文

posted @ 2026-01-06 23:16 ownnnnn1 阅读(69) 评论(0) 推荐(0)

2025年12月29日

从deepseek官网申请API应用至zotero

摘要：从github上下载chatgpt插件： https://github.com/MuiseDestiny/zotero-gpt 将插件zotero-gpt.xpi添加至zotero：在添加的gpt插件处添加deepseek的api和key：（在embedding模块，dsk官网申请的api没有对应阅读全文

posted @ 2025-12-29 12:51 ownnnnn1 阅读(63) 评论(0) 推荐(0)

2025年12月28日

pycharm终端无法运行conda命令及不显示环境名

摘要：无法运行conda命令：将anaconda安装目录下的condabin和Scripts的绝对路径添加到系统变量path下终端前不显示环境名：将pycharm默认的终端powershell.exe改成cmd.exe 2025-12-28 阅读全文

posted @ 2025-12-28 21:04 ownnnnn1 阅读(65) 评论(0) 推荐(0)

L1nssv-diary

公告