上一页 1 2 3 4 5 6 7 ··· 24 下一页
摘要: Adam(Adaptive Moment Estimation)优化器是深度学习中广泛使用的自适应学习率优化算法,结合了动量(Momentum)和 RMSprop 的优点,具有收敛快、稳定性强的特点。以下是 Adam 优化器每一步迭代的详细流程,从初始化到参数更新的完整步骤解析: 一、符号定义 在开 阅读全文
posted @ 2025-07-16 15:54 m516606428 阅读(642) 评论(0) 推荐(0)
摘要: 自注意力中 QK 乘完后需要归一化。 在自注意力机制中,计算 Query 与 Key 的点积(即 QK 相乘)后,通常会进行缩放和归一化处理。具体来说,会先将 QK 的点积结果除以一个缩放因子\(\sqrt{d_k}\),其中\(d_k\)为 Key 向量的维度,这是为了防止点积结果过大,导致在后续 阅读全文
posted @ 2025-07-16 15:29 m516606428 阅读(18) 评论(0) 推荐(0)
摘要: 以下是对这两个问题的回答: sigmoid 放在中间层会发生什么: 梯度消失:sigmoid 函数的导数在 x 值较大或较小时趋近于 0。当在中间层使用 sigmoid 函数时,在反向传播过程中,根据链式法则,梯度需要连乘多个层的导数。由于 sigmoid 导数的最大值仅为 1/4,连乘后梯度会呈指 阅读全文
posted @ 2025-07-16 14:43 m516606428 阅读(11) 评论(0) 推荐(0)
摘要: 你说的 “跟相减一样”,应该是疑惑 cosine - sim(u, v) 里的减号是不是代表减法 ,其实这是个命名小误会,拆成两部分讲清楚: 一、符号本质:只是函数命名,和减法无关! cosine - sim(u, v) 里的 - 不是数学运算的 “减号”,而是 函数名称的连接符 ,完整含义是 “c 阅读全文
posted @ 2025-07-10 16:43 m516606428 阅读(12) 评论(0) 推荐(0)
摘要: from sentence_transformers import SentenceTransformerimport torch # 导入torch库model = SentenceTransformer(r'C:\Users\Administrator\.cache\huggingface\hu 阅读全文
posted @ 2025-07-10 16:41 m516606428 阅读(17) 评论(0) 推荐(0)
摘要: 咱接着用大白话,把 “表示型” 和 “交互型” 文本匹配掰开揉碎了唠,结合实际场景,让你彻底明白它们的区别和门道: 一、表示型:“提前打包,快速配对” (1)工作逻辑:给文本贴 “统一标签” 想象你是个图书馆管理员,想快速给读者找书。表示型的做法是:先把图书馆里所有书的内容,用一套 “数字密码”(向 阅读全文
posted @ 2025-07-06 16:03 m516606428 阅读(7) 评论(0) 推荐(0)
摘要: 这两种写法的核心区别在于 数据结构的要求 和 迭代方式: 1. for index, sentence in enumerate(sentences) 作用:遍历 sentences 列表,并同时获取元素的 索引 和 值。 数据结构要求:sentences 必须是 可迭代对象(如列表、元组、字符串) 阅读全文
posted @ 2025-07-05 16:59 m516606428 阅读(5) 评论(0) 推荐(0)
摘要: 我在想这个问题,可能面试中问transformer的八股,工作不一定用到, 那我能否在自我介绍项目场景中加入一些对架构底层的优化呢 比如 Self-Attention(自注意力机制), QKV, Multi-Head Attention, 业务开发中对这些底层的优化 帮助我赋能业务, (我的想法是在 阅读全文
posted @ 2025-07-05 13:59 m516606428 阅读(24) 评论(0) 推荐(0)
摘要: 不完全对!​​冻结部分层​​和​​LoRA微调​​是两种不同的方法,虽然它们都是为了减少计算量和显存占用,但实现原理和效果差别很大。用大白话给你讲清楚区别: ​​1. 冻结部分层(Layer Freezing)​​ ​​做法​​:比如有一个12层的BERT,你​​冻住前10层​​(不让它们的参数更新 阅读全文
posted @ 2025-07-01 15:57 m516606428 阅读(188) 评论(0) 推荐(0)
摘要: 这些都是传统机器学习算法: 线性回归:用于预测连续值,如根据房屋面积预测房价 ,逻辑回归是其衍生,用于分类(如判断邮件是否为垃圾邮件 )。 决策树:通过对特征条件判断(如根据天气、温度等判断是否外出),构建树状模型做分类或回归。 随机森林:由多棵决策树组成,综合多棵树结果(如多棵树投票决定分类),提 阅读全文
posted @ 2025-06-27 02:13 m516606428 阅读(118) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 ··· 24 下一页