m516606428

2025年7月16日

摘要： Adam（Adaptive Moment Estimation）优化器是深度学习中广泛使用的自适应学习率优化算法，结合了动量（Momentum）和 RMSprop 的优点，具有收敛快、稳定性强的特点。以下是 Adam 优化器每一步迭代的详细流程，从初始化到参数更新的完整步骤解析：一、符号定义在开阅读全文

posted @ 2025-07-16 15:54 m516606428 阅读(642) 评论(0) 推荐(0)

自注意力的QK乘完后需要归一化吗?

摘要：自注意力中 QK 乘完后需要归一化。在自注意力机制中，计算 Query 与 Key 的点积（即 QK 相乘）后，通常会进行缩放和归一化处理。具体来说，会先将 QK 的点积结果除以一个缩放因子\(\sqrt{d_k}\)，其中\(d_k\)为 Key 向量的维度，这是为了防止点积结果过大，导致在后续阅读全文

posted @ 2025-07-16 15:29 m516606428 阅读(18) 评论(0) 推荐(0)

85.sigmoid放在中间层会发生什么?11.bert的自注意力是怎么实现的?

摘要：以下是对这两个问题的回答： sigmoid 放在中间层会发生什么：梯度消失：sigmoid 函数的导数在 x 值较大或较小时趋近于 0。当在中间层使用 sigmoid 函数时，在反向传播过程中，根据链式法则，梯度需要连乘多个层的导数。由于 sigmoid 导数的最大值仅为 1/4，连乘后梯度会呈指阅读全文

posted @ 2025-07-16 14:43 m516606428 阅读(11) 评论(0) 推荐(0)

2025年7月10日

这个公式写法我不理解 cosine-sim(u,v) 他的写法怎么跟相减一样？？？

摘要：你说的 “跟相减一样”，应该是疑惑 cosine - sim(u, v) 里的减号是不是代表减法，其实这是个命名小误会，拆成两部分讲清楚：一、符号本质：只是函数命名，和减法无关！ cosine - sim(u, v) 里的 - 不是数学运算的 “减号”，而是函数名称的连接符，完整含义是 “c 阅读全文

posted @ 2025-07-10 16:43 m516606428 阅读(12) 评论(0) 推荐(0)

计算余弦相似度

摘要： from sentence_transformers import SentenceTransformerimport torch # 导入torch库model = SentenceTransformer(r'C:\Users\Administrator\.cache\huggingface\hu 阅读全文

posted @ 2025-07-10 16:41 m516606428 阅读(17) 评论(0) 推荐(0)

2025年7月6日

一、表示型：“提前打包，快速配对”二、交互型：“面对面唠嗑，盯着重点聊”

摘要：咱接着用大白话，把 “表示型” 和 “交互型” 文本匹配掰开揉碎了唠，结合实际场景，让你彻底明白它们的区别和门道：一、表示型：“提前打包，快速配对” （1）工作逻辑：给文本贴 “统一标签” 想象你是个图书馆管理员，想快速给读者找书。表示型的做法是：先把图书馆里所有书的内容，用一套 “数字密码”（向阅读全文

posted @ 2025-07-06 16:03 m516606428 阅读(7) 评论(0) 推荐(0)

2025年7月5日

for index, sentence in enumerate(sentences): 和写法有什么不同 for index, sentence in sentences

摘要：这两种写法的核心区别在于数据结构的要求和迭代方式： 1. for index, sentence in enumerate(sentences) 作用：遍历 sentences 列表，并同时获取元素的索引和值。数据结构要求：sentences 必须是可迭代对象（如列表、元组、字符串）阅读全文

posted @ 2025-07-05 16:59 m516606428 阅读(5) 评论(0) 推荐(0)

在面试中结合项目场景阐述对 Transformer 底层架构的优化

摘要：我在想这个问题，可能面试中问transformer的八股，工作不一定用到，那我能否在自我介绍项目场景中加入一些对架构底层的优化呢比如 Self-Attention（自注意力机制）, QKV, Multi-Head Attention, 业务开发中对这些底层的优化帮助我赋能业务, (我的想法是在阅读全文

posted @ 2025-07-05 13:59 m516606428 阅读(24) 评论(0) 推荐(0)

2025年7月1日

我之前听到过人家说冻结一个大的预训练模型某些层 ,进行某些层训练就是lora微调的意思对么？

摘要：不完全对！冻结部分层和LoRA微调是两种不同的方法，虽然它们都是为了减少计算量和显存占用，但实现原理和效果差别很大。用大白话给你讲清楚区别： 1. 冻结部分层（Layer Freezing）做法：比如有一个12层的BERT，你冻住前10层（不让它们的参数更新阅读全文

posted @ 2025-07-01 15:57 m516606428 阅读(188) 评论(0) 推荐(0)

2025年6月27日

这些都是传统机器学习算法：

摘要：这些都是传统机器学习算法：线性回归：用于预测连续值，如根据房屋面积预测房价，逻辑回归是其衍生，用于分类（如判断邮件是否为垃圾邮件）。决策树：通过对特征条件判断（如根据天气、温度等判断是否外出），构建树状模型做分类或回归。随机森林：由多棵决策树组成，综合多棵树结果（如多棵树投票决定分类），提阅读全文

posted @ 2025-06-27 02:13 m516606428 阅读(118) 评论(0) 推荐(0)

公告