摘要: 参考博客 多轮对话系统架构 多轮对话-知乎 大模型超长多轮对话实现 阅读全文
posted @ 2025-11-21 13:57 saulstavo 阅读(0) 评论(0) 推荐(0)
摘要: req: 如何理解嵌入向量用于构建一个微型MLP的参数(权重和偏置),一般来说MLP的权重是训练得到的 res: 你问得非常准确,这是理解CAN的关键一步。 在普通MLP里,权重矩阵 W 和偏置向量 b 确实是“可训练的张量”,它们与输入无关,只在反向传播时被更新。 CAN的做法是:把“权重/偏置” 阅读全文
posted @ 2025-10-29 11:04 saulstavo 阅读(7) 评论(0) 推荐(0)
摘要: 问题 请你来实现一个 myAtoi(string s) 函数,使其能将字符串转换成一个 32 位有符号整数。 函数 myAtoi(string s) 的算法如下: 空格:读入字符串并丢弃无用的前导空格(" ") 符号:检查下一个字符(假设还未到字符末尾)为 '-' 还是 '+'。如果两者都不存在,则 阅读全文
posted @ 2025-10-22 14:10 saulstavo 阅读(5) 评论(0) 推荐(0)
摘要: 问题 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 "PAYPALISHIRING" 行数为 3 时,排列如下: P A H N A P L S I I G Y I R 之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比 阅读全文
posted @ 2025-10-22 13:05 saulstavo 阅读(6) 评论(0) 推荐(0)
摘要: 前验概率与后验概率 前验概率(Prior Probability)和后验概率(Posterior Probability)是一对孪生概念,它们是贝叶斯统计思想的核心。简单地说,前验是“你原本的信念”,后验是“在看到证据之后你修正过的信念”。我们来一步步拆解。 一、前验概率:在看到数据之前的信念 定义 阅读全文
posted @ 2025-10-19 22:37 saulstavo 阅读(17) 评论(0) 推荐(0)
摘要: 非常好,这段代码是一个非常典型的 L2 正则化(L2 Regularization) 的实现例子。 我们来一步步讲清楚它的作用、为什么写成这样,以及 torch.norm(param, p=2) 的意义。 一、先看这段代码在干什么 # 手动计算 L2 正则化项并加到总损失中 l2_reg = 0 f 阅读全文
posted @ 2025-10-19 22:33 saulstavo 阅读(18) 评论(0) 推荐(0)
摘要: 有两个概率分布:真实分布 P(x):世界的真实规律;模型分布 Q(x):我们模型预测的结果。 KL 散度衡量的就是这两个分布之间的“距离”:\(D_{KL}(P||Q) = \sum_{x}^{}{P(x)log\frac{P(x)}{Q(x)}}\). 越接近 0 → 模型越接近真实分布. 假设你 阅读全文
posted @ 2025-10-19 21:57 saulstavo 阅读(22) 评论(0) 推荐(0)
摘要: 问题 给你一个整数数组 nums 和一个整数 k。 你可以对数组中的每个元素 最多 执行 一次 以下操作: 将一个在范围 [-k, k] 内的整数加到该元素上。 返回执行这些操作后,nums 中可能拥有的不同元素的 最大 数量。 示例 1: 输入: nums = [1,2,2,3,3,4], k = 阅读全文
posted @ 2025-10-18 14:50 saulstavo 阅读(8) 评论(0) 推荐(0)
摘要: 参考视频 GRPO 指的是 Group Relative Policy Optimization(组相对策略优化),最早由 DeepSeek 在 DeepSeekMath 里提出,用来做 LLM 的 RL(尤其是推理/Chain-of-Thought 任务)的高效替代 PPO 的算法。 PPO 需要 阅读全文
posted @ 2025-10-18 13:59 saulstavo 阅读(14) 评论(0) 推荐(0)
摘要: 题目 给你一个下标从 0 开始的整数数组 nums 和一个整数 value 。 在一步操作中,你可以对 nums 中的任一元素加上或减去 value 。 例如,如果 nums = [1,2,3] 且 value = 2 ,你可以选择 nums[0] 减去 value ,得到 nums = [-1,2 阅读全文
posted @ 2025-10-16 13:09 saulstavo 阅读(9) 评论(0) 推荐(0)