会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
saulstavo
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
13
下一页
2025年11月21日
多轮对话
摘要: 参考博客 多轮对话系统架构 多轮对话-知乎 大模型超长多轮对话实现
阅读全文
posted @ 2025-11-21 13:57 saulstavo
阅读(0)
评论(0)
推荐(0)
2025年10月29日
问大模型CAN的co-attention
摘要: req: 如何理解嵌入向量用于构建一个微型MLP的参数(权重和偏置),一般来说MLP的权重是训练得到的 res: 你问得非常准确,这是理解CAN的关键一步。 在普通MLP里,权重矩阵 W 和偏置向量 b 确实是“可训练的张量”,它们与输入无关,只在反向传播时被更新。 CAN的做法是:把“权重/偏置”
阅读全文
posted @ 2025-10-29 11:04 saulstavo
阅读(7)
评论(0)
推荐(0)
2025年10月22日
8. 字符串转换整数 (atoi)
摘要: 问题 请你来实现一个 myAtoi(string s) 函数,使其能将字符串转换成一个 32 位有符号整数。 函数 myAtoi(string s) 的算法如下: 空格:读入字符串并丢弃无用的前导空格(" ") 符号:检查下一个字符(假设还未到字符末尾)为 '-' 还是 '+'。如果两者都不存在,则
阅读全文
posted @ 2025-10-22 14:10 saulstavo
阅读(5)
评论(0)
推荐(0)
6. Z 字形变换
摘要: 问题 将一个给定字符串 s 根据给定的行数 numRows ,以从上往下、从左到右进行 Z 字形排列。 比如输入字符串为 "PAYPALISHIRING" 行数为 3 时,排列如下: P A H N A P L S I I G Y I R 之后,你的输出需要从左往右逐行读取,产生出一个新的字符串,比
阅读全文
posted @ 2025-10-22 13:05 saulstavo
阅读(6)
评论(0)
推荐(0)
2025年10月19日
Diffusion
摘要: 前验概率与后验概率 前验概率(Prior Probability)和后验概率(Posterior Probability)是一对孪生概念,它们是贝叶斯统计思想的核心。简单地说,前验是“你原本的信念”,后验是“在看到证据之后你修正过的信念”。我们来一步步拆解。 一、前验概率:在看到数据之前的信念 定义
阅读全文
posted @ 2025-10-19 22:37 saulstavo
阅读(17)
评论(0)
推荐(0)
l2正则化项以及torch.norm
摘要: 非常好,这段代码是一个非常典型的 L2 正则化(L2 Regularization) 的实现例子。 我们来一步步讲清楚它的作用、为什么写成这样,以及 torch.norm(param, p=2) 的意义。 一、先看这段代码在干什么 # 手动计算 L2 正则化项并加到总损失中 l2_reg = 0 f
阅读全文
posted @ 2025-10-19 22:33 saulstavo
阅读(18)
评论(0)
推荐(0)
KL散度
摘要: 有两个概率分布:真实分布 P(x):世界的真实规律;模型分布 Q(x):我们模型预测的结果。 KL 散度衡量的就是这两个分布之间的“距离”:\(D_{KL}(P||Q) = \sum_{x}^{}{P(x)log\frac{P(x)}{Q(x)}}\). 越接近 0 → 模型越接近真实分布. 假设你
阅读全文
posted @ 2025-10-19 21:57 saulstavo
阅读(22)
评论(0)
推荐(0)
2025年10月18日
3397. 执行操作后不同元素的最大数量
摘要: 问题 给你一个整数数组 nums 和一个整数 k。 你可以对数组中的每个元素 最多 执行 一次 以下操作: 将一个在范围 [-k, k] 内的整数加到该元素上。 返回执行这些操作后,nums 中可能拥有的不同元素的 最大 数量。 示例 1: 输入: nums = [1,2,2,3,3,4], k =
阅读全文
posted @ 2025-10-18 14:50 saulstavo
阅读(8)
评论(0)
推荐(0)
GRPO
摘要: 参考视频 GRPO 指的是 Group Relative Policy Optimization(组相对策略优化),最早由 DeepSeek 在 DeepSeekMath 里提出,用来做 LLM 的 RL(尤其是推理/Chain-of-Thought 任务)的高效替代 PPO 的算法。 PPO 需要
阅读全文
posted @ 2025-10-18 13:59 saulstavo
阅读(14)
评论(0)
推荐(0)
2025年10月16日
2598. 执行操作后的最大 MEX——模运算
摘要: 题目 给你一个下标从 0 开始的整数数组 nums 和一个整数 value 。 在一步操作中,你可以对 nums 中的任一元素加上或减去 value 。 例如,如果 nums = [1,2,3] 且 value = 2 ,你可以选择 nums[0] 减去 value ,得到 nums = [-1,2
阅读全文
posted @ 2025-10-16 13:09 saulstavo
阅读(9)
评论(0)
推荐(0)
1
2
3
4
5
···
13
下一页
公告