会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
rifo
博客园
首页
新随笔
联系
订阅
管理
2025年12月16日
初识DPO
摘要: Bradley Terry模型 \[P(i \succ j) = \frac{e^{s_i}}{e^{s_i} + e^{s_j}}\\e^{s_i}表示{s_i}的实力,则P(i \succ j)表示{s_i}战胜{s_j}的概率 \]假设x为prompt,LLM的response为y,评价一个回
阅读全文
posted @ 2025-12-16 23:59 leleleocc
阅读(13)
评论(0)
推荐(0)
2025年11月9日
初识分布式训练
摘要: 假设有N块GPU,模型有ψ个参数。 前提知识:每个参数对应一个梯度值,且SGD每个参数对应一个一阶动量,Adam每个参数对应一个一阶、一个二阶动量 DP(data parallel) 数据并行(单进程,多线程,只用一个cpu核),每个GPU上都保存完整的模型参数(param,or p)与优化器状
阅读全文
posted @ 2025-11-09 18:38 leleleocc
阅读(16)
评论(0)
推荐(0)
2025年11月8日
初识PPO
摘要: for batch_prompt in prompt_dataset: batch_response = active_model.generate(batch_prompt) batch_data = concat(batch_prompt, batch_response) batch_score
阅读全文
posted @ 2025-11-08 18:46 leleleocc
阅读(18)
评论(0)
推荐(0)
2025年4月19日
docker入门使用
摘要: 1 、docker原理 2、命令 docker rm -f $(docker ps -aq) :删除所有容器(包括运行中的) docker exec -it <容器id前三位> bash :进入该容器 docker logs <容器id前三位> :输出该容器日志 3、目录挂载|卷映射 目录挂载 do
阅读全文
posted @ 2025-04-19 00:49 leleleocc
阅读(68)
评论(0)
推荐(0)
2025年4月14日
unicode\utf-8以及二进制、hex、base64是怎么一回事儿?
摘要: 首先,Unicode 是一个字符集,它为全世界的所有字符(包括字母、符号、汉字、表情符号等)分配了一个 唯一的编号(代码点)。这些编号并不关心字符如何存储(即字节数),只关心每个字符对应的编号。 因为 Unicode 给每个字符分配了一个编号,但是它并没有规定 如何用字节存储这些字符的编号。不同的字
阅读全文
posted @ 2025-04-14 17:33 leleleocc
阅读(0)
评论(0)
推荐(0)
2025年4月13日
django的csrf认证
摘要: django的csrf中间件会默认将request中的token进行比较 eg. 以POST reqeust举例 当为请求体为表单,中间件会将表单的csrfmiddlewaretoken与cookie的csrftoken值比较是否一致,不携带csrfmiddlewaretoken就会报错403 当请
阅读全文
posted @ 2025-04-13 14:30 leleleocc
阅读(28)
评论(0)
推荐(0)
2025年2月26日
*** verge模式说明与使用
摘要: 流量捕获、流量分发 TUN 模式/系统代理是流量捕获的“入口”,规则/全局/直连模式是流量路由的“出口”(发送数据:入口-***-出口) ***流量捕获方式 TUN 模式 一种基于虚拟网络设备的模式,可以捕获所有网络流量并将其转发到 ***。 它能够处理所有 TCP 和 UDP 流量,包
阅读全文
posted @ 2025-02-26 01:42 leleleocc
阅读(5)
评论(0)
推荐(0)
2025年2月16日
MoE
摘要: 参考: 文章 https://www.zhihu.com/tardis/bd/ans/3364787819 MoE优点: 训练速度更快,效果更好 相同参数,推理成本低 扩展性好 多任务学习能力 缺点: 训练稳定性差,需设计特别的损失函数 路由机制会增加通信的成本 模型复杂度高 稀疏性会导致过拟合 如
阅读全文
posted @ 2025-02-16 00:09 leleleocc
阅读(26)
评论(0)
推荐(0)
2025年2月14日
RoPE 旋转位置编码
摘要: 参考: 文章 https://blog.csdn.net/weixin_43646592/article/details/130924280 视频 https://www.bilibili.com/video/BV12x42127Pb?spm_id_from=333.788.videopod.sec
阅读全文
posted @ 2025-02-14 16:20 leleleocc
阅读(53)
评论(0)
推荐(0)
KV cache优化的发展过程:MHA、MQA、GQA、MLA
摘要: 参考: 文章 https://kexue.fm/archives/10091 视频 https://www.bilibili.com/video/BV1U9zBYZEg9/?spm_id_from=333.337.search-card.all.click&vd_source=da862fa7a21
阅读全文
posted @ 2025-02-14 15:57 leleleocc
阅读(210)
评论(0)
推荐(0)
公告