会员
周边
众包
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
zz-w
博客园
首页
新随笔
联系
订阅
管理
2025年6月17日
第二章 概率
摘要: 什么叫不确定性 不确定性可以分为两种: 认知不确定性(epistemic uncertainty),也称系统不确定性(systematic uncertainty)。 这种不确定性源自有限的数据集大小。随着观测数据的增多,例如更多良性和恶性皮肤病变图像样本,系统可以更好地预测新样本的类别。 然而,即
阅读全文
posted @ 2025-06-17 14:51 AAA建材王师傅
阅读(3)
评论(0)
推荐(0)
2025年6月15日
第一章:深度学习革命
摘要: Note:本文是在DataWhale的活动期间撰写,推荐关注相关公众号共同学习。 通过应用引入相关概念 1.医疗诊断场景 训练集:被标注为恶性或良性的病变图像集,标注依据为对病变活检后得到的真实分类。 训练集用处:确定深度神经网络中2500万个可调参数(权重)的取值。 训练目标:训练好的神经网络可以
阅读全文
posted @ 2025-06-15 11:26 AAA建材王师傅
阅读(34)
评论(0)
推荐(0)
2025年6月11日
关于高斯(正态)分布密度函数的不严谨直觉(严谨证明请学习最大熵原理)
摘要: Step 1:构造钟形函数 我们想要构造一个: 对称; 在中心点 \(\mu\) 处最大; 越远离中心,函数值越小; 可积分为 1。 我们猜测使用如下函数形式: \[f(x) = A \cdot \exp\left(-B(x - \mu)^2\right) \]其中 \(B > 0\),控制函数宽度
阅读全文
posted @ 2025-06-11 11:21 AAA建材王师傅
阅读(12)
评论(0)
推荐(0)
2025年4月12日
vLLM部署实战重难点
摘要: Kubernetes + 容器化部署 vLLM官方docker镜像: vllm/vllm-openai 这是官方提供的 Docker 镜像,可以用来快速部署 vLLM 服务,便于容器化管理。 实战: helm chart 部署 本地集群: 使用 Helm 安装和配置 vLLM 在本地 Kuberne
阅读全文
posted @ 2025-04-12 23:20 AAA建材王师傅
阅读(210)
评论(0)
推荐(0)
工具类博客总结
摘要: https://zhuanlan.zhihu.com/p/689976933 uv是开发ruff的公司 Astral 前一段时间发布的高性能Python工具,用途是安装python包,以及解析包版本之间的依赖。它的最大特点是快,相比现有的的工具都能够快一大截。
阅读全文
posted @ 2025-04-12 17:51 AAA建材王师傅
阅读(6)
评论(0)
推荐(0)
2025年3月14日
DeepSeek-v2
摘要: Deepseek系列博客目录 Model 核心 Date DeepSeekLLM 探究LLM Scalling Law 2024.01 DeepSeekMath 提出GRPO 2024.04 DeepSeek-V2 DeepSeekMoE, Multi-Head Latent Attention (
阅读全文
posted @ 2025-03-14 18:56 AAA建材王师傅
阅读(40)
评论(0)
推荐(0)
DeepSeekMath -- GRPO
摘要: Deepseek系列博客目录 Model 核心 Date DeepSeekLLM 探究LLM Scalling Law 2024.01 DeepSeekMath 提出GRPO 2024.04 DeepSeek-V2 DeepSeekMoE, Multi-Head Latent Attention (
阅读全文
posted @ 2025-03-14 18:54 AAA建材王师傅
阅读(17)
评论(0)
推荐(0)
2025年3月3日
DeepSeek MOE 代码实现
摘要: 前置知识: PyTorch 基础函数操作整理 1. topk 操作 功能: torch.topk 用于返回输入张量中指定维度上的前 k 个最大元素及其对应的索引。 示例代码: import torch x = torch.tensor([[3, 1, 4], [1, 5, 9], [2, 6, 5]
阅读全文
posted @ 2025-03-03 18:57 AAA建材王师傅
阅读(159)
评论(0)
推荐(0)
2025年2月26日
使用 TRL 训练Reward Model奖励模型
摘要: 训练过程 在此示例中,将微调“distilroberta-base”模型。 该formatting_func函数将指令与所选和拒绝的响应相结合,创建两个新字符串。这些字符串被标记化,成为奖励模型的输入,该模型根据这些示例学习区分好响应和坏响应。损失函数的设计方式是最大化所选和拒绝响应的分数之间的差异
阅读全文
posted @ 2025-02-26 23:42 AAA建材王师傅
阅读(409)
评论(0)
推荐(0)
2025年2月1日
Tokenizer
摘要: 一、思维导图 二、subword(子词)粒度 在很多情况下,既不希望将文本切分成单独的词(太大),也不想将其切分成单个字符(太小),而是希望得到介于词和字符之间的子词单元。这就引入了 subword(子词)粒度的分词方法。本文重点介绍这一部分。 2.1 WordPiece 在BERT时代,WordP
阅读全文
posted @ 2025-02-01 22:57 AAA建材王师傅
阅读(20)
评论(0)
推荐(0)
下一页
公告