会员
周边
新闻
博问
闪存
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
wljss
纸上得来终觉浅,绝知此事要躬行。
博客园
首页
新随笔
联系
订阅
管理
[置顶]
从《Attention is All You Need》 到 当代大模型架构
摘要: 本文结合chatgpt生成。 原始 Transformer:2017 年的起点 《Attention is All You Need》里的 Transformer 不是今天大模型最常见的形态。它最初是一个 Encoder-Decoder 架构,主要用于机器翻译。 核心模块是: \[\text{Att
阅读全文
posted @ 2026-05-19 22:30 wljss
阅读(3)
评论(0)
推荐(0)
[置顶]
随笔/杂记
摘要: 随便写写记记 罗素茶壶:一个主张的不可证伪性,并不能成为相信它的理由。 爱是一场博弈,必须保持永远与对方不分伯仲、势均力敌,才能长此以往地相依相息。因为过强的对手让人疲惫,太弱的对手令人厌倦。 《简爱》 python函数参数确定 import inspect # 假设你已经完成了model的实例化(
阅读全文
posted @ 2025-10-28 23:26 wljss
阅读(21)
评论(0)
推荐(0)
[置顶]
有意思的数学小问题集合
摘要: 开坑中,欢迎投稿 海盗分金问题 问题 有五个海盗,在海上抢来了一百个金子。五个海盗都很贪婪,他们都希望自己能分得最多的金子,但同时又都很明智。于是他们按照抽签的方法,排出一个次序。首先由抽到一号签的海盗说出一套分金的方案,如果5个人中有50%以上(不含50%)的人同意,那么便依照这个方案执行,否则的
阅读全文
posted @ 2025-02-25 20:56 wljss
阅读(167)
评论(2)
推荐(2)
[置顶]
开发常用命令合集
摘要: 正在学习,开坑中,想到哪写到哪吧 手动管理Claude Code上下文 把计划的其余部分放到 HANDOFF.md 文件中。解释一下你尝试过什么,哪些有效,哪些无效,这样下一个接手的客服人员就可以直接加载这个文件,无需其他操作就能开始并完成这项任务。 转载自:https://www.reddit.c
阅读全文
posted @ 2025-02-13 18:21 wljss
阅读(43)
评论(0)
推荐(0)
[置顶]
杂题记录
摘要: 本人太懒,但是遇到有意思的题又不想放过,所以下面只写思路没有代码。 持续更新中 最大最小 就是问你有多少个区间满足区间最大值是区间最小值的两倍。 乍一看不太可做,实际上是个二分。 枚举左端点,右端点变大的过程中,区间最大值不会变小,区间最小值不会变大,\(\frac{区间最大值}{区间最小值}\)不
阅读全文
posted @ 2021-12-15 15:56 wljss
阅读(161)
评论(1)
推荐(0)
[置顶]
HEOI 2020 游记
摘要: 2020.6.16 原本以为HEOI取消了,昨天晚上难受了一晚上。QAQ 上午俩某郸一中的人在洛谷上怼了起来,还好我大hsez的人不会这样干。 貌似取消这个事情更加确信了。 但是!在下午3点左右,我们收到了通知 关于HEOI,它SXOI了。 可能这就是复活吧 晚上接到通知,关于HEOI,它HAOI了
阅读全文
posted @ 2020-06-17 11:46 wljss
阅读(616)
评论(2)
推荐(3)
[置顶]
OI无关 透彻随笔
摘要: 暂且先咕着qwq 2020.4.5 上午考试爆炸祭,又是被踩爆的一天,膜拜 \(rank1\) 离殇(为什么我老是念成离骚) . 下午 \(cf\) 讲课自闭祭,深入反思自己为什么这么菜(没有缘由的菜)qaq。 文化课全忘祭,抽时间看看大佬的文化课笔记,发现文化课的东西早就忘的一干二净了5555.
阅读全文
posted @ 2020-04-05 16:51 wljss
阅读(249)
评论(2)
推荐(0)
[置顶]
置顶帖(传送门)/to 学弟 一个菜鸡的故事
摘要: 以下为扯淡内容 Waring!:CSP前的题解略微有些不忍直视 血的教训:样例解释不可信 Q:为什么我叫 \(wljss\) ? A:在做某道神奇的字符串题目时rand()出了 \(wljss\),根据拼音你可以叫我 王老吉叔叔/物理竞赛生 以上为扯淡内容 没错,我是 \(wljss\) ,一个很菜
阅读全文
posted @ 2019-10-06 18:25 wljss
阅读(1122)
评论(0)
推荐(3)
2026年6月10日
大语言模型推理内存管理算法 paged attention
摘要: 本文结合chatgpt生成。 Paged Attention 是 vLLM 提出的一个用于 高效管理 Transformer 推理阶段 KV Cache 的机制。它本质上不是一种新的 attention 数学形式,而是一种 KV Cache 的内存管理与访问机制。 1. 背景:推理时最大的瓶颈之一是
阅读全文
posted @ 2026-06-10 16:31 wljss
阅读(5)
评论(0)
推荐(0)
2026年6月6日
旋转位置编码 ROPE
摘要: 本文结合chatgpt生成 一文讲清 RoPE:为什么“旋转”能让大模型理解位置? 在 Transformer 里,attention 的核心问题是: 当前 token 应该关注哪些 token? 但原始 attention 只看内容相似度,不知道 token 的顺序。比如“猫追狗”和“狗追猫”,t
阅读全文
posted @ 2026-06-06 17:55 wljss
阅读(13)
评论(0)
推荐(0)
2026年6月1日
大模型的激活函数
摘要: 本文结合chatgpt生成 现在主流大模型的 FFN 已经从早期的 ReLU/GELU,逐渐演化到 GLU 系列门控激活,尤其是 SwiGLU。 1. 激活函数在大模型里主要出现在哪里? 一个标准 Transformer block 大致是: \[x \rightarrow \text{Attent
阅读全文
posted @ 2026-06-01 21:58 wljss
阅读(11)
评论(0)
推荐(0)
2026年5月31日
注意力机制 MHA、MQA和GQA
摘要: 本文结合chatgpt生成 1. MHA:Multi-Head Attention,多头注意力 标准多头注意力里,每个 head 都有自己独立的 Q、K、V 投影。 假设: hidden size = d_model head 数 = h 每个 head 维度 = d_head 通常 d_model
阅读全文
posted @ 2026-05-31 14:52 wljss
阅读(16)
评论(0)
推荐(0)
2026年5月30日
大模型的归一化
摘要: 本文结合chatgpt生成 大模型里说“归一化”,通常不是指一种东西,而是几类操作。对 Transformer/LLM 来说,最核心的是 LayerNorm / RMSNorm 以及它们放在残差结构中的位置。 1. LayerNorm:最经典的 Transformer 归一化 LayerNorm 是
阅读全文
posted @ 2026-05-30 21:22 wljss
阅读(10)
评论(0)
推荐(0)
2026年5月26日
KV Cache
摘要: 本文结合gemini-3.1-pro-preview生成。 简单来说,KV Cache 是一种空间换时间的推理加速技术,它只在模型生成文本(推理阶段)时使用,目的是避免重复计算。 痛点:为什么要搞个 Cache? 大语言模型(如 GPT、LLaMA)生成文本的方式叫自回归(Autoregressiv
阅读全文
posted @ 2026-05-26 19:44 wljss
阅读(14)
评论(0)
推荐(0)
2026年5月20日
Chinchilla Scaling Law 奇努拉缩放定律
摘要: 本文结合gemini-3.1-pro-preview&豆包生成。 用一句话概括 Chinchilla 定律就是:在给定的算力预算下,要想训练出表现最好的模型,模型的“参数量(N)”和“训练数据量(D)”应该保持同等比例的增长。(通常的经验法则是:Token数大约是参数量的 20 倍)。 一、 故事背
阅读全文
posted @ 2026-05-20 18:21 wljss
阅读(35)
评论(0)
推荐(0)
2026年5月15日
蔡廷常数与哥德巴赫猜想
摘要: 之前看到的,挺有意思记录一下。 蔡廷常数 蔡廷常数(Chaitin's constant,通常记为 \(\Omega\) ))是算法信息论中的一个数学常数,它代表了一个随机生成的程序在通用图灵机上能够最终停机的概率。 是一个确定的,介于0到1之间的常数。 是一个不可计算的常数。 不存在任何图灵机能输
阅读全文
posted @ 2026-05-15 00:25 wljss
阅读(21)
评论(0)
推荐(0)
2026年4月30日
一些 病态函数
摘要: 本文结合豆包AI生成。 在看一本书时作者提到他很喜欢收集一些比较奇葩的函数,这种函数叫病态函数。有一些他只提到了性质没说具体是什么函数。这里整理一下。 1. 处处连续但处处不可导的函数 代表:魏尔斯特拉斯函数(Weierstrass function) 它是1872年数学家魏尔斯特拉斯构造的里程碑式
阅读全文
posted @ 2026-04-30 18:37 wljss
阅读(34)
评论(0)
推荐(0)
下一页
公告