摘要: 本文结合chatgpt生成。 原始 Transformer:2017 年的起点 《Attention is All You Need》里的 Transformer 不是今天大模型最常见的形态。它最初是一个 Encoder-Decoder 架构,主要用于机器翻译。 核心模块是: \[\text{Att 阅读全文
posted @ 2026-05-19 22:30 wljss 阅读(3) 评论(0) 推荐(0)
摘要: 随便写写记记 罗素茶壶:一个主张的不可证伪性,并不能成为相信它的理由。 爱是一场博弈,必须保持永远与对方不分伯仲、势均力敌,才能长此以往地相依相息。因为过强的对手让人疲惫,太弱的对手令人厌倦。 《简爱》 python函数参数确定 import inspect # 假设你已经完成了model的实例化( 阅读全文
posted @ 2025-10-28 23:26 wljss 阅读(21) 评论(0) 推荐(0)
摘要: 开坑中,欢迎投稿 海盗分金问题 问题 有五个海盗,在海上抢来了一百个金子。五个海盗都很贪婪,他们都希望自己能分得最多的金子,但同时又都很明智。于是他们按照抽签的方法,排出一个次序。首先由抽到一号签的海盗说出一套分金的方案,如果5个人中有50%以上(不含50%)的人同意,那么便依照这个方案执行,否则的 阅读全文
posted @ 2025-02-25 20:56 wljss 阅读(167) 评论(2) 推荐(2)
摘要: 正在学习,开坑中,想到哪写到哪吧 手动管理Claude Code上下文 把计划的其余部分放到 HANDOFF.md 文件中。解释一下你尝试过什么,哪些有效,哪些无效,这样下一个接手的客服人员就可以直接加载这个文件,无需其他操作就能开始并完成这项任务。 转载自:https://www.reddit.c 阅读全文
posted @ 2025-02-13 18:21 wljss 阅读(43) 评论(0) 推荐(0)
摘要: 本人太懒,但是遇到有意思的题又不想放过,所以下面只写思路没有代码。 持续更新中 最大最小 就是问你有多少个区间满足区间最大值是区间最小值的两倍。 乍一看不太可做,实际上是个二分。 枚举左端点,右端点变大的过程中,区间最大值不会变小,区间最小值不会变大,\(\frac{区间最大值}{区间最小值}\)不 阅读全文
posted @ 2021-12-15 15:56 wljss 阅读(161) 评论(1) 推荐(0)
摘要: 2020.6.16 原本以为HEOI取消了,昨天晚上难受了一晚上。QAQ 上午俩某郸一中的人在洛谷上怼了起来,还好我大hsez的人不会这样干。 貌似取消这个事情更加确信了。 但是!在下午3点左右,我们收到了通知 关于HEOI,它SXOI了。 可能这就是复活吧 晚上接到通知,关于HEOI,它HAOI了 阅读全文
posted @ 2020-06-17 11:46 wljss 阅读(616) 评论(2) 推荐(3)
摘要: 暂且先咕着qwq 2020.4.5 上午考试爆炸祭,又是被踩爆的一天,膜拜 \(rank1\) 离殇(为什么我老是念成离骚) . 下午 \(cf\) 讲课自闭祭,深入反思自己为什么这么菜(没有缘由的菜)qaq。 文化课全忘祭,抽时间看看大佬的文化课笔记,发现文化课的东西早就忘的一干二净了5555. 阅读全文
posted @ 2020-04-05 16:51 wljss 阅读(249) 评论(2) 推荐(0)
摘要: 以下为扯淡内容 Waring!:CSP前的题解略微有些不忍直视 血的教训:样例解释不可信 Q:为什么我叫 \(wljss\) ? A:在做某道神奇的字符串题目时rand()出了 \(wljss\),根据拼音你可以叫我 王老吉叔叔/物理竞赛生 以上为扯淡内容 没错,我是 \(wljss\) ,一个很菜 阅读全文
posted @ 2019-10-06 18:25 wljss 阅读(1122) 评论(0) 推荐(3)
摘要: 本文结合chatgpt生成。 Paged Attention 是 vLLM 提出的一个用于 高效管理 Transformer 推理阶段 KV Cache 的机制。它本质上不是一种新的 attention 数学形式,而是一种 KV Cache 的内存管理与访问机制。 1. 背景:推理时最大的瓶颈之一是 阅读全文
posted @ 2026-06-10 16:31 wljss 阅读(5) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 一文讲清 RoPE:为什么“旋转”能让大模型理解位置? 在 Transformer 里,attention 的核心问题是: 当前 token 应该关注哪些 token? 但原始 attention 只看内容相似度,不知道 token 的顺序。比如“猫追狗”和“狗追猫”,t 阅读全文
posted @ 2026-06-06 17:55 wljss 阅读(13) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 现在主流大模型的 FFN 已经从早期的 ReLU/GELU,逐渐演化到 GLU 系列门控激活,尤其是 SwiGLU。 1. 激活函数在大模型里主要出现在哪里? 一个标准 Transformer block 大致是: \[x \rightarrow \text{Attent 阅读全文
posted @ 2026-06-01 21:58 wljss 阅读(11) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 1. MHA:Multi-Head Attention,多头注意力 标准多头注意力里,每个 head 都有自己独立的 Q、K、V 投影。 假设: hidden size = d_model head 数 = h 每个 head 维度 = d_head 通常 d_model 阅读全文
posted @ 2026-05-31 14:52 wljss 阅读(16) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 大模型里说“归一化”,通常不是指一种东西,而是几类操作。对 Transformer/LLM 来说,最核心的是 LayerNorm / RMSNorm 以及它们放在残差结构中的位置。 1. LayerNorm:最经典的 Transformer 归一化 LayerNorm 是 阅读全文
posted @ 2026-05-30 21:22 wljss 阅读(10) 评论(0) 推荐(0)
摘要: 本文结合gemini-3.1-pro-preview生成。 简单来说,KV Cache 是一种空间换时间的推理加速技术,它只在模型生成文本(推理阶段)时使用,目的是避免重复计算。 痛点:为什么要搞个 Cache? 大语言模型(如 GPT、LLaMA)生成文本的方式叫自回归(Autoregressiv 阅读全文
posted @ 2026-05-26 19:44 wljss 阅读(14) 评论(0) 推荐(0)
摘要: 本文结合gemini-3.1-pro-preview&豆包生成。 用一句话概括 Chinchilla 定律就是:在给定的算力预算下,要想训练出表现最好的模型,模型的“参数量(N)”和“训练数据量(D)”应该保持同等比例的增长。(通常的经验法则是:Token数大约是参数量的 20 倍)。 一、 故事背 阅读全文
posted @ 2026-05-20 18:21 wljss 阅读(35) 评论(0) 推荐(0)
摘要: 之前看到的,挺有意思记录一下。 蔡廷常数 蔡廷常数(Chaitin's constant,通常记为 \(\Omega\) ))是算法信息论中的一个数学常数,它代表了一个随机生成的程序在通用图灵机上能够最终停机的概率。 是一个确定的,介于0到1之间的常数。 是一个不可计算的常数。 不存在任何图灵机能输 阅读全文
posted @ 2026-05-15 00:25 wljss 阅读(21) 评论(0) 推荐(0)
摘要: 本文结合豆包AI生成。 在看一本书时作者提到他很喜欢收集一些比较奇葩的函数,这种函数叫病态函数。有一些他只提到了性质没说具体是什么函数。这里整理一下。 1. 处处连续但处处不可导的函数 代表:魏尔斯特拉斯函数(Weierstrass function) 它是1872年数学家魏尔斯特拉斯构造的里程碑式 阅读全文
posted @ 2026-04-30 18:37 wljss 阅读(34) 评论(0) 推荐(0)