摘要: 随便写写记记 罗素茶壶:一个主张的不可证伪性,并不能成为相信它的理由。 爱是一场博弈,必须保持永远与对方不分伯仲、势均力敌,才能长此以往地相依相息。因为过强的对手让人疲惫,太弱的对手令人厌倦。 《简爱》 python函数参数确定 import inspect # 假设你已经完成了model的实例化( 阅读全文
posted @ 2025-10-28 23:26 wljss 阅读(21) 评论(0) 推荐(0)
摘要: 开坑中,欢迎投稿 海盗分金问题 问题 有五个海盗,在海上抢来了一百个金子。五个海盗都很贪婪,他们都希望自己能分得最多的金子,但同时又都很明智。于是他们按照抽签的方法,排出一个次序。首先由抽到一号签的海盗说出一套分金的方案,如果5个人中有50%以上(不含50%)的人同意,那么便依照这个方案执行,否则的 阅读全文
posted @ 2025-02-25 20:56 wljss 阅读(167) 评论(2) 推荐(2)
摘要: 正在学习,开坑中,想到哪写到哪吧 手动管理Claude Code上下文 把计划的其余部分放到 HANDOFF.md 文件中。解释一下你尝试过什么,哪些有效,哪些无效,这样下一个接手的客服人员就可以直接加载这个文件,无需其他操作就能开始并完成这项任务。 转载自:https://www.reddit.c 阅读全文
posted @ 2025-02-13 18:21 wljss 阅读(43) 评论(0) 推荐(0)
摘要: 本人太懒,但是遇到有意思的题又不想放过,所以下面只写思路没有代码。 持续更新中 最大最小 就是问你有多少个区间满足区间最大值是区间最小值的两倍。 乍一看不太可做,实际上是个二分。 枚举左端点,右端点变大的过程中,区间最大值不会变小,区间最小值不会变大,\(\frac{区间最大值}{区间最小值}\)不 阅读全文
posted @ 2021-12-15 15:56 wljss 阅读(161) 评论(1) 推荐(0)
摘要: 2020.6.16 原本以为HEOI取消了,昨天晚上难受了一晚上。QAQ 上午俩某郸一中的人在洛谷上怼了起来,还好我大hsez的人不会这样干。 貌似取消这个事情更加确信了。 但是!在下午3点左右,我们收到了通知 关于HEOI,它SXOI了。 可能这就是复活吧 晚上接到通知,关于HEOI,它HAOI了 阅读全文
posted @ 2020-06-17 11:46 wljss 阅读(616) 评论(2) 推荐(3)
摘要: 以下为扯淡内容 Waring!:CSP前的题解略微有些不忍直视 血的教训:样例解释不可信 Q:为什么我叫 \(wljss\) ? A:在做某道神奇的字符串题目时rand()出了 \(wljss\),根据拼音你可以叫我 王老吉叔叔/物理竞赛生 以上为扯淡内容 没错,我是 \(wljss\) ,一个很菜 阅读全文
posted @ 2019-10-06 18:25 wljss 阅读(1122) 评论(0) 推荐(3)
摘要: 本文结合chatgpt生成 一文讲清 RoPE:为什么“旋转”能让大模型理解位置? 在 Transformer 里,attention 的核心问题是: 当前 token 应该关注哪些 token? 但原始 attention 只看内容相似度,不知道 token 的顺序。比如“猫追狗”和“狗追猫”,t 阅读全文
posted @ 2026-06-06 17:55 wljss 阅读(3) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 现在主流大模型的 FFN 已经从早期的 ReLU/GELU,逐渐演化到 GLU 系列门控激活,尤其是 SwiGLU。 1. 激活函数在大模型里主要出现在哪里? 一个标准 Transformer block 大致是: \[x \rightarrow \text{Attent 阅读全文
posted @ 2026-06-01 21:58 wljss 阅读(5) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 1. MHA:Multi-Head Attention,多头注意力 标准多头注意力里,每个 head 都有自己独立的 Q、K、V 投影。 假设: hidden size = d_model head 数 = h 每个 head 维度 = d_head 通常 d_model 阅读全文
posted @ 2026-05-31 14:52 wljss 阅读(12) 评论(0) 推荐(0)
摘要: 本文结合chatgpt生成 大模型里说“归一化”,通常不是指一种东西,而是几类操作。对 Transformer/LLM 来说,最核心的是 LayerNorm / RMSNorm 以及它们放在残差结构中的位置。 1. LayerNorm:最经典的 Transformer 归一化 LayerNorm 是 阅读全文
posted @ 2026-05-30 21:22 wljss 阅读(8) 评论(0) 推荐(0)
摘要: 本文结合gemini-3.1-pro-preview生成。 简单来说,KV Cache 是一种空间换时间的推理加速技术,它只在模型生成文本(推理阶段)时使用,目的是避免重复计算。 痛点:为什么要搞个 Cache? 大语言模型(如 GPT、LLaMA)生成文本的方式叫自回归(Autoregressiv 阅读全文
posted @ 2026-05-26 19:44 wljss 阅读(13) 评论(0) 推荐(0)
摘要: 本文结合gemini-3.1-pro-preview&豆包生成。 用一句话概括 Chinchilla 定律就是:在给定的算力预算下,要想训练出表现最好的模型,模型的“参数量(N)”和“训练数据量(D)”应该保持同等比例的增长。(通常的经验法则是:Token数大约是参数量的 20 倍)。 一、 故事背 阅读全文
posted @ 2026-05-20 18:21 wljss 阅读(28) 评论(0) 推荐(0)
摘要: 之前看到的,挺有意思记录一下。 蔡廷常数 蔡廷常数(Chaitin's constant,通常记为 \(\Omega\) ))是算法信息论中的一个数学常数,它代表了一个随机生成的程序在通用图灵机上能够最终停机的概率。 是一个确定的,介于0到1之间的常数。 是一个不可计算的常数。 不存在任何图灵机能输 阅读全文
posted @ 2026-05-15 00:25 wljss 阅读(14) 评论(0) 推荐(0)
摘要: 本文结合豆包AI生成。 在看一本书时作者提到他很喜欢收集一些比较奇葩的函数,这种函数叫病态函数。有一些他只提到了性质没说具体是什么函数。这里整理一下。 1. 处处连续但处处不可导的函数 代表:魏尔斯特拉斯函数(Weierstrass function) 它是1872年数学家魏尔斯特拉斯构造的里程碑式 阅读全文
posted @ 2026-04-30 18:37 wljss 阅读(24) 评论(0) 推荐(0)
摘要: 本文结合豆包AI生成。 时间复杂度理论中的核心渐近记号 时间复杂度的记号,本质是用来描述算法运行时间(或空间开销)随输入规模n增长的渐近行为(即n→∞时的增长趋势),核心是忽略常数因子和低阶项,主要关注的是增长量级的差异。 一、核心基础记号 这5个记号是渐近分析的基石,由高德纳(Donald Knu 阅读全文
posted @ 2026-04-26 15:28 wljss 阅读(12) 评论(0) 推荐(0)
摘要: 本文结合豆包AI生成。 想起一个段子,训练一个AI模型让他判断一个学生有没有数学天赋,AI模型全部回答“没有”就能获得超高正确率,这是因为有数学天赋的人极其的稀少。 但是这样显然不是我们需要的AI模型。怎么办呢?怎么解决? 模型躺平的根源在于用 整体准确率(Accuracy) 作为唯一评价指标。当模 阅读全文
posted @ 2026-04-16 17:33 wljss 阅读(22) 评论(0) 推荐(0)