会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
行而上
To The Things Themselves
博客园
首页
新随笔
管理
2025年11月8日
Multi-Armed Bandit
摘要: 问题描述 Bandit是一种常见的赌博机器。一般的赌场里的Bandit只有一个臂,你可以付钱来拉一次臂,机器会按照一个概率分布返回奖励。因为这样的机器常让赌徒输得精光,所以被称为“bandit(强盗)”。 数学上,我们考虑一个“Multi-Armed Bandit”的模型,它有\(k\)个臂,当你付
阅读全文
posted @ 2025-11-08 02:11 行而上
阅读(10)
评论(0)
推荐(0)
2025年9月22日
Context Engineering
摘要: 很多人容易小看“prompt engineering”,认为这样的工作只是“调用大模型”而已。事实上随着时代的发展,“调用大模型”完成任务已经悄然成为了软件工程的新范式。相比之下, 传统软件工程只能完成由人事先编写的精确任务,这样的工程代替人完成重复的、机械的劳动,这样的劳动是完全基于某个形式系统框
阅读全文
posted @ 2025-09-22 00:36 行而上
阅读(71)
评论(0)
推荐(0)
2025年8月16日
强化学习03 时序差分方法
摘要: 本文介绍以TD-Learning为基础的model-free强化学习算法。我们用RM算法求解贝尔曼方程出发,介绍时序差分的数学原理。类比对于状态值的求解,得到求解动作值的SARSA算法。把以上算法和策略迭代结合,我们就得到了一种在线的求解最优策略的强化学习算法。通过把RM算法应用到贝尔曼最优化方程的求解,我们得到Q-Learning算法。最后,我们讨论如何用值函数近似的方法来处理状态集过大的问题,介绍著名的DQN算法。
阅读全文
posted @ 2025-08-16 02:39 行而上
阅读(50)
评论(0)
推荐(0)
2025年8月7日
测度论02 勒贝格积分
摘要: 本文介绍勒贝格积分的定义与性质。首先定义非负函数的勒贝格下和,通过其上确界定义勒贝格积分。接下来证明了单调收敛定理,以及如何用简单函数逼近。随后定义一般的实值函数的勒贝格积分。最后讨论积分与极限交换的条件,证明Egorov定理、有界收敛定理和控制收敛定理。
阅读全文
posted @ 2025-08-07 03:11 行而上
阅读(112)
评论(0)
推荐(0)
2025年8月5日
强化学习02 蒙特卡洛方法
摘要: 本文介绍蒙特卡洛方法。当概率模型不是已知的时候,可以用采样代替建模,这就是蒙特卡洛方法。为了提高效率,可以在分配策略时采用epsilon-greedy的方法。最后我们介绍随机近似,引入RM算法和随机梯度下降,作为之后的强化学习算法的数学基础。
阅读全文
posted @ 2025-08-05 06:20 行而上
阅读(92)
评论(0)
推荐(0)
2025年8月3日
强化学习01 贝尔曼方程
摘要: 本文首先定义马尔可夫决策过程,然后给出给定策略时计算状态值函数的贝尔曼方程。基于此,给出计算最优策略的贝尔曼最优化方程,可以证明该方程有唯一解,且该解就是最优决策。最后,简要地比较计算最优决策的两种算法:值迭代与策略迭代。
阅读全文
posted @ 2025-08-03 09:25 行而上
阅读(90)
评论(0)
推荐(0)
2025年8月2日
狭义相对论
摘要: 本文介绍爱因斯坦的狭义相对论。首先介绍相对性原理,指出引入光的现象时经典力学的伽利略变换失效。为了保持相对性原理,推导出洛伦兹变换。接着讨论洛伦兹变换下时间与空间的特性,包括长度、同时性与时间间隔的相对性。接着由洛伦兹变换给出相对论下质量的定义,基于质量的新定义讨论相对论下的能量。最后,我们在四维空间中把时间与空间统一起来。
阅读全文
posted @ 2025-08-02 08:38 行而上
阅读(191)
评论(0)
推荐(0)
2025年7月21日
数理逻辑06 哥德尔不完全性定理
摘要: 本文详细证明哥德尔第一不完全性定理和第二不完全性定理。为了更精确地描述形式证明,首先引入寄存器机模型,定义可枚举性和可判定性。定义停机问题,并证明停机问题不可判定。接下来证明一阶逻辑永真式和可满足式的不可判定性。然后证明自然数算术的不可判定性,完成第一不完全性定理的证明。最后定义允许表示,用构造自指命题的方法给出一个不可证的自然数算术真命题,完成第二不完全性定理的证明,并说明如何把哥德尔不完全性定理推广到一般数学上。
阅读全文
posted @ 2025-07-21 08:20 行而上
阅读(176)
评论(0)
推荐(0)
2025年7月16日
数理逻辑05 一阶逻辑的表达能力
摘要: 本文首先引入紧性定理和勒文海姆斯科伦定理作为一阶逻辑表达能力研究的重要工具。然后定义初等类和初等等价,证明任何无穷模型都有与之初等等价但不同构的模型,称为非标准模型。以自然数算数为例, 我们证明存在可数无穷大的自然数算数的非标准模型。接着我们引入二阶逻辑,证明用二阶逻辑写出的皮亚诺公理能把自然数算数模型刻画到同构。而我们又证明二阶逻辑没有完备性,可见逻辑系统的表达能力和完整性是对立的。最后我们讨论数学的根基,引出下一节要讨论的形式化方法的局限性。
阅读全文
posted @ 2025-07-16 10:10 行而上
阅读(54)
评论(0)
推荐(0)
2025年7月15日
数理逻辑04 哥德尔完备性定理
摘要: 本文证明基于一阶逻辑语言的相继式演算的完备性。首先定义一致性,证明完备性等价于一致性能推出可满足性。接下来,引入term interpretation,证明一致的公式集在满足contain witness与negation complete的前提下是可满足的(Henkin's Theorem)。然后我们移除这两条限制,证明符号集可数时完备性成立。最后证明符号集不可数时完备性也成立,从而完成整个完备性的证明。
阅读全文
posted @ 2025-07-15 02:48 行而上
阅读(167)
评论(2)
推荐(0)
数理逻辑03 形式化证明
摘要: 上一节我们已经知道如何通过一阶逻辑语言形式化“数学命题”。现在我们想要形式化“数学证明”的概念。我们首先给出相继式演算的定义,说明如何用相继式演算书写形式化证明。然后我们验证相继式演算的可靠性,说明形式化证明一定是数学事实上可靠的。
阅读全文
posted @ 2025-07-15 02:47 行而上
阅读(146)
评论(0)
推荐(0)
数理逻辑02 一阶逻辑
摘要: 一阶逻辑是形式化描述数学定理与证明的一套形式语言,原则上可以表达当今世界上的所有数学定理。本文定义一阶逻辑要满足的语法规则,定义如何为一阶逻辑语言赋予实际语义,并列举了一些由语法和语义的定义所引发的重要概念和事实。
阅读全文
posted @ 2025-07-15 02:46 行而上
阅读(153)
评论(0)
推荐(0)
数理逻辑01 命题逻辑
摘要: 命题逻辑是最基本的逻辑系统。本文首先定义命题逻辑的字母表、语法、语义,然后给出永真式、矛盾式、可满足性、语义后承、语义等价的定义,然后证明一系列语义的性质,最后讨论命题逻辑符号的功能完全性。
阅读全文
posted @ 2025-07-15 02:45 行而上
阅读(64)
评论(0)
推荐(0)
2025年6月9日
拓扑学03 商拓扑
摘要: 粘合空间(Identification Space) 莫比乌斯环 还记得如何制作一个莫比乌斯环吗?只需把一张矩形纸片的对边反方向粘起来。也即,对于矩形\(ABCD\),我们让\(AB\)和\(CD\)紧贴,其中\(A\)和\(C\)重叠,\(B\)和\(D\)重叠,这样就得到了一个莫比乌斯环。如果我
阅读全文
posted @ 2025-06-09 05:01 行而上
阅读(139)
评论(0)
推荐(0)
2025年6月4日
语言的意义
摘要: 随着科学的发展,哲学研究开始从对本体论、认识论的研究转向对语言本身的研究。物理学以及其它基于物理学的科学构建起了一套理论,这套理论能够很好地描述和检验“物质由什么构成”“思维现象是什么”“生命现象是什么”等问题。然而,还有一些问题是科学尚未给出令人满意的答案的,这些问题同样也是哲学家自古以来追问的:
阅读全文
posted @ 2025-06-04 05:32 行而上
阅读(94)
评论(0)
推荐(0)
2025年5月31日
拓扑学02 连续性
摘要: 开集与闭集(Open Sets & Closed Sets) 对于拓扑空间\((X,\tau_X)\),我们通常把\(\tau_X\)中的元素称为“开集”。我们相应地定义闭集:如果\(S\subseteq X\)满足\(X\setminus S \in \tau_X\),则称\(S\)是\(\tau
阅读全文
posted @ 2025-05-31 03:33 行而上
阅读(213)
评论(1)
推荐(0)
2025年5月29日
拓扑学01 拓扑空间
摘要: 在研究数学时常常会出现这样的现象:人们最先研究一些特殊对象的性质,例如在最先学习算数时我们研究了自然数上的结合律、分配律等,而当向量、矩阵等概念出现之后,人们发现向量和矩阵在运算时也有结构完全相同的结合律、分配律。于是最方便的方法就是把满足这样性质的数学对象抽象出来,命名为一类新的代数结构,例如群、
阅读全文
posted @ 2025-05-29 05:34 行而上
阅读(212)
评论(0)
推荐(0)
2025年5月15日
量子力学02 全同粒子
摘要: 粒子对撞实验\(\newcommand{\l}{\lang}\newcommand{\r}{\rang}\) 我们讨论将两个粒子对撞的实验,这里对撞只涉及静电斥力。对撞后,粒子将以某一随机角度\(\theta\)散射。我们首先选取氦原子核(\(\alpha\)-粒子)与氧原子核对撞,选择两核的质心作
阅读全文
posted @ 2025-05-15 18:33 行而上
阅读(190)
评论(0)
推荐(0)
量子力学01 概率振幅
摘要: 20世纪人们意识到经典力学不足以描述自然界的所有规律。在微小尺度下事物的行为一点也不像我们有着直接经验的任何事物,因为一切人类的直接经验和所有的人类直觉都只适用于大的物体。通过大量的实验和理论的探索,人们建立起了量子力学理论。到目前为止,这套理论在“原子核外”还没有发现例外,因此可以看作自然界最基本
阅读全文
posted @ 2025-05-15 18:32 行而上
阅读(154)
评论(0)
推荐(0)
2025年5月2日
费曼积分法
摘要: Leibniz Integral Rule \(\newcommand{\d}{\text{ d}}\)假设二元函数\(f(x,y)\)连续,可以证明\(I(y)=\displaystyle\int_a^{b}f(x,y)\d x\)连续。连续意味着:\(\lim\limits_{y\to y_0}
阅读全文
posted @ 2025-05-02 03:17 行而上
阅读(152)
评论(0)
推荐(0)
2025年3月7日
测度论01 测度
摘要: 测度论的产生源于人们意识到黎曼积分并不是定义“积分”的最好形式。黎曼可积要求对于积分区间的任意区间划分在每个小区间中任意选择函数值,在小区间长度趋向0时都得到一个确定的积分值。这就导致一些直观上应当可积的函数是黎曼不可积的:例如Dirichlet函数(在有理数取1,无理数时取0)在\([0,1]\)
阅读全文
posted @ 2025-03-07 18:17 行而上
阅读(251)
评论(0)
推荐(0)
2025年2月19日
Schröder-Bernstein定理
摘要: Schröder-Bernstein's Theorem 对任意集合\(A,B\),若\(f: A \to B\)与\(g: B \to A\)都是单射,那么存在\(A\to B\)的双射。 Context 设\(f: A \to B, g: B \to A\)是单射。假设\(A,B\)都是有限集,
阅读全文
posted @ 2025-02-19 01:06 行而上
阅读(187)
评论(0)
推荐(0)
2025年2月17日
大语言模型的基本原理
摘要: 大语言模型(Large Language Models, LLMs)的训练主要分为预训练(pre-training)和后训练(post-training)两个部分。 预训练(Pre-Training) 获取预训练数据集 为了让模型学会语言,首先需要收集大量人类语言的数据。以ChatGPT为例,人们首
阅读全文
posted @ 2025-02-17 01:40 行而上
阅读(750)
评论(0)
推荐(0)
2025年2月5日
λ-calculus的归约
摘要: \(\newcommand{\l}{\lambda}\)在之前的讨论中,我们用等号\(=\)表示“可以演算得到”,并且规定等号具有自反、对称、传递的基本性质。这就意味着,我们不仅可以说\((\l x.xx)N\)能演算得到\(NN\),根据对称性也可以说\(NN\)能演算得到\((\l x.xx)N
阅读全文
posted @ 2025-02-05 01:55 行而上
阅读(81)
评论(0)
推荐(0)
2025年2月3日
λ-calculus与可计算性
摘要: \(\newcommand{\l}{\lambda}\)图灵证明了图灵机可计算的函数等价于由\(\lambda\)-calculus定义的可计算函数。\(\lambda\)-calculus定义的可计算函数就是能用\(\l\)-term表示的函数(从自然数到自然数的映射)。在\(\l\)-calcu
阅读全文
posted @ 2025-02-03 21:17 行而上
阅读(91)
评论(0)
推荐(0)
下一页