Note -「Discrete Math. & Struct.」“不如在诗稿之中离开地面”
这是 ltr《离散数学与结构》的课程笔记. 其实上学期末就应该发出来, 但当时觉得没记完的东西有点多, 导致笔记不够完美 (指不如雨兔伟大的 lww 笔记). Anyway, 其实大部分内容也是详实易读的, 还是希望能给其他需要品尝 ltr 的小朋友一些帮助. 其中群论部分强烈安利 雨兔伟大的 lww 笔记.
如果你觉得这份笔记内容还不够丰盈, 可以去 https://liutianren.com/discrete/lecture_notes.pdf 下载 "官方" 笔记. 你会发现雨兔是 contributor, 但其实也只是提供了自己的笔记来拼凑完整内容而已. 当然, "官方" 的代价是事无巨细且有点防自学, 我觉得除了第十章和第十一章外你都可以看雨兔的 awa.
第零章 集合论
\(\S0.1\) 朴素集合论速通
老生常谈, 姑作取舍. 只记一些有意思的东西.
命题 0.1.1
证明集合等势: \(\R^\N\sim\R\).
→ Proof. 考虑若 \(S\sim S'\) 而 \(T\sim T'\), 显然 \(S^T\sim S'^{T'}\). 不妨 \(\varphi:S\leftrightarrow S'\), \(\psi:T\leftrightarrow T'\), 则有
那 \(\R^\N\sim(2^\N)^\N\), 已然成立.
定义 0.1.2 (序)
对关系 \(\le\), 但它满足:
(i) \(a\le a\);
(ii) \(a\le b\land b\le c\Ra a\le c\);
(iii) \(a\le b\land b\le a\Ra a=b\), 到此构成偏序关系;
(iv) \(a\le b\lor b\le a\), 到此构成全序关系;
(v) \(\A S\neq\varnothing,~\E a\in S,~\A b\in S,~a\le b\), 到此构成良序关系.
定义 0.1.3 (Dedekind-finite)
称集合 \(S\) Dedekind 有限, 当且仅当 \(\A T\subsetneq S,~T\prec S\).
遗留一些问题:
问题 0.1.4
(a) 若 \(\bigcup_{i=1}^\oo S_i\sim\R\), 是否一定有 \(\E i,~S_i\sim\R\)?
(b) 对 \(S,T\), 是否一定有 \(S\succeq T\lor T\succeq S\)? 进一步说, 集合的势能否被抽象出集合, 它们的比较是否是全序?
(c) 对无穷集 \(S\), 是否有 \(S\sim S\x S\)?
(d) 对 \(S\), 是否一定能够定义其上的良序关系 \(\le\)? (一个不平凡的问题是, \(S=\R\) 时能否证明?)
(e) 若 \(S\succ T\), 是否一定有 \(2^S\succ 2^T\)? 换句话, 若 \(2^T\succeq 2^S\), 是否一定有 \(T\succeq S\)?
(a) 据称是可证明的; 事实上 (b)(c)(d) 都能由选择公理推出; (d) 与选择公理等价, 称为良序公理; (e) 依赖于连续统假设.
我们可以通过补充公理的方式让连续统成立 (例如, 让 \(\N,2^\N,2^{2^\N},\cdots\) 给出所有势) 或者不成立 (例如, 使得存在 \(\N\prec S\prec\R\), 且 \(2^S=\R\)).
第一章 谓词逻辑
\(\S1.1\) 基本语法和语义
定义 1.1.1 (符号表)
符号表 \(\Sigma\) 蕴含如下符号:
- 谓词 \(P_1,P_2,\cdots\) (或 \(P\), \(Q\) 等), \(\bot\);
- 连词 \(\rightarrow\), \(\lor\), \(\land\), \(\leftrightarrow\), \(\lnot\);
- 辅助词 \((\), \()\).
并记 \(\Sigma^*:=\bigcup_{i=1}^\oo\Sigma^i\).
定义 1.1.2 (合法句)
合法句集 \(\u{PROP}\sub\Sigma^*\), 是最小的满足如下条件的集合:
- 原子命题 \(P_i\in\u{PROP}\), \(\bot\in\u{PROP}\);
- 若 \(\varphi,\psi\in\u{PROP}\), \((\varphi\opn{\square}\psi)\in\u{PROP}\), 其中 \(\opn{\square}\in\{\leftrightarrow,\rightarrow,\lor,\land\}\);
- 若 \(\varphi\in\u{PROP}\), \(\lnot\varphi\in\u{PROP}\).
引理 1.1.3
对任意描述于 \(\Sigma^*\) 的命题 \(A\), 若
- 对任意原子命题 \(P\), \(A(P)\);
- 若 \(\varphi,\psi\in\Sigma^*\) 满足 \(A(\varphi)\) 和 \(A(\psi)\), 则 \(A((\varphi\opn{\square}\psi))\);
- 对任意 \(\psi\in\Sigma^*\), 若 \(A(\psi)\), 则 \(A(\lnot\psi)\).
则 \(\A\varphi\in\u{PROP},~A(\varphi)\).
→ Proof. \(\u{PROP}':=\{\varphi\in\u{RPOP}:A(\varphi)\}\) 满足 定义 1.1.2, 因此 \(\u{PROP}'=\u{PROP}\).
接下来考虑对合法句的求值. 形式上:
定义 1.1.4
为定义 \(\u{PROP}\) 上的一个求值 \(F:\u{PROP}\to\Omega\), 我们给出
- \(H_{\u{atomic}}:\{P_1,P_2,\cdots,\bot\}\to\Omega\);
- \(H_{\u{\square}}:\Omega\x\Omega\to\Omega\);
- \(H_{\lnot}:\Omega\to\Omega\).
进而定义
- \(F(P_i)=H_{\u{atomic}}(P_i)\), \(F(\bot)=H_{\u{atomic}}(\bot)\);
- \(F((\varphi\opn{\square}\psi))=H_{\u{\square}}(F(\varphi),F(\psi))\);
- \(F(\lnot\varphi)=H_{\lnot}(F(\varphi))\).
可以观察到, \(F\) 的求值过程等价于对表达式树的分解, 而每个二元运算都附加了括号, 这样的分解是唯一且容易严格定义的.
据此, 我们可以给出赋值 \(v:\u{PROP}\to\{0,1\}\), 它满足 \(v(\lnot\varphi)=1-v(\varphi)\), \(v(\bot)=0\), 以及:
它自然地表达 "任何对原子命题赋真值, 并求出一个语句的真值".
此后, 记 \(\eval\varphi_v=v(\varphi)\).
定义 1.1.5
若 \(\eval{\varphi}_v=1\) 对所有赋值 \(v\) 成立, 则称 \(\varphi\) 为一个重言式 (tautology), 记为 \(\models\varphi\);
若对任意求值 \(v\), 对所有 \(\varphi\in\Gamma\) 有 \(\eval\varphi_v=1\), 则 \([\![\psi]\!]_v=1\), 这记为 \(\Gamma\models\psi\).
命题 1.1.6
若 \(\models\varphi\), 则其原子命题的任意替换都有 \(\models\varphi[\psi/P]\).
→ Proof. 考虑一个新的赋值 \(v'(P_i)=\CAS{v(P_i),&P_i\neq P;\\v(\psi),&P_i=P}\) 即可.
定义 1.1.7
称 \(\varphi\approx\psi\), 当且仅当 \(\varphi\models\psi\) 且 \(\psi\models\varphi\).
\(\S1.2\) 证明
定义 1.2.1 (自然推导法)
给出规则
\[{\varphi\quad \varphi\to\psi\over\psi}~(\rightarrow\u{E}),\quad{\varphi\quad\psi\over\varphi\land\psi}~(\land\u{I}),\\ {\DS{{[\varphi]\over\vdots}\over\psi}\over\varphi\to\psi}~(\to\u{I}),\quad {\varphi\land\psi\over\varphi},{\varphi\land\psi\over\psi}~(\land\u{E}),\\ {\DS{{[\lnot\varphi]\over\vdots}\over\bot}\over\varphi}~(\u{RAA}),\qquad{\bot\over\varphi}(\bot). \]配合
\[\CAS{ \varphi\leftrightarrow\psi &\approx &(\varphi\to\psi)\land(\psi\to\varphi),\\ \varphi\lor\psi &\approx &\lnot(\lnot\varphi\land\lnot\psi),\\ \lnot\varphi &\approx &\varphi\to\bot. } \]
例子 1.2.2
证明 \(\vdash\lnot\lnot P\to P\).
→ Proof.
例子 1.2.3
证明 \(\vdash(P\to Q)\to(\lnot Q\to\lnot P)\) 以及 \(\vdash(\lnot Q\to\lnot P)\to(P\to Q)\).
→ Proof.
在自然归纳法中, 我们需要用一系列证明过程来推出一个结论 (如 \((\to\u{I})\)), System K 则避免了这一点.
定义 1.2.4 (System K)
设 \(\Gamma\), \(\Delta\) 为命题集合, 给出规则 (\(\varphi_1,\varphi_2,\cdots\Ra\psi_1,\psi_2,\cdots\) 语义上表达: 若左侧均成立, 右侧至少一个成立.)
\[{\Gamma\Ra\Delta~(\Delta\subseteq \Gamma)}, \qquad{\Gamma\Ra\Delta,\varphi\over\lnot\varphi,\Gamma\Ra\Delta},\qquad {\varphi,\Gamma\Ra\Delta\over\Gamma\Ra\Delta,\lnot\varphi},\\ {\varphi,\psi,\Gamma\Ra\Delta\over\varphi\land\psi,\Gamma\Ra\Delta},\qquad {\Gamma\Ra\Delta,\varphi\quad\Gamma\Ra\Delta,\psi\over\Gamma\Ra\Delta,\varphi\land\psi},\\ {\Gamma\Ra\Delta,\varphi,\psi\over\Gamma\Ra\Delta,\varphi\lor\psi},\qquad{\varphi,\Gamma\Ra\Delta\quad\psi,\Gamma\Ra\Delta\over\varphi\lor\psi,\Gamma\Ra\Delta},\\ {\varphi,\Gamma\Ra\Delta,\psi\over\Gamma\Ra\Delta,(\varphi\to\psi)},\qquad{\Gamma\Ra\Delta,\varphi\quad\psi,\Gamma\Ra\Delta\over(\varphi\to\psi),\Gamma\Ra\Delta}. \]
同样, 当我们在 System K 中推导出 \(\seq\varphi1t\Ra\psi\), 就认为 \(\seq\varphi1t\vdash\psi\).
对于任何证明系统, 我们自然希望它满足:
- 一致性: 若 \(\Gamma\vdash\varphi\), 那么 \(\Gamma\models\varphi\);
- 完备性: 若 \(\Gamma\models\varphi\), 那么 \(\Gamma\vdash\varphi\).
接下来我们对自然推理系统进行验证.
引理 1.2.5
若 \(\Gamma,\psi\vdash\varphi\), \(\Gamma,\lnot\psi\vdash\varphi\), 那么 \(\Gamma\vdash\varphi\).
定理 1.2.6 (完备性)
若 \(\Gamma\models\varphi\), 那么 \(\Gamma\vdash\varphi\).
→ Proof. 反复使用 引理 1.2.5, 只需要证明所有形如 \(\Gamma,p_1,\underbrace{\lnot p_2,\cdots,p_n}_V\vdash\varphi\) 都能推出即可. 对后面 \(n\) 个原子命题, 已然确定了一个唯一的赋值 \(v\). 若存在某个 \(\psi\in\Gamma\) 使得 \(\eval\psi_v=1\), 我们希望证明 \(V\vdash\psi\) (同理 \(\eval\psi_v=0\) 时希望证明 \(V\vdash\lnot\psi\)).
归纳地证明. 如果 \(\varphi\) 是原子命题, 不妨 \(\varphi=p_i\), 则:
- 若 \(\eval{p_i}_v=1\), \(p_i\in V\), 那么 \(V\vdash p_i\);
- 若 \(\eval{p_i}_v=0,~\lnot p_i\in V\), 那么 \(V\vdash\lnot p_i\).
特别地若 \(\varphi=\bot\), \(\eval\bot_v=0\), 显然 \(V\vdash\bot\to\bot\).
否则, \(\varphi\) 不是原子命题, 不妨 \(\varphi=\psi_1\to\psi_2\), 讨论:
- 若 \(\eval\varphi_v=1\), \(\eval{\psi_1}=0\), 归纳知 \(V\vdash\psi_1\to\bot\), 假设 \([\psi_1]\), 推出 \(\bot\) 爆炸出 \(\psi_2\) 并引入 \(\psi_1\) 可知 \(V\vdash\psi_1\to\psi_2\).
- 若 \(\eval\varphi_v=1\), \(\eval{\psi_2}=1\), 更容易的.
- 若 \(\eval\varphi_v=0\), 同样讨论 \(\eval{\psi_1}_v=1\) 或者 \(\eval{\psi_2}_v=0\) 即可.
在自然推理系统中去掉 RAA (并将 \(\lor\) 加入为符号), 我们得到直觉逻辑. 它事实上与如下模型一致:
定义 1.2.7 (Kripke Model)
给定一族世界 \((W,\le)\), 其中 \(\le\) 是世界上的偏序. 有赋值 \(v:W\x\text{atomic PROP}\to\{0,1\}\), 满足
\[W_1\le W_2\Ra v(W_1,\cdot)\le v(W_2,\cdot),\quad v(\cdot,\bot)=0, \]而 \(v:W\x\text{PROP}\to\{0,1\}\) 有
\[v(W,\varphi\to\psi)=\CAS{ 1,&\A W'\ge W,~v(W',\varphi)\ge (W',\psi);\\ 0,&\text{otherwise}. } \]对 \(\varphi\in\text{PROP}\), 我们称 \(F_i\varphi\) (语义: \(\varphi\) 能被推出), 当且仅当
\[\A (W,\le),v,~\A w\in W,~v(w,\varphi)=1. \]
考虑世界集 \(\{W_0\le W_1\}\), \(v(W_0,p)=0\), \(v(W_1,p)=1\), 这样可以推出 \(v(W_0,\lnot\lnot p\to p)=0\), 这样就能说明直觉逻辑无法推出这个命题.
直觉逻辑与类型还有强相关性. 我们将命题视作类型, "推出" 就称为一种实例的构造. 例如:
相当于给定 \(p:P\) 和 \(f:P\to Q\), 我们就能构造出 \(f(p):Q\). 再如, \(P\to((P\to\bot)\to \bot)\) 就可以视作函数
爆炸规则 \(\bot\to P\) 也就是一个空函数 (总是能够构造出来). 但是 RAA 就无法推出, 因为我们需要做到
但只给出了 \(f:(P\to\bot)\to\bot\), 事实上无法从此构造出 \(P\) 的实例.
例如, 我们希望构造类型 \(f:(P\to S)\land(Q\to S)\to(P\lor Q\to S)\). \(P\lor Q\) 可以视作 union type, \(P\land Q\) 可以视作 pair type. 那么:
def f(p):
u, v = p
def g(x):
return u(x) if type(x) == P else v(x)
return g
就是目标.
第二章 一阶逻辑
\(\S2.1\) 语义语法
定义 2.1.1 (词表)
常量;
变量 \(x\), \(y\), \(z\) 或 \(x_1\), \(x_2\), \(\cdots\);
函数 \(f\), \(g\), \(h\) 或 \(f_1\), \(f_2\), \(\cdots\);
谓词 \(\bot\), \(=\), \(P\), \(Q\) 或 \(P_1\), \(P_2\), \(\cdots\);
连接词 \(\land\), \(\lor\), \(\to\), \(\lnot\), \(\leftrightarrow\);
辅助词 \((\), \()\), \(,\);
量词 \(\A\), \(\E\).
定义 2.1.2 (term)
定义集合 \(\u{TERM}\) 是符合以下要求中最小的:
- 任何常量 \(c\in\u{TERM}\), 任何变量 \(x\in\u{TERM}\);
- 如果 \(t_1,t_2,\cdots\in\u{TERM}\), 则对任何函数 \(f\), \(f(t_1,t_2,\cdots)\in\u{TERM}\).
定义 2.1.3 (formula)
定义集合 \(\u{FOR}\) 是符合以下要求中最小的:
- 任何 \(P\) 和 terms \(t_1,t_2,\cdots\), \(P(t_1,t_2,\cdots)\in\u{FOR}\);
- 对任意 \(\varphi,\psi\in\u{FOR}\), \(\lnot\varphi,\varphi\to\psi,\varphi\leftrightarrow\psi,\varphi\land\psi,\varphi\lor\psi\in\u{FOR}\);
- 对任意 \(\varphi\in\u{FOR}\) 和变量 \(x\), \((\A x~\varphi),(\E x~\varphi)\in\u{FOR}\).
在语义方面, 我们先定义结构:
定义 2.1.4 (structure)
一个结构是元组:
\[\mathscr A=\br{\begin{array}{cccc} \u{Universe} & \u{Function} & \u{Predicate} & \u{Constant}\\ \Omega & f:\Omega^n\to\Omega & P\subseteq\Omega^n & a_1,a_2,\cdots\in\Omega \end{array}}. \]
例如, \(\mathscr A=(\R;\x,\opn{inv};=,<;0,1)\), 称它的类型为 \(\lang 2,1;2,2;2\rang\), 它描述了一个怎样的逻辑系统能够与此结构产生语义对应. 设函数 \(f\in\mathscr A\) 在这样的逻辑系统中对应符号 \(\ol f\), 我们也能引入求值. 对于 \(t\in\u{TERM}\):
对于 \(\varphi,\psi\in\u{FOR}\):
特别地, 对于量词:
接下来考察对变量的替换行为.
定义 2.1.5 (free/bounded variables)
以 \(\opn{V}(t)\) 表示 \(t\in\u{TERM}\) 中的所有变量集合, 以 \(\opn{FV}(\varphi)\) 表示 \(\varphi\in\u{FOR}\) 中所有自由变量的集合, 满足
- \(\varphi=P(t_1,t_2)\) 时, \(\opn{FV}(\varphi)=\opn{V}(t_1)\cup\opn{V}(t_2)\);
- \(\opn{FV}(\varphi\opn{\square}\psi)=\opn{FV}(\varphi)\cup\opn{FV}(\psi)\);
- \(\opn{FV}(\u Q x~\varphi)=\opn{FV}(\varphi)\setminus\{x\}\).
定义 2.1.6 (替换规则)
以 \(\varphi[t/x]\) 记 "在 \(\varphi\) 中将所有变量 \(t\) 替换为 \(x\)" 的语义, 定义为:
- \(\varphi=P(t_1,t_2)\) 时, \(\varphi[t/x]=P(t_1[t/x],t_2[t/x])\), 这里 \(t\) 对 \(x\) 一定是自由的;
- \((\varphi\opn{\square}\psi)[t/x]=\varphi[t/x]\opn{\square}\psi[t/x]\), 要求 \(t\) 在 \(\varphi\) 和 \(\psi\) 中对 \(x\) 都是自由的.
- \((\u Qx~\varphi)[t/x]=\u Qx~\varphi\);
- \((\u Qy~\varphi)[t/x]=\u Qy~\varphi[t/x]\), 要求 \(x\in\opn{FV}(\varphi)\) 或者 [\(t\) 在 \(\varphi\) 中对 \(x\) 自由且 \(y\notin\opn{V}(t)\)].
然后研究对命题的推导.
定义 2.1.7
对结构 \(\mathscr A\) 和 \(\varphi\in\u{FOR}\), 定义 \(\models\):
- 若 \(\u{FV}(\varphi)=\varnothing\), \(\mathscr A\models\varphi\) 当且仅当 \(\eval\varphi_{\mathscr A}=1\);
- 若 \(\opn{FV}(\varphi)\neq\varnothing\), \(\mathscr A\models\varphi\) 当且仅当 \(\mathscr A\models(\A x_1~\A x_2~\cdots~\A x_n~\varphi)\);
- 若对所有 \(\varphi\in\Gamma\) 有 \(\mathscr A\models\varphi\), 则称 \(\mathscr A\models\Gamma\);
- 称 \(\models \varphi\), 当且仅当对所有相同类型的 \(\mathscr A\) 都有 \(\mathscr A\models \varphi\);
- 称 \(\Gamma\models\varphi\), 当且仅当 \(\mathscr A\models\Gamma\) 给出 \(\mathscr A\models\varphi\).
对于结构, 我们给出公理:
公理 2.1.8
(i) \(\A x~x=x\);
(ii) \(\A x~\A y~x=y\to y\to x\);
(iii) \(\A x~\A y~\A z~(x=y\land y=z)\to(x=z)\);
(iv) 公理模式:
\[\A x_1~\cdots~\A x_n~\A y_1~\cdots~\A y_n~\bigwedge_{i=1}^n(x_i=y_i)\to t(\seq x1n)=t(\seq y1n),\\ \A x_1~\cdots~\A x_n~\A y_1~\cdots~\A y_n~\bigwedge_{i=1}^n(x_i=y_i)\to (\varphi(\seq x1n)\leftrightarrow\varphi(\seq y1n)). \]
例如, 考虑结构 \((\Omega;\varnothing;=;\varnothing)\), 考虑公式
它们事实上分别给出 \(|\Omega|\ge n\) 和 \(|\Omega|<n\).
再如我们熟知的 Peano 算数:
例子 2.1.9 (Peano)
定义结构 \((\N;+,\cdot,S;=;0,1)\), 满足公理 \(\u{PA}\):
(i) \(\A x~\lnot(S(x)=0)\).
(ii) \(\A x~\A y~S(x)=S(y)\to x=y\);
(iii) \(\A x~\A y~x+S(y)=S(x+y)\);
(iv) \(\A x~\A y~x\cdot S(y)=x\cdot y+x\);
(v) \(\A x~\A y~\A z~(x+y)\cdot z=x\cdot z+y\cdot z\);
(vi) \(\A x~\A y~\A z~x\cdot (y+z)=x\cdot y+x\cdot z\);
(vii) \(\A x~x+0=0\);
(viii) \(\A x~x\cdot 1=x\);
(ix) 公理模式: \((\varphi(0)\land(\A x~\varphi(x)\to\varphi (S(x))))\to (\A x~\varphi(x))\).
回到自然推理. 当 \(\Gamma\vdash\varphi(x)\) 对所有 \(x\notin\opn{FV}(\psi\in\Gamma)\) 都成立时, \(\Gamma\vdash\A x~\varphi(x)\), 即
也有
此外可以将 \(\E\) 视作 \(\lnot\A\lnot\).
上面的 \(=\) 公理也有
例如, 证明 \(\u{PA}\vdash\A x~0+x=x\). 令后者为 \(\varphi(x)\). 那么
(省略了部分 \(\u{IR}_x\) 的使用.)
定理 2.1.10
若公理集 \(\Gamma\) 是相容的, 即 \(\Gamma\not\vdash\bot\), 则存在结构 \(\mathscr A\), 使得 \(\mathscr A\models\Gamma\).
定义 2.1.11
对闭语句 (不含自由变量) 集 (称为定理集) \(T\), 若 \(T=\{\text{closed}~\varphi:\Gamma\vdash\varphi\}\), 则称 \(\Gamma\) 是 \(T\) 的公理集.
定义 2.1.12
称定理集 \(T\) 是 Henkin 定理, 当且仅当对所有 \((\E x~\varphi(x))\in T\), 存在一个常量符号 \(c\), 使得 \(\varphi(c)\in T\).
定义 2.1.13
称定理集 \(T'\supseteq T\) 是 \(T\) 的保守扩张, 当且仅当对 \(T\) 对应的语言 \(L\), 有 \(T'\cap L=T\). 即 \(T'\) 不会在 \(T\) 已有的记号下引入新定理.
定理 2.1.14
对任意定理集 \(T\) 和对应语言 \(L\), 存在其保守扩张 \(T^*\) 和对应语言 \(L^*\), 使得 \(T^*\) 是 Henkin 定理.
→ Proof. 直接构造, 对所有 \((\E x~\varphi(x))\in L\), 引入常量符号 \(c_\varphi\in L^*\), 引入公理 \((\E x~\varphi(x)\to\varphi(c_\varphi))\in T^*\), 据此得到 \(T^*\).
先证明, \(T,(\E x~\varphi(x)\to\varphi(c_\varphi))\vdash\psi\in L\) 给出 \(\psi\in T\). 通过符号替换, 只需要说明 \(T\vdash(\E x~\varphi(x)\to\varphi(y))\to\psi\), 其中 \(y\in L\). 由此依次反推 \(T\vdash\A y~(\E x~\varphi(x)\to\varphi(y))\to\psi\), \(T\vdash (\E y~(\E x~\varphi(x)\to\varphi(y)))\to\psi\) 和 \(T\vdash(\E x~\varphi(x)\to\E y\varphi(y))\to\psi\), 这就给出 \(T\vdash\psi\).
现令 \(T_0=T\), \(T_1=T_0^*\), ..., \(T_\eps=\bigcup_{i=0}^\oo T_i\). 这就给出目标.
→ Proof @ 2.1.10 取 \(T\) 对应的 \(T_\eps\) 和 \(L_\eps\). 定义 \(\Omega:=\{\text{closed term (which has no variable)}~t\in L_\eps\}\), 并定义语义
现在的问题是, 不能保证 \(P\) 和 \(\lnot P\) 至少有一个在 \(T_\eps\) 中. 遍历 (我们暂时认为是至多可数的) 这些 \(P\), 将 \(P\) (或者 \(\lnot P\)) 加入 \(T_\eps\), 由此得到 \(T_\eps^*\). 修改定义:
现在我们需要修正 \(=\). 定义 \(\Omega\) 上的等价关系 \(t_1\sim t_2\) 当且仅当 \((t_1=t_2)\in T_\eps^*\). 最后令 \(\Omega/_\sim\) 为最终的 universe, \(\eval{t}=[t]\) (\(t\) 所在等价类) 即可.
\(\S2.2\) 集合论
集合论中有谓词 \(=\), \(\in\), \(\subseteq\) 等等, 有函数 \(\varnothing\), \(\cap\), \(\cup\), \(\setminus\) 等等. 有公理:
-
外延公理:
\[\A x~\A y~((\A z~z\in x\leftrightarrow z\in y)\to (x=y)). \] -
分离公理模式:
\[\A x~\A w_1~\cdots~\A w_t~\E y~\A z~(z\in y\leftrightarrow(z\in x\land\varphi(z,\seq w1t))). \]这能给出空集 \(\varnothing\) (作为常量符号) 存在, 也能直接定义取交集函数 \(\cap\).
-
配对公理 ("\(z=\{x,y\}\)"):
\[\A x~\A y~\E z~(x\in z\land y\in z). \]取 \(x=y\) 能顺便给出单点集存在, 简记为 \(\{x\}\).
-
并集公理 ("\(y=\bigcup x\)"):
\[\A x~\E y~\A z~\A w~((w\in z\land z\in x)\to w\in y). \]配对公理和并集公理配合可以给出去并集函数 \(\cup\); 另外, 上两条公理其实只保证了 "目标集合的超集存在", 但我们可以用分离公理模式给出目标.
-
幂集公理 ("\(y=2^x\)"):
\[\A x~\E y~\A z~(z\subseteq x\to z\subseteq y),\quad z\subseteq x:=\A w~(w\in z\to w\in x). \] -
无穷公理 ("\(\E\N\)"):
\[\E N~(\varnothing\in N\land (\A y~(y\in N\to(y\cup\{y\})\in N))). \] -
替换公理模式 ("\(B=f(A)\)"):
\[(\A A~\A w_1~\cdots~\A w_t~(\A x~(x\in A\to\E!y~\varphi(y,x,\seq w1t))))\\ \to (\E B~(\A x~x\in A\to\E y~(\varphi(y,x,\seq w1t)\land y\in B))), \\ \E! y~\varphi(y)\leftrightarrow \E y~(\varphi(y)\land (\A z~(\varphi(z)\to z=y))). \] -
正则公理:
\[\A x~(x\neq\varnothing\to\E y~(y\in x\land x\cap y=\varnothing)). \] -
选择公理:
\[\A S~((\A x~x\in S\to x\neq\varnothing)\land (\A x~\A y~(x\in S\land y\in S)\to x\cap y=\varnothing))\\ \to (\E T~\A x~(x\in S\to\E! y~y\in x\cap T)). \]
接下来引入一些常见的简记. 定义序对 \((x,y):=\{\{x\},\{x,y\}\}\), 再定义笛卡尔积 \(S\x T:=\{(x,y):x\in S\land y\in T\}\) (通过并集, 幂集等公理验证其存在), 这样就能定义关系 \(R\subseteq S\x T\), \(aRb:=(a,b)\in R\), 进一步定义函数关系 \(\A a~\E! b~aRb\).
接下来我们研究集合公理系统的完备性.
定理 2.2.1 (Gödel 不完备性)
存在集合公理系统下的命题 \(\varphi\), \(\varphi\) 无法被证明也无法被证伪.
→ Proof. 沿用公理系统下的 Peano 整数, 任给出对字母表的编码, 例如
采用 \(100\) 进制, 拼接符号得到字符串编码 (但我还是觉得素数编码更舒服), 设 \(\ul{\varphi}\) 表示 \(\varphi\) encode 出的自然数. 由此容易定义 \(\u{TERM}\) 的编码集合 \(\ul{\u{TERM}}\). 接下来定义可证明的集合 \(\ul{\u{PROV}}\), 后续的构造你应该在各种科普里熟悉了, 且比较的 dirty, 略去.
→ Proof 2nd. 或者, 考虑图灵机 \(\u{Verifier}(\ul\varphi,\u{proof})\to\{\u{accept},\u{reject}\}\), 假设这台图灵机是完备的, 即真命题存在 \(\u{proof}\), 假命题不存在 \(\u{proof}\), 那么可以构造图灵机 \(\u{Test}(\ul{\varphi})\):
而我们可以用 \(\varphi\) 描述任意图灵机在任意输入下会停机这一命题, 进而得到停机问题的判定器, 但停机问题是不可判定的.
第三章 初等数论
本章起, 我们自由地使用一阶逻辑符号而只把它们视为自然语言的简写. (人话: 不魔怔了.)
\(\S3.1\) 基本符号与性质
抄点啥笔记呢? 看看二次剩余吧家人们.
定义 3.1.1
称 \(r\) 是一个模 \(p\) 的二次剩余, 当且仅当存在 \(x\) 使得 \(r\equiv x^2\pmod p\).
有一个明显的必要条件: 因为 \(x^{p-1}\equiv 1\), 所以必须有 \(r^{\frac{p-1}{2}}\equiv 1\). 令 Legendre 记号
注意到 \(x^{p-1}-1=\prod_{\alpha\in\Z_p^*}(x-\alpha)\equiv 0\), 而 \(x^{p-1}-1=(x^{\frac{p-1}{2}}-1)(x^{\frac{p-1}{2}}+1)\), 所以每个 \(x-\alpha\) 都恰好是左侧或右侧的因式, 也即是它们中某个的根:
而我们已知 \(x\mapsto x^2\) 是二对一的, 所以 \(\alpha^{\frac{p-1}{2}}\equiv 1\) 这一半就是二次剩余.
第四章 群论
只在 lww 笔记的基础上补充一些内容.
\(\S4.1\) 群同态
定理 4.1.1
对任意 \(H,K\le G\), 有
\[|HK|=\frac{|H||K|}{|H\cap K|}. \]
→ Proof. 令 \(I=K\cap H\) 是群, 记 \(H/I\) 表示 \(I\) 在 \(H\) 的左陪集集合, 考虑映射
它是单射: \(kH=k'H\) 给出 \(k'^{-1}k\in K\cap H\), 则 \(kI=k'I\). 它也自然是满射.
接下来见 lww 笔记 11.9.4~11.9.6.
定理 4.1.2
若 \(K\nsubg G\), \(H\le G\), 则已知 \(K\cap H\nsubg H\), 且
\[H/(K\cap H)\simeq HK/K. \]
→ Proof. 考虑 \(\varphi:H\to G/K,~h\mapsto hK\), 它商掉 \(\ker\varphi\) 并诱导出的 \(\ol{\varphi}\) 就是需要的同构.
定理 4.1.3
若 \(H\nsubg G\), \(K\nsubg G\), \(H\le K\), 则
\[K/H\nsubg G/H \]且
\[G/K\simeq(G/H)/(K/H). \]
→ Proof. 考虑 \(f:G/H\to G/K,~gH\mapsto gK\), 它的 kernel
定理 4.1.4
对任意有限生成的 Abel 群 \(G\), 有
\[G\simeq \Z\x\cdots\x\Z\x\Z_{n_1}\x\cdots\x\Z_{n_t}. \]
→ Proof. (事实上, 可以令标量乘法 \(\x:\Z\to G\to G,~n\mapsto g\mapsto g+\cdots g\), 这样 \(G\) 是有限生成的 \(\Z\)-模, \(\Z\) 是 PID, 定理给出的就是结构定理.)
设 \(G\) 可由 \(t\) 个元素生成, 且所有由 \(<t\) 个元素生成的子群满足了定理. 考虑 \(f:\Z^t\to G,~(\seq c1t)\mapsto c_1a_1+\cdots c_ta_t\), 取绝对值之和最小的非 \(0\) 的 \((\seq c1t)\in\ker f\), 断言: 可以适当取生成元, 使得 \(c\) 中只有一个数非 \(0\).
否则, 若 \(|c_1|\ge|c_2|>0\), 现在 \(\lang \seq a1t\rang=G\), \(c_1a_1+\cdots+c_ta_t=0\), 那么
且 \(\lang a_1,a_2+a_1,a_3,\cdots\rang=G\), 这组生成元给出同态 \(f'\), 这样 \((c_1-c_2,c_2,\cdots)\in\ker f'\) 且绝对值减小.
现在, 我们取出了 \((m,0,\cdots)\in\ker f\), 我们知道 \(\ord a_1=m\).
\(\S4.2\) 群作用
定理 4.2.1
设 \(G\actl X\), \(y=gx\in Gx\), 则 \(\Stab_G(y)=g\Stab_G(x)g^{-1}\).
是显然的.
考虑 \(\mathfrak S_n\) 上的共轭作用 \(a:\sigma\mapsto\Ad_\sigma\), 对于 \(\tau\), 它的 \(\mathfrak S_n\)-轨道是所有与之 partition type (轮换分解的轮换大小可重集) 相同的置换. 考虑一般的共轭作用 \(G\actl G,~g\mapsto\Ad_g\) 我们有,
这是因为 \(\Stab_G(x)\backslash G\to Gx,~\Stab_G(x)g\mapsto gx\) 给出双射. 据此有 (lww 11.5.6 及推论)
习惯上, 我们提出中心, 以 \(Z_G(x)\) 记 \(x\) 的中心化子群, 则:
定理 4.2.2
对 \(p\)-群 (\(|G|=p^r\)), \(Z(G)\neq\{1\}\).
→ Proof. 根据上式, \(p^r=|Z(G)|+p(\cdot)\Ra p\mid|Z(G)|\).
定义 4.2.3
称 \(H\le G\) 是一个 \(p\)-Sylow 子群, 当且仅当 \(|H|=p^r\) 且 \(p^{r+1}\nmid|G|\).
定理 4.2.4 (Sylow)
对任意群 \(G\):
(i) 存在 \(p\)-Sylow 子群;
(ii) 对 \(p\)-Sylow 子群 \(P\) 和 \(p\)-子群 \(Q\), 存在 \(g\) 使得 \(Q\le gPg^{-1}\) (推论有: 任意两个 \(p\)-Sylow 子群共轭; \(p\)-Sylow 子群正规当且仅当它唯一);
(iii) 设 \(n_p\) 为 \(p\)-Sylow 子群的个数, \(|G|=p^rm\), 那么 \(n_p\mid m\) 且 \(n_p\equiv 1\pmod p\).
→ Proof. 不妨 \(|G|=p^rm\), 有 \(|G|=|Z(G)|+\sum(G:Z_G(x))\).
(i) 若 \(p\mid Z(G)\), 由 定理 4.1.4, 存在 \(P\simeq\Z_{p^t}\) 和 \(Q\) 使得 \(Z(G)=P\x Q\). 这时 \(|G/P|=p^{r-t}m\), 归纳地, 取它的一个 \(p\)-Sylow 子群 \(S/P\le G/P\), 这样有 \(S\) 满足 \(|S|=p^tp^{r-t}=p^r\), 是 \(G\) 的 \(p\)-Sylow 子群.
若 \(p\nmid Z(G)\), 则必有 \(x\) 使得 \(p\nmid(G:Z_G(x))\), 于是 \(p^r\mid |Z_G(x)|\), 归纳地取出 \(Z_G(x)\) 的 \(p\)-Sylow 子群即可.
(ii) 考虑左平移作用 \(Q\x G/P\to G/P\) (注意这与上一命题的符号有差异), \(p\nmid |G/P|=\sum(Q:\Stab(q_i))\), 所以可以取出一个轨道 \(p\nmid |Q\cdot gP|=|Q/Q'|\), 其中 \(Q'=\{q\in Q:qgP=gP\}=\Stab_Q(gP)\le Q\), 于是 \(Q=Q'\).
(iii) ltr 说下节课讲. 下节课忘了.
第五章 环
初步的环知识可见 lww 笔记 3.1. (在以 "Ring" 称含幺环的文化里, 似乎会把不含幺的环称作 "Rng".) 这里我们认为 Integral Ring (整环) 是不含零因子的环; Integral Domain (整区?) 是无零因子的交换环 (对应 lww 的整环).
\(\S5.1\) 环同态与同构
可见 lww 笔记 3.2. 类似群上的结构, 对于同态 \(f:R\to S\), 我们断言: 能够将 \(\ker f\) 在 \(R\) 中商掉而不丢失同态信息. 交换图如下, \(q\) 是商映射, \(\iota\) 是嵌入.
类似地, 若 \(A\) 是子环, \(I\) 是理想, 可以验证 \(A+I\) 是子环, \(A\cap I\) 是 \(A\) 的理想, 有
若 \(I\sub J\) 都是理想, 有
还有
先来研究 \(\ker f\) 的性质. 对 \(a,b\in\ker f\), 显然 \(f(a)=f(b)=0\Ra f(a+b)=f(ab)=0\). 对任意 \(x\in R\), 也有 \(f(ax)=f(a)f(x)=0\). 于是 \((\ker f,+)\le (S,+)\), 且 \(\A a\in\ker f,~\A x\in R,~\{ax,xa\}\subset\ker f\), 则 \(\ker f\) 是一个理想. 可见 lww 笔记 6.1.
一些环的例子:
- 自同态环. \(M\): Abel 群. 则 \((\End(M),+,\circ,0_{M\to N},\id_{M\to M})\) 是环.
- 函数环. \(R\): 环. \(X\): 集合. 则 \(R^X\) 同上地构成环.
- 多项式环. \(R\): 交换环. 则 \(R[X]\) 是多项式环.
- 群环 \(\DS R[G]:=\l\{\sum_{i}^{\text{finite}}a_ig_i:a_i\in R,g_i\in G\r\}\) (运算即直觉结果). 其中 \(G\) 是半群.
- 循环群环 \(R[\Z_n]\simeq R[X]/(X^n-1)\); \(\R[\N]\simeq R[X]\).
- 四元数环 (可见 lww 笔记 10.8), 这是一个不交换的除环.
对于集合 \(S\sub R\), 记 \((S)\) 为包含 \(S\) 的最小理想, 称为由 \(S\) 生成的理想. 特别地, \(S=\{s\}\) 时, \((s)\) 称为主理想.
明显不存在非平凡理想的交换环是域. 对于不存在非平凡理想的一般环 \(R\), 我们称之为简单环 (或单环). 对于理想 \(I,J\), \(I+J\) 本身就是理想. 注意到 \(IJ:=\l(\l\{ij:i\in I,j\in J\r\}\r)\sub I\cap J\)
称 \(I,J\) 互素, 当且仅当 \(I+J=R\).
命题 5.1.1
对交换环 \(R\), 若 \(I+J=R\), 则 \(IJ=I\cap J\).
→ Proof. 只证 \(I\cap J\sub IJ\). 取 \(a\in I\), \(b\in J\) 使得 \(a+b=1\). 对 \(x\in I\cap J\), 有
对理想 \(I\sub R\), 定义商环 \(R/I=\{a+I:a\in R\}\), 按照定义可以验证它是一个环.
定理 5.1.2 (CRT)
对于交换环 \(R\) 和其若干互素理想 \(\seq I1k\), 有
\[R/I_1\ops\x R/I_k\simeq R/(I_1\cdots I_k). \]
→ Proof. 考虑 \(f:R\to R/I\x R/J,~r\mapsto (r+I,r+J)\), 则 \(\ker f=I\cap J=IJ\), 现希望 \(f\) 是满的. 对于任意 \((r+I,s+J)\), 注意到 (?)
\(\S5.2\) 整环与多项式环的性质
称 \(u\in R\) 是单位, 当且仅当 \(\E u^{-1}\in R,~uu^{-1}=u^{-1}u=1\), \(R^\x\) 表示 \(R\) 的单位集合, 它是 \(R\) 的子环.
对整环 \(R\), 定义分式域 \(\opn{Frac}(R):=R\x (R\setminus\{0\})/\sim\), 其中 \((a,b)\sim(c,d)\Eq ad=bc\).
对整环 \(R\), 明显 \(\char R\) 要不是 \(0\), 要不是素数. 若 \(\char R=0\), 有 \(\Z\sub R\); 若 \(\char R=p\), 有 \(\Z/p\Z\sub R\).
见 lww 笔记 6.1.
定理 5.2.1
若交换环 \(R\) 满足以下两个条件, 则 \(R\) 是唯一分解整环.
- 因子链条件: \(\nexists (a_1,a_2,\cdots),~\A i,~a_{i+1}\mid a_i\land a_i\nmid a_{i+1}\);
- 素性条件: 对任何 \(s\in R\), \(s\) 不可约当且仅当 \(s\) 素.
第六章 域
\(\S6.1\) 基本记号
以 \(K/F\) 记子域 \(F\sub K\), \([K:F]\) 记 \(\dim_FK\), 即 \(K\) 作为 \(F\)-向量空间的维数. 同理环的情况:
定理 6.1.1
对任意有限域 \(F\), \(|F|=p^d\).
→ Proof. 设 \(p=\char F\), 则 \(|F|=|\F_p|^{[F:\F_p]}=p^d\).
定理 6.1.2
对 \(K/E/F\), 有 \([K:F]=[E:F][K:E]\).
→ Proof. 设 \(m=[E:F]\), \(n=[K:E]\), 分别取两个向量空间的基 \(\seq\alpha 1n\in E\) 和 \(\seq \beta 1n\in K\), 我们说明: \((\alpha_i\beta_j)_{ij}\) 是 \(K\) 作为 \(F\) 向量空间的一组基.
对任意 \(u\in K\), 唯一地 \(u=\sum_{i=1}^nc_i\beta_i\), 其中 \(c_i\in E\), 则唯一地 \(c_i=\sum_{j=1}^mb_{ij}\alpha_j\). 这样就验证了基底的性质.
一些例子:
- 对 \(F[X]/(f)\), 显然 \([F[X]/(f):F]=\deg f\).
- 我们常记 \(F(X)=\opn{Frac}(F[X])\), 而 \([F(X):F[X]]=\oo\).
- 若 \(K/F\), \(u\in K\), 则记 \(F(u)\) 表示最小的包含 \(F\) 和 \(u\) 的 \(K\) 的子域.
- 对非平凡 (保持 \(1\mapsto 1\)) 的环同态 \(f:F\to F'\), 其中 \(F\), \(F'\) 也是域, 那么 \(f\) 总是单射. 不然, \(u\in\ker f\setminus\{0\}\), 但 \(uu^{-1}=1\in\ker f\).
扩域
对于 \(K/F\), \(u\in K\), 一方面, 若存在不可约的 \(f\in F[X]\) 使得 \(f(u)=0\), 则有同构 \(F[X]/(f)\simeq F(u)\). 同构可以由环同态 \(\varphi: F[X]\to F(u),~g\mapsto g(u)\) 诱导出, 这里 \(\ker\varphi=(f)\) (否则与 \(f\) 的不可约性矛盾). 此时称 \(u\) 为 \(F\) 的代数数, \(F(u)/F\) 称为代数扩张.
另一方面, 如果不存在这样的 \(f\), 即 \(1,u,u^2,\cdots\) 是 \(F\)-线性无关的, 那么同上的 \(\varphi\) 是整环到域的单同态, 它能诱导出同构 \(F(X)\simeq F(u)\). 此时称 \(u\) 为 \(F\) 的超越数, \(F(u)/F\) 为超越扩张.
例如, \(\C/\R\), \(\Q(\sqrt{p_1},\sqrt{p_2},\cdots)/\Q\) 是代数扩张; \(\R/\Q\), \(\Q(\pi)/\Q\) 是超越扩张.
在 高代 I 作业四 9. 中亦有记载, 尺规作图能够做出的长度能够用从 \(\Q\) 出发的 \(2\) 度扩张达到. 设 \(D_0=\Q\), 如果 \(D_k/\Q(\sqrt[3]{2})\), 那么 \([D_k:D_0]=2^k\) 但是 \([\Q(\sqrt[3]{2}):D_0]=3\), 矛盾, 所以我们不能倍立方体.
分裂域
\(f\in F[X]\) 在 \(K/F\) 分裂, 当且仅当存在 \(\seq\alpha 1d\in K\) 使得 \(f=(X-\alpha_1)\cdots(X-\alpha_d)\). 称 \(K\) 是 \(f\) 的分裂域, 当且仅当 \(f\) 在 \(K\) 分裂且恰好 \(K=F(\seq\alpha 1d)\).
对任意 \(f\in F[X]\), 我们希望说明, 总存在它的分裂域 \(K\). 取不可约的 \(g\mid f\), 考虑扩域 \(F_1:=F[Z]/(g(Z))\), 在这里,
所以 \(f\) 在 \(F_1\) 内可解. 因此 \((X-Z)\mid f(X)\). 接下来再考虑 \(\frac{f(X)}{X-Z}\in F_1[X]\) 的分裂域, 这样, 在不超过 \(\deg f\) 次扩张后, 我们一定能找到 \(f\) 的分裂域.
进一步, 所有 \(f\) 的分裂域是唯一的.
有限域
对任意 \(p^d\), 存在有限域 \(|F|=p^d\). 进一步, 它 up to 同构是唯一的, 可以记作 \(\F_{p^d}\) 或者 \(\opn{GF}(p^d)\).
考虑 \(f=X^{p^d}-X\in \F_p[X]\), 它的形式导数 \(\text Df=p^dX^{p^d-1}-1=-1\), \(\gcd(f,\text Df)=1\), 所以 \(f\) 无重根. 设 \(f\) 的分裂域为 \(K\), 那么
是域 (Fermat 小定理 + 二项式展开容易验证).
设 \(f\in\F_q[X]\) 不可约, \(\deg f=d\), 则在 \(\F_q[X]\) 中 \(f\mid (X^{q^d}-X)\). 这是因为, 在 \(\F_q[X]/(f)\) 中 \(f\) 可解, 设有根 \(f(u)=0\). 那么 \((X-u)\mid f\), 而 \((X-u)\mid(X^{q^d}-X)\), 所以 \(\gcd(f,X^{q^d}-X)\neq 1\), 这在 \(\F_q[X]\) 也成立. 那就只能 \(\gcd=f\).
进一步, 我们有
对于 \(\deg f=d'\) 在 \(\F_q[X]\) 不可约, 有 \(f\mid(X^{q^d}-X)\). 若 \(d'\mid d\), 这给出 \((X^{q^{d'}}-X)\mid (X^{q^d}-X)\). 如果 \(d'\nmid d\), 应当
那么 \(f\) 在 \(\opn{GF}(q^{\gcd(d,d')})\) 分裂, 其次数不超过 \(\gcd(d,d')\), 矛盾.
因式分解
对 \(f\in \F_q[X]\), 我们可以不断检查 \(\gcd(f,\text Df)\) 来求出并消除 \(f\) 的重根, 此后不妨 \(f\) 无重根.
现在, 设 \(f=g_1\cdot g_2\cdot\cdots\), 其中 \(\deg g_1=d_1\), \(\deg g_2=d_2\), 二者不可约. 如果 \(d_1\neq d_2\), 不妨 \(d_1<d_2\), 注意到
所以我们通过计算 \(\gcd\) (在 \(\F_q[X]/(f)\) 上计算 \(X^{q^{d_1}}\) 的快速幂) 可以分离 \(g_1\) 和 \(g_2\).
现在, 设 \(f=f_1\cdot f_2\cdot\cdots\), 其中 \(\deg f_i=d\), 均不可约. 我们知道
在 \(\F_q[X]/(f)\) 上均匀采样一个 \(g\), 它同构地映到 \((g_1,g_2,\cdots)\), 若 \(q\neq 2\), 那么 \(g_1^{\frac{q^d-1}{2}}+1\in\{0,2\}\) (均匀). 为此计算
它就能期望均匀地分开 \(f\) 的各个因式.
\(\S6.2^*\) Galois 理论
定义 6.2.1
称 \(F\le K\) 是一个正规扩张, 若对任意不可约 \(f\in F[X]\), 若 \(f\) 在 \(K\) 有根, 则 \(f\) 在 \(K\) 分裂.
反例如, \(\Q(\sqrt[3]{2})\) 并不正规, 因为 \(X^3-2=(X-\sqrt[3]{2})f\), \(f\) 还是不分裂.
定义 6.2.2
称 \(F\le K\) 是可离扩张, 当且仅当对任意 \(k\in K\), 都存在无重根的 \(f\in F[X]\), 使得 \(f(k)=0\).
定理 6.2.3
\(F\le K\) 是正规扩张, 当且仅当 \(K\) 是某个 $f$
定义 6.2.4
定义对 \(F\) 的 Galois 扩张为正规且可离的 \(F\le K\). \(G:=\opn{Gal}(K/F)\sub\opn{Aut}(K)\) 为保 \(F\) 不变的自同构.
根据定义, 以下是同构:
引理 6.2.5
对于单扩域, 存在 \(\alpha\in K\) 使得 \(K=F(\alpha)\), \(f\) 是 \(\alpha\) 的极小多项式, 那么
\[f=(X-\alpha_1)(X-\alpha_2)\cdots(X-\alpha_r),\quad r=[K:F]. \]则 \(\alpha\mapsto\alpha_i\) 唯一确定 \(g\in\opn{Gal}(K/F)\).
抛砖引玉了后面没了 qwq.
第七章 计数
\(\S7.1\) 生成函数
记录一些不过分常见的 facts.
考虑 EGF, 对 \(s_n=|\mathfrak S_n|\), 有 \(S=\frac{1}{1-x}\), 对 \(c_n=\#\{n\text{-cycle}\}=\frac{1}{(n-1)!}\), 有 \(C=\ln\frac{1}{1-x}\). 这意味着
因此形式的 \(\exp\) 算子给出了 "任意多重组合" 的组合操作.
\(\S7.2\) Burnside 与 Polya
我们知道, 对于群作用 \(G\actl X\), 有记号
以及轨道-稳定子定理: \(|G|=|\Stab_G(x)|\cdot |Gx|\).
引理 7.2.1 (Burnside)
对群作用 \(G\actl X\),
\[|G\backslash X|=\frac{1}{|G|}\sum_{g\in G}|X^g|. \]
→ Proof. 直接计算
例如, 对 \(D_4\actl X=2^{[4]}\),
接下来, 我们取 \(F=C^X\), 其中 \(X\) 意为物品集合, \(C\) 为颜色集合, \(F\ni f:X\to C\) 为一种染色方案. 对一个作用 \(G\actl X\), 我们典范地将它作为 \(G\actl F,~g\mapsto f\mapsto f\circ g\). 此外, 我们定义 \(c(g)\) 为 \(g\) 在 \(G\actl X\) 下的像 (作为 \(\mathfrak S_X\) 的元素) 的轮换数. 容易看出
因此我们复述上述引理得到
定理 7.2.2 (Polya)
对 \(G\actl F\),
\[|G\backslash F|=\frac{1}{|G|}\sum_{g\in G}|C|^{c(g)}. \]
例如, 对 \(F:\Z_n\to C:=[m]\), \(G=\Z_n\), \(ga:=g+_{\Z_n}a\) (即, 一个只能旋转不能翻转的 \(n\) 阶 \(m\) 颜色项链), 那么
我们熟知 \(c(g)=\gcd(g,n)\), 化简之:
当然, Polya 计数能与 GF 结合. 令 \(c_\ell(g)\) 表示 \(g\) 在 \(G\actl X\) 下的像的长为 \(\ell\) 的轮换数, 这允许我们在染色时更细致地对 partition type 描述染色细节. 还是以上文项链为例, 如果我们允许不染色, 令 \(Z_k=m+x^k\), 用 \(Z_\ell^{c_\ell(g)}\) 替换原式中的 \(m^{c_{\ell}(g)}\), 最终 Polya 就能给出 up to \(G\) 的, 染色方案数关于不染色珍珠数量的 GF.
从 GF 出发, 我们又能够通过对 \(x\) 赋值来高效计算一些信息. 例如, 若我们要求只能有偶数个珍珠不染色, 就只需要将 \(x=\pm 1\) 代入, 再使用普通的 Polya 即可.
例如, 我们来做一道喜闻乐见的烷烃计数 (不考虑手性异构). 设 \(n\text{-C}\) 烷烃数的 GF 为 \(R(x)\), 在 \(\alpha\text{-C}\) 处 Burnside (这里也能认为是 GF 版本的 Polya: 令 \(Z_1=R(x)\), \(Z_2=R(x^2)\), \(Z_3=R(x^3)\)), 有
"再往下就不会算了": 指可以 Newton 迭代 with FFT \(\mathcal O(n\log n)\) 地算出 \(R(x)\bmod x^n\). 可见 LOJ #6538.
例如, 考虑 \(\M_{n\x n}(\F)\) 上的共轭关系, 即 \(\opn{GL}_n(\F)\actl\M_{n\x n}(\F),~A\mapsto M\mapsto AMA^{-1}\). Jordan 标准型可以作为 \(\opn{GL}_n(\C)\backslash\M_{n\x n}(\C)\) 的代表元. 而在有限域 \(\F=\F_q\) 上, 我们尝试用 Polya 对共轭矩阵类计数. 以 \(2\x 2\) 矩阵为例
后面需要一些 dirty work. 设 \(M=\pmat{a&b\\c&d}\), \(A=\pmat{e&f\\g&h}\), 硬算可知 \(AM=MA\) 要求了
单独处理 \(0\) 的情况, 做一些容斥讨论就能得到最终结果. 设 \(s=|\opn{GL}_2(\F)|=(q^2-1)(q-1)\), 则:
事实上, \(\M_{2\x2}(\F)\) 的共轭类有代表元
其中 \(X^2+aX+b\in\F[X]\) 不可约: 这是 \(\F\) 作为非代数闭域相较于 \(\C\) 的奇异之处.
第八章 概率
\(\S8.1\) 概率空间初步
定义 8.1.1
设概率空间 \((\Omega,\mathbb P)\), 则 \(X:\Omega\to S\) 是一个随机变量, \(P(x)\) 称为其概率 (质量) 函数, 满足
\[P(x)=\Pr[X=x]=\Pr[X^{-1}(x)]=\sum_{\omega\in X^{-1}(x)}\mathbb P(\omega). \]
作为理解概率空间的例子, 我们考虑 \(\Omega=\{0,1\}^\N\), \(\mathbb P:2^\Omega\to[0,1]\), 我们自然地期待
- \(S\supset T\Ra \mathbb P(S)\ge \mathbb P(T)\);
- \(S\cap T=\varnothing\Ra \mathbb P(S\cup T)=\mathbb P(S)+\mathbb P(T)\);
- \(S_i\cap S_j=\varnothing\Ra \mathbb P\br{\bigcup_i S_i}=\sum_i \mathbb P(S_i)\);
- \(\mathbb P(\varnothing)=0\), \(\mathbb P(\Omega)=1\);
- \(\mathbb P(S)=\mathbb P(S\oplus r)\), 其中 \(S\ni s\oplus r\) 可以视作 \(\F_2\) 向量的加法或者集合的对称差.
然而这样的 \(\mathbb P\) 不存在. 我们考虑 \(\Omega\) 上的等价关系 \(\sim\), \(a\sim b\) 当且仅当 \(|a\oplus b|<\oo\). 构造
这样
这导致 \(\mathbb P(S)\in[0,1]\) 实际上不存在. 我们知道在这样的无穷集上定义概率并不是平凡的.
定义 8.1.2
- 对 (离散) 随机变量 \(X\), 定义其分布函数 \(P_X(x)=\Pr[X=x]\);
- 对随机变量 \(X,Y\), 定义其联合分布函数 \(P_{XY}(x,y)=\Pr[X=x\land Y=y]\);
- 对随机变量 \(X,Y\), 定义其条件分布 (Markov Kernel) \(P_{Y\mid X}(y\mid x)=\Pr[Y=y\mid X=x]\).
容易看出:
以下是一些常见的分布:
| 名称 | 记号 | 概率函数 \(P(x\in\N)\) | 期望 | 方差 | PGF |
|---|---|---|---|---|---|
| Bernoulli 分布 | \(\opn{Bern}(p)\) | \(\CAS{1-p,&x=0\\p,&x=1}\) | \(p\) | \(p(1-p)\) | \(1-p+pz\) |
| 二项分布 | \(\opn{Binom}(n,p)\) | \(\binom{n}{x}p^x(1-p)^{n-x}\) | \(np\) | \(np(1-p)\) | \((1-p+pz)^n\) |
| 均匀分布 | \(\opn{Unif}([n])\) | \([x\in[n]]\frac{1}{n}\) | \(\frac{n+1}{2}\) | \(\frac{(n+1)(n-1)}{12}\) | \(\frac{z(1-z^n)}{n(1-z)}\) |
| 几何分布 | \(\opn{Geom}(p)\) | \(p(1-p)^{x-1}\) | \(\frac{1}{p}\) | \(\frac{1-p}{p^2}\) | \(\frac{pz}{1-(1-p)z}\) |
| 负二项分布 | \(\opn{NBinom}(r,p)\) | \(\binom{r+x-1}{x}p^r(1-p)^x\) | \(\frac{r(1-p)}{p}\) | \(\frac{r(1-p)}{p^2}\) | \(\br{\frac{p}{1-(1-p)z}}^r\) |
| Poisson 分布 | \(\opn{Poisson}(\lambda)\) | \(\frac{\e^{-\lambda}\lambda^x}{x!}\) | \(\lambda\) | \(\lambda\) | \(\e^{\lambda(z-1)}\) |
如果 \(X:\Omega\to S\) 中 \(S\) 可以嵌入 \(\R\)-向量空间, 我们熟知的期望 \(\Ex[X]\) 能够被定义. 常见分布的期望已在上表给出. 以推导几何分布的期望为例:
作为理解期望线性性的例子, 考虑在一个胜率为 \(p=\frac{1}{2}\) 的游戏上采取倍投法下注, 游戏失败则失去下注金, 获胜则取回双倍下注金, 获胜时戒赌. 从第 \(0\) 轮开始, 设随机变量 \(X_n\) 表示第 \(n\) 轮的收益, 明显
有 \(\Ex[X_n]=0\) 但是 \(\Ex\l[\sum_{n=0}^\oo X_n\r]=1\).
接下来考虑方差与协方差 (定义略去). 若 \(X,Y\) 独立, 容易计算
常见分布的方差也已在上表给出. 这里补充负二项分布和 Poisson 分布的性质:
-
负二项分布描述了 "扔出 \(r\) 个正面硬币时反面的个数", \(X\sim\opn{NBinom}(1,p)\Eq X+1\sim\opn{Geom}(p)\).
-
\(\opn{Poisson}(\lambda)=\lin\opn{Binom}\br{n,\frac{\lambda}{n}}\), 可以验证
\[\ALI{ \lin P_{\opn{Binom}}(x) &= \lin\binom{n}{x}\br{\frac{\lambda}{n}}^x\br{1-\frac{\lambda}{n}}^{n-x}\\ &= \lin\frac{\cancel{n^{\ul{x}}}}{x!}\br{\frac{\lambda}{\cancel{n}}}^x\underbrace{\br{1-\frac{\lambda}{n}}^n}_{\sim\e^{-\lambda}}\\ &= \frac{\e^{-\lambda}\lambda^x}{x!}. } \]
定义 8.1.3
对于 \(X:\Omega\to \N\), 我们可以定义其概率生成函数 (PGF) 为
\[G_X(z)=\sum_{x}P_X(x)z^x=\Ex[z^X]. \]
常见分布的 PGF 也已在上表给出. PGF 清晰地给出了 \(\opn{Geom}(p)\) 与 \(\opn{NBinom}(r,p)\) 之间的组合意义.
明显 \(G_X(1)=1\), \(G_X'(1)=\Ex[X]\); \(G_X''(1)+G_X'(1)=\Ex[X^2]\), 这能进一步计算 \(\Var[X]\).
作为使用 PGF 的例子, 我们尝试在投掷 \(p\)-硬币时, 连续出现两个 H 的期望次数, 设其对应随机变量 \(X\). 根据组合意义可以写出
计算 \(\Ex[X]=G_X'(1)\) 即可得到结果.
接下来考虑多变量的情况. 如果 \(X,Y\) 独立, 那么
定理 8.1.4 (全概率公式)
对随机变量 \(X,Y\), 定义 \(f(y):=\Ex[X\mid Y=y]\), 那么 \(\Ex[X\mid Y]:=f(Y)\) 是一个随机变量, 满足
\[\Ex[X]=\Ex[\Ex[X\mid Y]]. \]
设 \(X,Y:\Omega\to\N\), 我们尝试描述 \(Z=X_1+\cdots+X_Y\).
另一个关于 PGF 的 trick 是, 我们可以将它复合上 \(\e^z\), 得到 \(G_X(\e^t)\), 这能方便地给出:
\(\S8.2\) 熵
定义 8.2.1 (熵)
设随机变量 \(X\) 的分布为 \(P_X\), 则定义其熵
\[H[X]=-\sum_xP_X(x)\log P_X(x)=\Ex\l[\log\frac{1}{P_X(X)}\r]. \](我们指定 \(\exp=\log^{-1}\) 但不规定它们的底数.)
以下性质是明显的:
- \(0\le H[X]\le\log|X|\), 其中 \(|X|:=\{x:P_X(x)>0\}\) 为 \(X\) 的支撑集.
- \(X\sim\opn{Unif}(\Omega)\), 则 \(H[X]=\log|\Omega|\).
对 \(X\sim\opn{Bern}(p)\), 我们简记 \(H[X]=h(p)\).
定义 8.2.2 (联合熵, 条件熵)
对随机变量 \(X,Y\), 定义它们的联合熵
\[H[X,Y]=-\sum_{x,y}P_{XY}(x,y)\log P_{XY}(x,y)=\Ex\l[\log\frac{1}{P_{XY}(x,y)}\r]; \]它们的条件熵
\[H[Y\mid X]=\sum_x\Pr[X=x]H[Y\mid X=x]. \]
展开条件熵的式子,
显然
所以 \(H[Y\mid X]\) 直觉上描述了 "去除 \(X\) 所含信息后, \(Y\) 还含有多少信息". 这样就可以发现以下命题:
性质 8.2.3
对随机变量 \(X,Y\), \(H[X\mid Y]\le H[X]\).
→ Proof. 直接计算
Jensen 不等式给出
这个性质导出如下定义:
定义 8.2.4 (互信息)
对随机变量 \(X,Y\), 定义它们的互信息
\[I[X;Y]=H[X]-H[X\mid Y]=H[X]+H[Y]-H[X,Y]=H[Y]-H[Y\mid X]=I[Y;X]. \]
以下性质也都是符合直觉的:
性质 8.2.5
- 对任意函数 \(f:S\to T\) (回忆随机变量 \(X:\Omega\to S\)), 有 \(H[X]\ge H[fX]\).
- 若 \(P_{XYZ}(x,y,z)=P_X(x)P_{Y\mid X}(y\mid x)P_{Z\mid Y}(z\mid y)\), 则 \(I[X;Y]\ge I[X;Z]\).
\(\S8.3\) 散度
对于两个分布 \(P,Q\), 我们希望衡量它们的某种 "差距". 例如一般的统计距离
这里我们介绍散度.
定义 8.3.1 [Kullback-Leibler (KL) Divergence]
对两个分布 \(P,Q\),
\[\ALI{ D(P\parallel Q) &= \sum_xP(x)\log\frac{P(x)}{Q(x)}\\ &=\Ex_{X\sim P}\l[\log\frac{P(X)}{Q(X)}\r]\\ &=\Ex_{X\sim Q}\l[\frac{P(X)}{Q(X)}\log\frac{P(X)}{Q(X)}\r]. } \]特别地, 若 \(|P|\not\subset|Q|\), \(D(P\parallel Q):=+\oo\).
注意 \(D(P\parallel Q)\) 与 \(D(Q\parallel P)\) 不总是相等.
简记 \(D(\opn{Bern}(p)\parallel\opn{Bern}(q))=d(p,q)\).
性质 8.3.2
对 \(P,Q\) 总有 \(D(P\parallel Q)\ge 0\).
→ Proof. \(D(P\parallel Q)=\Ex_{X\sim Q}\l[\frac{P(X)}{Q(X)}\log\frac{P(X)}{Q(X)}\r]\), 令 \(f(x)=x\log x\), 则
性质 8.3.3
\(D(P\parallel\opn{Unif}(\Omega))=\log|\Omega|-H[P]\).
→ Proof. 展开即证.
命题 8.3.4 (条件散度)
设 \(P_{XY}=P_XP_{Y\mid X}\), \(Q_{XY}=Q_XQ_{Y\mid X}\), 定义这两个分布的条件散度
\[D(P_{XY}\parallel Q_{XY})=D(P_X\parallel Q_X)+D\l(\l.P_{Y\mid X}\parallel Q_{Y\mid X}{}\r|{}P_X\r), \]其中
\[D\l(\l.P_{Y\mid X}\parallel Q_{Y\mid X}{}\r|{}P_X\r)=\sum_x D(P_{Y\mid X=x}\parallel Q_{Y\mid X=x})P_X(x). \]
→ Proof. 全 部 展 开.
一方面, 我们知道 \(D(P_{XY}\parallel Q_{XY})\ge D(P_X\parallel Q_X)\). 另一方面, 推广就得到如下链式法则:
性质 8.3.5
\(P,Q\mapsto D(P\parallel Q)\) 是凸的, 即对任意 \(P_0,Q_0,P_1,Q_1\):
\[(1-\lambda)D(P_0\parallel Q_0)+\lambda D(P_1\parallel Q_1)\ge D\l((1-\lambda)P_0+\lambda P_1\parallel(1-\lambda)Q_0+\lambda Q_1\r). \]
→ Proof. 设 \(P_Z=Q_Z=\opn{Bern}(\lambda)\), \(P_{X\mid Z=i}=P_i\), \(Q\) 同理. 注意到
明所欲证.
命题 8.3.6
(i) 设由 \(P_X\) 导出两个分布 \(P_{Y\mid X}\) 和 \(Q_{Y\mid X}\), 设 \(P_Y(y)=\sum_xP_{Y\mid X=x}(y\mid x)P_X(x)\), \(Q_Y\) 同理. 那么
\[D(P_Y\parallel Q_Y)\le D(P_XP_{Y\mid X}\parallel P_XQ_{Y\mid X})=D\l(\l.P_{Y\mid X}\parallel Q_{Y\mid X}\r|P_X\r). \](ii) 设 \(P_X\) 和 \(Q_X\) 用同一个 \(P_{Y\mid X}\) 导出了 \(P_Y\) 和 \(Q_Y\), 那么
\[D(P_X\parallel Q_X)=D(P_XP_{Y\mid X}\parallel Q_YP_{Y\mid X})-\underbrace{D\l(\l.P_{Y\mid X}\parallel P_{Y\mid X}\r|P_X\r)}_{=0}\ge D(P_Y\parallel Q_Y). \]
证明过程已在不等式中写出.
定义 8.3.7 (条件互信息)
对随机变量 \(X,Y,Z\), 定义以 \(Z\) 为条件的条件互信息
\[I(X;Y\mid Z)=H(X\mid Z)+H(Y\mid Z)-H(X,Y\mid Z). \]
\(\S8.4\) 集中不等式
我们关心随机变量偏离其期望一定距离的概率.
定理 8.4.1 (Markov's Bound)
若随机变量 \(X:\Omega\to\R_{\ge 0}\), \(\alpha>1\), 则 \(\Pr[X\ge\alpha\Ex[X]]\le\frac{1}{\alpha}\).
是平凡的.
定理 8.4.2 (Chebyshev's Bound)
若随机变量 \(X:\Omega\to\R\), 则
\[\Pr\l[|X-\Ex[X]|\ge a\r]\le\frac{\Var(X)}{a^2}. \]
→ Proof. 即 \(\Pr[(X-\Ex[X])^2\ge\alpha^2\Var(X)]\le\frac{1}{\alpha^2}\), 这就是 Markov's bound.
例如, 若 \(\seq X1n\sim\opn{Bern}(0.5)\) 两两独立 (注意着不意味着它们完全独立), 设 \(\ol X=\frac{1}{n}\sum_iX_i\), 可以验证 \(\Ex[\ol X]=\frac{1}{2}\), \(\Var(\ol X)=\Theta(n^{-1})\), 利用 Chebyshev's bound 就能给出 \(\ol X\) 偏离 \(\frac{1}{2}\) 的概率约束. 这个约束比下面的 Chernoff's bound 宽松, 但它不依赖于 \(\seq X1n\) 的完全独立性.
定理 8.4.3 (Chernoff's Bound)
若随机变量 \(X:\Omega\to\R\), \(\alpha\in\R\), 则
\[\Pr[X\ge \alpha]\le\min_{t>0}\frac{\Ex[\e^{tX}]}{\e^{t\alpha}}. \]
→ Proof. 这是因为对任意 \(t>0\) 都有
它的一个典型实例就用于估计上文提到的独立同分布的 \(\seq X1n\sim\opn{Bern}(p)\). 有
推论 8.4.4
对独立同分布的 \(\seq X1n\sim\opn{Bern}(p)\), 设 \(q\in(p,1)\), 则有
\[\Pr\l[\sum_{i=1}^n X_i\ge qn\r]\le \exp(-nd(q\mmid p))\le\e^{-2(p-q)^2n}. \]
→ Proof. 选取最合适的 \(t\) 以最小化 \(f(t):=\frac{p\e^t+(1-p)}{\e^{tq}}\) 即可. 计算
令 \(f'(t)=0\), 有
(耐心地) 代回就给出
这给出第一个不等式. 第二个不等式来自 \(d(q\mmid p)\ge (p-q)^2\cdot2\log\e\), 参见 作业九 6.
若独立同分布的 \(\seq X1n\sim\opn{Bern}(0.5)\), 我们能感受到 \(X:=\sum_iX_i\approx\opn{Norm}\br{\frac{n}{2},\frac{n}{4}}\), Chernoff's bound 比较精确地给出了它的概率密度函数的指数项.
这里回忆对 \(n!\) 的估计方法.
由于 \(\ln n!=\ln1+\cdots+\ln n\), \(\ln x\) 在 \(\R_{>0}\) 单增, 因此有估计
利用上凸性, 也容易得到
后者已经是前者很好的近似了. 精确地有 (Stirling 公式):
或者, 不严格地, 由于有 \(\opn{Poisson}(\lmd)\approx\opn{Norm}(\lmd,\lmd)\), 对照概率密度函数就给出
令 \(n=x=\lmd\), 则
引理 8.4.5
对 \(n\in\Z_{\ge 1}\) 和 \(p\in(0,1)\), \(pn\in\Z\), 有
\[\frac{1}{n+1}\exp(nh(p))\le\binom{n}{pn}\le\exp(nh(p)). \]
右侧来源于一个用一串约等号进行意识流估计:
我们来严格化它.
→ Proof @ 8.4.5 设独立同分布的 \(\seq X1n\sim\opn{Bern}(p)\). 一方面, \(\Pr\l[\sum_iX_i=pn\r]\le 1\), 因此
另一方面, \(\Pr[\sum_iX_i=pn]\ge\frac{1}{n+1}\) (高中数学亦有记载), 同理给出结论.
定理 8.4.6 (Sanov's Bound)
设独立同分布的 \(\seq X1n\sim\opn{Bern}(p)\), \(q\in(p,1)\), 不妨 \(qn\in\Z\), 则
\[\frac{1}{n+1}\exp(-nd(q\mmid p))\le\Pr\l[\sum_{i=1}^nX_i\ge qn\r]\le (n-qn+1)\exp(-nd(q\mmid p)). \]
→ Proof. 设 \(t=qn\in[0:n]\), 则利用 引理 8.4.5,
具体来说, \(\approx\) 给出上下界
而
\(t=qn\) 处取最大值, 代入上述估计就得到结论.
推论 8.4.7
设 \(\Omega=\{\seq v1L\}\), 对任意 \(P:\Omega\to[0,1]\), 简记 \(p_i:=P(v_i)\), 对独立同分布的 \(\seq X1n\sim P\), 简记 \(X\sim P\). 设多重集
\[S=\{\seq X1n\}\longleftrightarrow S:\Omega\to\N,~v_i\mapsto s_i=\sum_{j=1}^n[X_j=s_i]. \]为 \((\seq X1n)\) 的 type. 给定 type 集合 \(A\), 有
\[\max_{S\in A}\frac{1}{(n+1)^{L-1}}\exp(-nD(Q\mmid P))\le\Pr[\{X_i\}_{i=1}^n\in A]\le(n+1)^{L-1}\exp(-nD(Q\mmid P)). \]
→ Proof. 我们知道
设 \(q_i=Q(v_i)=\frac{s_i}{n}\), 明显
这给出
对于一个 type 的集合 \(A\), 用类似 定理 8.4.6 的估计,
同理有下界
第九章 离散 Fourier 变换
\(\S9.1\) 从连续到离散
我们研究离散函数 \(G\to\C\), 其中 \(G\) 为有限 Abel 群. 结构定理给出, \(G\simeq \Z_{n_1}\x\cdots\x\Z_{n_k}\). 先来寻找离散变换的 kernel.
定义 9.1.1
Character \(\chi:G\to\mathbb \C^\x\) 是同态 (由于 \(G\) 有限, 这等价于 \(\chi:G\to\mathbb S^1\) 是同态), 对 \(G\ni a\overset\sim\mapsto(\seq a1k)\), 定义
\[\chi_a:G\to\C,~x\mapsto\omega_{n_1}^{a_1x_1}\cdots\omega_{n_k}^{a_kx_k}. \]
明显 \(\hat G:=\{\chi_a\}_{a\in G}\) 是一个群, \(\chi_a\chi_b=\chi_{a+b}\), \(\chi_a^{-1}=\ol{\chi_a}=\chi_{-a}\). 一个有趣的性质是 \(\chi_a(x)=\chi_x(a)\).
接下来引入 \(\C^G\) 上的内积, 自然地定义 \((f\mid g):=\sum_{x\in G}f(x)\ol g(x)\), 容易验证
所以 \(\hat G\) 中的元素两两正交, 而 \(\dim_\C \C^G=|G|\), 所以 \(\hat G\) 就是 \(\C^G\) 的正交基. 更一般地:
引理 9.1.2
对任意 character \(\chi\), \(\sum_{x\in G}\chi(x)=[\chi=\chi_0]|G|\).
→ Proof. \(\chi=\chi_0\) 时显然, 若 \(\chi(x^*)\neq 1\), 则
所以 \(\sum_{x\in G}\chi(x)=0\).
这告诉我们 \(\hat G\) 给出了所有 characters (否则与 \(\dim_\C\C^G=|\hat G|\) 矛盾). 那么对 \(f:G\to\C\), 设 \(f=\sum_b\hat f(b)\chi_b\), 就有
以及
这是我们的离散 Parseval 等式! \(\hat.:\C^G\to \C^G\) 显然是一个 \(\C\)-线性映射.
定义卷积 \((f* g)(x):=\sum_{y+z=x}f(y)g(z)\), 那么
因此 \(\widehat{f\cdot g}=\hat f*\hat g\).
接下来的故事我们也很熟悉了: 考虑将 \(\hat f\) 再次与 \(\chi\) 内积, 计算
刚刚计算了 "点积的 DFT 是 DFT 的卷积", 反过来也有
总结一下, 我们得到了:
- \(\hat G=\{\chi_a:a\in G\}\) 是 \(\C^G\) 的正交基;
- \(\hat\cdot\in\opn{Aut}_\C(\C^G)\) 是 \(C\)-向量空间 \(\C^G\) 的自同构;
- \(\widehat{f\cdot g}=\hat f*\hat g\), \(\widehat{f*g}=|G|\cdot \hat f\cdot\hat g\).
\(\S9.2\) DFT 的应用
一个典型应用是简化卷积的计算. 例如, 对独立同分布的 \(\seq X1n\sim P_X:G\to\R\), 那么
另一个应用场景是 Bool 函数分析 设 \(f:\Z_2^n\to\{0,1\}\), \(f'=(-1)^f=1-2f:\Z_2^n\to\{\pm 1\}\). 先对 \(A\sub[n]\), \(\alpha:A\to\{0,1\}\), 定义
先考虑 \(A=\{1\}\), \(\alpha\in\{0,1\}\) 的简单情况. 注意此时 \(\chi_a(x)=\prod(-1)^{a\odot x}=(-1)^{a\cdot x}\), 那么
推广地, 对任意 \(A\sub[n]\), 类似可以计算
最后, 考虑随机的 \(A\), \(\Pr[i\in A]=p\), 那么
第十章 编码
我没有完全学懂本章, 因而请批判性地使用本章笔记.
(本章在熵中取 \(\log=\log_2\).) 对随机变量 \(X\sim P\) 的传递可以抽象为如下过程:
当然要求
- \(D(E(x))=x\);
- \(\Ex[|c|]\) 尽可能小.
\(\S10.1\) 可变长无损编码
设 \(|X|=\{x_1,x_2,\cdots\}\), 不失一般性地设 \(P(x_{i+1})\le P(x_i)\). 如果我们只发送一次信息, 最优的 encoder 显然是
记 \(L(x)=|E(x)|\), 可以说明:
命题 10.1.1
上述 \(H(X)-H(L)\le\Ex[L]\le H(X)\).
→ Proof. 注意到 \(P(x_i)\le \frac{1}{i}\), \(L(x_i)=\lfloor\log_2i\rfloor\). 右侧有
左侧, 根据定义 \(H(L\mid X)=0\), 那么
但我们知道, 对单字符设计的编码并不能胜任对随机字符串的发送任务. 因为典范的扩展
并不能保证解码结果的唯一性. 例如 Morse 编码中 \(E^*(\t{SOS})=E^*(\t{EEETTTEEE})\). 一种简单处理方式是采用 prefix-free 的编码:
定理 10.1.2
给定 \(L:|X|\to\N\), 则存在 prefix-free encoder \(f\) 使得 \(|f(x_i)|=L(x_i)\), 当且仅当
\[\sum_{x_i\in|X|}2^{-L(x_i)}\le 1. \]
证明不难.
算法 10.1.3 (Huffman Code)
《这他妈不就是合并果子吗?》——zyf
最优性可以通过调整法证明. 如果某时刻 \(p\) 最小的两个 \(x_i,x_j\) (它们各自可能对应一个单点或者合并过若干次的子树) 没有被合并在一起, 那么我们可以把 \(x_i\) 与 [\(x_j\) 的兄弟] 交换 (当二者存在一些祖后代关系时细致讨论), 总能发现交换后的编码更优.
定理 10.1.4
设 \(L(x_i)=|E(x_i)|\), 其中 \(E\) 是 \(X\) 的 Huffman 编码, 那么
\[H(X)\le\Ex[L]\le H(X)+1. \]
→ Proof. 对右侧, 令 \(L'(x_i)=\l\lceil\log_2\frac{1}{P(x_i)}\r\rceil\), 那么
同时
因此 \(L'\) 对应的编码 \(E'\) 存在, 由 \(E\) 的最优性, 由 \(\Ex[L]\le\Ex[L']\le H(X)+1\).
对左侧, 设 \(Y=E(X)\), 为每个字符编码末尾添加无穷多个 \(\bot\), 由链式法则,
其中
那么
这样
\(\S10.2\) 近无损编码
现在弱化对 encoder 和 decoder 的要求, 我们只期待
- \(\cancel{D(E(x))=x}\) \(\Pr[D(E(x))=x]\ge 1-\eps\), 其中 \(\eps\) 是被控制的小量.
设 \(X\sim P^n\), 若我们限制了 \(E(X)\in\{0,1\}^L\), 一个自然的想法是将 \(|X|\) 排序后只为前 \(2^L\) 个点分配编码. 那么需要多大的 \(L\) 才能给 \(\eps\) 一个约束呢?
定理 10.2.1
当 \(L\ge n(H(X)+\delta)\), 上述编码能保证 \(\eps\le\e^{-\mathcal O(n\delta^2)}\).
→ Proof. 考虑 \(-\log P^n(X)=\sum_i-\log P(X_i)\), 而 \(\Ex[-\log P(X_i)]=H(X)\), 因此这个和式的值应当集中在 \(nH(X)\) 附近. 当和式落在中心左右 \(\delta\) 范围内,
我们只为它们分配编码. 那么
这种编码的问题是, 它要求我们先验地知道 \(P\) 的大量信息. 有没有什么简单又强势的 encoder 呢?
定理 10.2.2 (Universal Encoder)
在对应的函数空间均匀采样 \(E:|X|\to\{0,1\}^L\), 令 \(D(c):=\arg\max_x\{P^n(x):E(x)=c\}\), 对同样的 \(L\ge n(H(X)+\delta)\), 有 \(\Pr[D(E(x))\neq x]\le 2^{-n\delta}+2^{-\mathcal O(n\delta^2)}\).
→ Proof. 仍然按概率降序列出 \(X=\{x_1,x_2,\cdots\}\), \(c_i:=E(x_i)\),可以给出
接下来考虑带旁信息的压缩. 待发消息 \(X\) 和旁信息 \(Y\) 采样自联合分布 \(P_{XY}\), 而在压缩或解压时, \(Y=y\) 都是已知信息. 类似地取 \(L=n(H(X\mid Y)+\delta)\) 也能控制错误率.
另一种预设是, \(X,Y\) 需要各自被压缩到 \(\{0,1\}^{L_1}\) 和 \(\{0,1\}^{L_2}\), 再被一起解码得到 \(\hat X,\hat Y\). 有两种显然的策略:
- \(L_1=n(H(X)+\delta)\), \(L_2=n(H(Y\mid X)+\delta)\), 我们先解码 \(\hat X\), 在根据 \(\hat X\) 解码 \(\hat Y\); 这也是最小的可行的 \(L_2\).
- \(L_2=n(H(Y)+\delta)\), \(L_1=n(H(X\mid Y)+\delta)\), 同理; 这也是最小的可行的 \(L_1\).
事实上, 只有 \(L_1,L_2\) 在各自可行范围内, 并且 \(L_1+L_2\ge nH(X,Y)\) 的 \((L_1,L_2)\) 组合可行.
\(\S10.3\) 信道编码
在现实的信息通过信道 (channel) 传递, 信道将对信息引入噪音. 抽象地, 我们认为信道的输出 \(Y\) 与输入 \(X\) 服从某个条件分布 \(P_{Y\mid X}\). 例如 binary erase channel: \(P_{Y\mid X}(b\mid b)=1-\eps\), \(P_{Y\mid X}(\bot\mid b)=\eps\), 应对它的自然想法是将每个 bit 重发若干次 (repetition code), 即
显然 \(\Pr[\hat w_1=w_1]\ge 1-\eps^3\). 但这种编码会让码长增大两倍.
另一种手段是, 我们在 encode 阶段取随机的 \(\Z_2^n\) 内的线性映射 \(\opn{encode}:\{0,1\}^n\to\{0,1\}^L\), 而
也是一个随机线性映射. \((1-\eps)L\) (略微) 大于 \(n\), 它几乎总是满秩, 即几乎总能还原出发送的信息.
以上 \((1-\eps)~\u{bit}\) 被称为 binary erase channel 的容量 (capacity). 一般地:
定义 10.3.1
信道 \(P_{Y\mid X}\) 的容量为 \(C:=\max_{P_X}I_{XY\sim P_XP_{Y\mid X}}(X;Y)\).
另一种常见的信道是 binary symmetric channel: \(P_{Y\mid X}(b\mid b)=1-\eps\), \(P_{Y\mid X}(1-b\mid b)=\eps\). 我们声称 \(X\sim\opn{Bern}(1/2)\) 时取容量达到最大值, \(Y=X\oplus Z\), 其中 \(Z\sim\opn{Bern}(\eps)\), 容易计算
定义 10.3.2 (\([2^n,L,d]_{\Z_p}\)-编码)
设某对 \(2^n\) 的空间编码的 encoder 的像集为 \(\mathcal C\sub\Z_p^L\), 则称其为 \([2^n,L,d]_{\Z_p}\)-编码, 当且仅当
\[\A c,c'\in\mathcal C,~\Delta_{\u{Hamming}}(c,c'):=\#\{i:c[i]\neq c'[i]\}\ge d. \]
例如, 随机的 \(\{0,1\}^n\to\{0,1\}^L\) 大概率是 \(L\)-\(d\)-\(2\) 编码:
命题 10.3.3
对 \(\{0,1\}^n\to\{0,1\}^L\), 当 \(L>\frac{n}{1-h(d/L)}\), 存在线性映射是 \([2^n,L,d]_{\Z_p}\)-编码.
→ Proof. 任取定 \(c,c'\), 那么
那么
对更广的域, 如 \(W=\F_p^n\), 有更方便的编码方式. 例如 Reed-Solomon 编码: 定义
明显它是一个 \([p^n,L,L-n]_{\F_p}\) 编码, 也就是说, 当码字被任意修改不超过 \(\frac{L-n}{2}\) 位时, 我们总能唯一还原原始输入, 接下来讨论还原的过程.
设 \(f(0)\cdots f(L-1)\) 被修改为 \(c_0\cdots c_{L-1}\), 如果我们获得了 mask 多项式 \(h(x)=\prod_{i\in S}(x-i)\), 其中 \(S=\{i:f(i)\neq c_i\}\), 这时对 \(x\in [0:L-1]\) 有 \(f(x)h(x)=c_xh(x)\), \(\deg f\le n\), \(\deg h\le\frac{L-n}{2}\), 事实上对 \(\deg p+\deg q\le L\), \(p(x)=c_xq(x)\) 是可解的, 这样我们就得到了 \(f(x)\).
更一般地, 设 \(\opn{enc}(w)=x_w\), 最优秀的 decoder 显然是 \(\opn{dec}(y)=\arg\max_w(P_{Y\mid X})^n(y\mid x_w)\). 作为一个负责任的 encoder, 我们至少需要保证这个 \(\opn{dec}\) 不产生错误解码, 即对任意 \(w\) 和 \(w'\neq w\), 需要保证
令
注意它满足
我们希望
(Intuitively 我们计算二者期望, 并通过它们在各自期望的集中性 bound 解码失败的概率.)
事实上 \(\Pr[i(x_w,y)<i(x_{w'},y)]<2^{-LC}\), 但后面我 track lost 了 qwq.
第十一章 Markov 链
我没有完全学懂本章, 因而请批判性地使用本章笔记.
\(\S11.1\) 基本性质
对一列随机变量 \(X_0,X_1,\cdots\), 称其具有 Markov 性质, 当且仅当对任意 \(X_i\), condition on \(X_i\) 时事件 \((X_0,\cdots,X_{i-1})\) 和 \((X_{i+1},\cdots)\) 独立. 我们尤其关心具有时间统一性 (time-homogeneous) 的 Markov 链, 即各 kernel \(P_{X_1\mid X_0}=P_{X_2\mid X_1}=\cdots=P\). 记号上, 我们规定 \(P:\Omega\x\Omega\to[0,1]\) 是一个随机矩阵 (stochastic matrix), \(P(x,y)\) 表示 condition on \(x\) 时下一随机变量取 \(y\) 的概率.
这样的记号能够带来一定便利. 例如, 令分布 \(\mu\) 作为一个行向量, 那么 \(\mu P\) 就是 \(X_t\sim \mu\) 时 \(X_{t+1}\) 的分布. \((Pf)(x)=\Ex[f(X_{t+1})\mid X_t=x]=:\Ex_x[f(X_1)]\). (这里 \(f:|X|\to\R\) 视作列向量, 分布 \(x:|X|\to\R\) 视作行向量.) 明显 \(P^t(x,y)=\Pr_x[X_t=y]\).
定义 11.1.1
- 称 \(\pi\) 是一个 Markov 链 \(P\) 的稳态分布, 当且仅当 \(\pi P=\pi\);
- 定义 Markov 链 \(P\) 的 hitting time \(\N\cup\{\oo\}\ni\tau_x=\min\{t\ge 0:X_t=x\}\);
- 定义 Markov 链 \(P\) 的 return time \(\N^*\cup\{\oo\}\ni\tau_x^+=\min\{t>0:X_t=x\}\).
定义 11.1.2
Markov 链可能满足如下性质:
- 时间统一性;
- 有限性, \(|\Omega|<\oo\);
- 不可约性, 对任意 \(x,y\in\Omega\), 存在 \(t\) 使得 \(P^t(x,y)>0\). 记这个关系为 \(xRy\). (即概率转移强连通.)
引理 11.1.3
对有限不可约的 Markov 链, \(\A x,y\in\Omega,~\Ex_x[\tau_y]<\oo\). \(\A x\in\Omega,~\Ex_x[\tau_x^+<\oo]\).
→ Proof. 对 \(z\in\Omega\), 存在 \(t_z>0\) 使得 \(P^{t_z}(z,y)>0\), \(t:=\max_zt_z<\oo\) 存在, \(p:=\min_zP^{t_z}(z,y)>0\). 我们尝试说明总有 \(\Pr_x[\tau_y^+> 2t]\le(1-p)^2\). 这是因为
同理, \(\Pr_x[\tau_y^+> kt]\le(1-p)^k\), 这样直接计算 \(\Ex_x[\tau_y^+]=\sum_{i=0}^{+\oo}\Pr_x[\tau_y^+>i]\) 即可说明其收敛. \(\Ex_x[\tau_x^+]\) 同理.
定理 11.1.3
当 Markov 链满足 定义 11.1.2 的三条性质时, 存在稳态分布 \(\pi\).
→ Proof. 记 \(\wt\pi_x(y):=\Ex_x[\#\{t\in[1:\tau_x^+]:X_t=y\}]\), 显然 \(\wt\pi_x(x)=1\), \(\sum_y\wt\pi_x(y)=\Ex_x[\tau_x^+]\). 将它归一化为 \(\pi_x\), 我们只需说明 \(\pi_x\) 就是一个稳态分布.
利用 Markov 性质拆解:
定义 11.1.5
定义 \(h\) 在 \(x\) 和谐 (harmonic), 当且仅当 \(\Ex_x[h(X_1)]=h(x)\). 称 \(h\) 是和谐的, 当且仅当 \(h\) 在所有 \(x\in\Omega\) 和谐, 即 \(h=Ph\).
推论 11.1.6
定理 11.1.3 下 \(\pi\) 存在且唯一.
→ Proof. 只需证明 \(\rank(P-\bs 1)=|\Omega|-1\), 即 \(\dim\{h:(P-\bs 1)h=0\}=1\), 其中 \(h\) 是和谐函数.
令 \(\alp=\max_xh(x)\), 设 \(h(x)=\alp\), 则 \(\A y,~\E t,~P^t(x,y)>0\), 所以
然而 \(h(x)\) 是最大的, 右侧就必须满足 \(h(y)=\alp\), 这样 \(h\equiv\alpha\) 是常数函数. 明所欲证.
结合 定理 11.1.3 的构造, 我们平凡地给出 \(\pi(x)=\pi_x(x)=\frac{1}{\Ex_x[\tau_x^+]}\).
定义 11.1.7
称 Markov 链上 \(x\) 的周期为 \(\gcd\{t:P^t(x,x)>0\}\). 称 Markov 链无周期, 当且仅当所有 \(x\in\Omega\) 的周期都为 \(1\).
定理 11.1.8
若 Markov 链有限, 不可约, 无周期, 则对任意分布 \(\mu\) 都有 \(\lim_{t\to\oo}\mu P^t=\pi\).
→ Proof. 存在 \(N\), 使得 \(n>N\) 时 \(P^n(x,y)\) 恒正 (此事在小凯的疑惑中亦有记载). 任取定这样一个 \(n\), 存在常数 \(c_x>0\) 使得
令 \(c=\min_xc_x>0\), 那么
这样
最终就能给出 \(\lim_{t\to\oo}\mu P^t=\pi\).
\(\S11.2\) 例子与技巧
例子 11.2.1 (带吸收壁一维游走)
考虑一个带吸收壁的一位随机游走: \(P(k,k\pm 1)=\frac{1}{2}\), \(P(n,n)=P(0,0)=1\). 我们希望计算从 \(k\) 出发成功到达 \(n\) 的概率 \(f(k)\), 到达 \(1\) 或 \(n\) 的期望时间 \(g(k)\).
→ Solution. 这里严格按照 Markov 链的性质操演,
容易解出 \(f(k)=\frac{k}{n}\). 记随机变量 \(\tau=\max\{t:X_t\in\{0,n\}\}\), 那么
也是容易计算的.
例子 11.2.2 (卡牌收集)
假设有 \(n\) 种卡牌, 每次均匀随机获得一张, 计算期望需要多久集齐 \(n\) 种卡.
→ Solution. 对称性使得我们不必关心卡牌具体种类, 只需要关心种类数量. \(P(0,1)=P(n,n)=1\), \(P(k,k)=\frac{k}{n}\), \(P(k,k+1)=\frac{n-k}{n}\). 设所求随机变量为 \(\tau\), 容易利用线性性计算 \(\Ex_0[\tau]=\sum_{k=0}^{n-1}\frac{n}{n-k}=nH_n\sim n\ln n\).
此外, 非酋也需要关注
例子 11.2.3 [超立方体游走 / Ehrenfest 瓮 (urn) 模型]
(a) 考虑 \(n\) 维超立方体 \(\Omega=\{0,1\}^n\), 均匀随机游走 \(P'(x,y)=\frac{1}{n}[\|x-y\|_1=1]\), 这个游走有周期 \(2\). 我们可以引入 lazy walk \(P(x,x)=\frac{1}{2}\) 来消除周期.
(b) 考虑装在两个瓮里的总共 \(n\) 个小球, 每次我们均匀随机选取一个小球, 将它拿出并放入另一个瓮. 即 \(\wt P(k,k+1)=\frac{n-k}{n}\), \(\wt P(k,k-1)=\frac{k}{n}\).
→ Solution. 感性上容易发现 \(P'\) 链下的 \(\|x\|_1\) 遵循 \(\wt P\). \(P\) 则对应了 \(\wt P\) 的 lazy 版本.
引理 11.2.4 (细致平衡 Detailed Balanced)
当 \(\A x,y\in\Omega\), 有 \(\pi(x)P(x,y)=\pi(y)P(y,x)\), 称 \(\pi\) 是细致平衡的. 若 \(\pi\) 细致平衡, 则 \(\pi\) 是稳态. 进一步若 \(P\) 单连通, 则 \(\pi\) 细致平衡当且仅当 \(\pi\) 是稳态.
→ Proof. Intuitively 容易验证.
例子 11.2.5 (生灭链)
考虑 Markov 链 \(P(k,k+1)=p_k\), \(P(k,k-1)=q_k\), \(P(k,k)=r_k=1-p_k-q_k\), \(q_0=0\). 我们关心它的稳态分布.
→ Solution. 使用 引理 11.2.4, 可以给出 \(\frac{\pi(k+1)}{\pi(k)}=\frac{p_k}{q_{k+1}}\), 那么就有
例子 11.2.6 (一维随机游走)
考虑 \(\Z\) 上的随机游走, \(P(x,x\pm 1)=\frac{1}{2}\), \(\tau_0=\min\{t:X_t=0\}\), 我们希望研究 \(\Ex_k[\tau_0]\).
→ Solution. 略.
例子 11.2.7 (Monte-Carlo)
我们希望进行采样 \(x\sim\mu(x)\), 但 \(\mu\) 很复杂, \(\Omega\) 巨大. 以 \(\Omega=\{0,1\}^n\), \(\mu(x)=\e^{-c\opn{loss}(x)}\) 为例.
→ Solution. 考虑如下算法:
- 均匀采样 \(x\in\Omega\) 作为起点;
- 不断重复:
- 均匀采样 \(y\in\Omega\) 使得 \(\|x-y\|_1=1\);
- \(x\gets y~\text{w.p.}~\alpha(x,y)\).
这给出了一个 Markov 链上的游走, 我们希望 \(\mu\) 恰好是这个链的稳态, 这样在足够多次迭代后, \(x\) 的分布收敛于 \(\mu\). 根据 引理 11.2.4, 我们希望
取尽量大的 \(\alpha\) 增加收敛速度, 最终
更进一步, 采样 \(y\) 时用 \(y\sim\psi(x,y)\), \(\psi\) 有细致平衡的稳态 \(\pi\), 同样也有
定义 11.2.8 (Mixing Time)
对 Markov 链 \(P\), 令
\[d(t)=\sup_\mu\Delta_{\u{TV}}(\mu P^t,\pi),\quad \ol d(t)=\sup_{\mu,\nu}\Delta_{\u{TV}}(\mu P^t,\nu P^t);\\ t_{\u{mix}}(\eps)=\min\{t:d(t)\le\eps\}. \](显然 \(d(t)\le\ol d(t)\le 2d(t)\).) 其中 \(\Delta_{\u{TV}}\) 是全变差距离.
例如, 考虑超立方体上的 lazy walk, 当每个维度被选取一次时, 所有坐标都均匀随机, 这很像一个卡牌收集 (例子 11.2.2) 过程. 直接写出
定理 11.2.9 (Coupling)
对分布 \(P_X,P_Y\), 有
\[\Delta_{\u{TV}}(P_X,P_Y)=\min_{P_{XY}}\Pr_{(X,Y)\sim P_{XY}}[X\neq Y]. \]
→ Proof. 设 \(P_X=\wh M+\wh Q_X\), \(P_Y=\wh M+\wh Q_Y\), 其中 \(\|\wh Q_X\|_1=\|\hat Q_Y\|_1=\Delta_{\u{TV}}(P_X,P_Y)\), \(\|\wh M\|_1=1-\Delta_{\u{TV}}(P_X,P_Y)\), 我们构造
或者说, 以 \(1-\Delta(X,Y)\) 的概率, 从 \(\frac{\wh M}{1-\Delta(x,y)}\) 采样 \(x=y\); 否则从 \(\frac{\wh P\wh Q}{\Delta(x,y)^2}\) 采样 \((x,y)\). 我们声称这就是 \(\arg\min\).
例子 11.2.10
考虑 \(\Z_n\) 上的 lazy walk, 我们研究其上的两个点的 Markov 链 \(P\), 满足
\[P((x,y),(x',y'))=\CAS{ \frac{1}{4},&x'=y'=x\pm 1\land x=y;\\ \frac{1}{2},&x'=y'=x\land x=y;\\ \frac{1}{4},&x'=x\land y'=y\pm 1\land x\neq y;\\ \frac{1}{4},&x'=x\pm 1\land y'=y\land x\neq y. } \]
可以看出 \(P\) 的边缘分布仍然是 lazy walk, 但两维不独立. 事实上 \(Z:=X-Y\) 由恰好是以 \(0\) 和 \(n\) 为吸收壁的一维随机游走.
其中 \(\tau\) 是吸收壁游走的返回时间.
例子 11.2.11
考虑图 \(G\) 上边不同色的均匀随机染色, 我们从任意染色 \(f\) 出发, 通过不断重复:
- 均匀随机取 \(u\in V\);
- 均匀随机令 \(f(u)\gets C\setminus\{f(v):(u,v)\in E\}\)
来得到合法染色的采样. 我们需要估计混合时间 \(d(\eps)\) 的上界.
→ Solution. 略.
第十二章 图
\(\S12.1\) 基本性质
from OI.图论 import 图, 度, 子图, 路径, 简单路径, 连通性, 连通块, 树, 团, 独立集, 完全图, 二分图
以下不加说明地令 \(n=|V|\), \(m=|E|\).
定理 12.1.1 (矩阵树)
对 \(G=(V,E)\), 设 \(D=\diag(\seq d1n)\), \(A\) 为 \(G\) 的邻接矩阵, 则其 Laplace 矩阵 \(L:=D-A\) 则其任意 \(n-1\) 阶主子式为 \(\#\{T~\text{tree}:T\subset G\}\).
引理 12.1.2
上述语境下, 引入 incidence matrix \(E\in \M_{n\x m}(\R)\), 第 \(i\) 列对应一条边 \((u,v)\), 任令 \(E_{ui}=1\), \(E_{vi}=-1\). 那么
\[EE^\T=L. \]
→ Proof. \(EE^\T=\sum_{i=1}^m E_{:,i}\x E_{i,:}\), 直接对比即可.
→ Proof @ 12.1.1 不妨只证明去掉第一行第一列有 \(\det \mathcal L=\#\{T~\text{tree}:T\sub G\}\). 回忆 Cauchy-Binet 定理,
设 \(\mathcal E\) 表示 \(E\) 去掉第一行的矩阵, 则 \(\mathcal E\mathcal E^\T=\mathcal L\), 所以
只需验证
按定义, 考虑每个 \(\sigma\in\opn{Aut}(\{1\}\cup S)\) 的贡献, 由于加上 \(1\) 自环后只有 \(n\) 条边, 如果 \(\sigma\) 含有非 \(1\) 自环的环 贡献为 \(0\); 否则 \(\sigma\) 只能指向以 \(1\) 为根的父亲, 贡献为 \(\pm 1\).
例子 12.1.3
考虑有向图 \(G=(V,E)\), \((u,v)\in E\Ra u<v\). 计数从 \(1\) 到 \(n\) 的路径.
→ Solution. 设邻接矩阵为 \(A\), 显然只需要计算 \(((\bs 1-A)^{-1})_{1n}\). 考虑伴随矩阵, 可知
定理 12.1.4 (Euler)
对连通平面图 \(G\), \(|V|+|F|-|E|=2\), 其中 \(F\) 是面集合.
→ Proof. 归纳即可.
定理 12.1.5
设 \(G\) 的点染色数 \(\chi(G)\), 则 \(\chi(G)\cdot \max\{|S|:S\sub V~\text{independent set}\}\ge n\).
→ Proof. 每种颜色都是独立集.
\(\S12.2\) 代数图论初探
定理 12.1.4 的 "平面" 可以认为是欧式平面, 我们也能引入其他面, 例如球面或者甜甜圈面, 这时连通图的 \(|V|+|F|-|E|\) 的值由曲面拓扑性质决定. 这事实上被称为曲面的 Euler 示性数 \(\chi\). (例如在甜甜圈面上, \(|V|+|F|-|E|=0\).)
定理 12.2.1
平面上的连通平面图 \(G\) 一定能够点 \(5\) 染色.
→ Proof. 进一步探讨 Euler 定理, 我们可以将 \(|E|\) 和 \(|F|\) 的贡献分配到结点上:
- 对每条边, 给两个顶点分别贡献 \(-\frac{1}{2}\) 的权值;
- 对每个面, 设其有 \(\ell\) 个顶点, 给每个顶点贡献 \(\frac{1}{\ell}\).
这样, 设 \(\deg(u)=\ell\), 分别是 \(\seq a1\ell\) 面的顶点, 则 \(u\) 的贡献就是
由于 \(\sum_{u\in V}w_u>0\), \(\frac{1}{a_i}-\frac{1}{2}\le-\frac{1}{6}\), 所以一定存在一个度数不超过 \(5\) 的点 \(u\), 我们任取 \(u\) 的两个邻接点 (这是不那么平凡的情况) \(x,y\), 将 \(x,u,y\) 压缩为一个点, 归纳地完成 \(5\) 染色, 最后展开 \(x,u,y\), 其中 \(x,y\) 继承原来的颜色, \(u\) 一定有办法取为至多四个邻接颜色之外的颜色. 因此平面图一定能够 \(5\) 染色.
顺便, 我们熟知平面图存在对偶图, 这样平面图点染色和面染色总是等价的.
考虑 Laplace 矩阵 \(L=D-A\) 对 \(f:V\to\R\) 的作用:
而 \(L\) 对应的二次型作用在 \((f,f)\) 上就是
所以 \(L\) 是半正定的. 设其特征值为 \(\seq\lmd 1n\), 那么:
定理 12.2.2
上述 \(\lmd=0\) 的几何重数为 \(G\) 的极大连通块数.
→ Proof. 容易根据极大连通块构造互相正交的特征向量 (某个连通块内全 \(1\), 外部全 \(0\)). 一般地, 找到 \(f\) 绝对值最大的位置 \(u\), 由于 \(f(u)\) 是其邻接点 \(f\) 值的平均数, 可知 \(u\) 整个连通块的值都是 \(f(u)\), 这已经是刚刚找到的特征向量的线性组合.
对连通图, 继续考察其他特征值. 对于 \(n\) 元环, 可以验证
某种程度上, 连通图的第二小的特征值反映了连通性的 "强弱".
对有 \(n\) 片花瓣的菊花图, 由 lww 笔记 9.11.2 (Courant-Fischer), 我们有
可以据此验证 \(\lmd_1=0\), \(\seq\lmd 2n=1\), \(\lmd_{n+1}=n+1\).
命题 12.2.3
称每个点度数均为 \(d\) 的图为 \(d\)-正则图, 则 \(L=d\bs 1-A\), \(\lmd_i=d-\mu_i\), 其中 \(\mu_i\) 为 \(A\) 的特征值.
命题 12.2.4
对无向图 \(G\) 的邻接矩阵 \(A\) 和其特征值 \(\seq\mu1 n\), 有
- \(d_{\u{avg}}\le\mu_1\le d_{\max}\);
- \(\mu_1=\max_v\frac{v^\T A v}{v^\T v}\);
- \(\mu_1=\mu_2\) 当且仅当图不连通;
- \(\mu_1=-\mu_n\) 当且仅当图是二分图;
- \(\chi(G)\ge 1-\frac{\mu_1}{\mu_n}\).
→ Proof. 我们证明二分性. 一方面 \(\mu_1=-\mu_n\) 时, 有
即 \(\theta_{\u{abs}}\) 就是 \(\mu_1\) 对应的特征向量. 而为了取等, 有
而 \(\theta_{\u{abs}}\) 在每个位置必须严格\({}>0\) (否则左乘 \(A\) 之后与非 \(0\) 值相邻的 \(0\) 变为正数, 不是特征向量). 这样 \(\theta\) 的符号已经成功给出了一个二部划分.
另一方面, 如果 \(V=L\sqcup R\) 可二部划分, 对任意特征值 \(\mu\) 和其特征向量 \(\theta\), 令
显然 \(A\theta_{\u{flip}}=-\mu\theta_{\u{flip}}\), 明所欲证.
接下来考虑随机图 \(\mathcal G(n,p)\).
对 \(\mathcal G(n,\frac{1}{2})\), 由于 \(d_{\u{avg}}\approx d_{\u{max}}\approx\frac{n}{2}\),它的 \(\mu_1\) 一定在 \(\frac{n}{2}\) 左右, 对应一个几乎均匀的特征向量, 我们将它剔除. 考虑 \(A-\frac{1}{2}\bs 1\), 它的对角线为 \(-\frac{1}{2}\), 其余每个位置都是均匀的 \(\pm\frac{1}{2}\), 对称.
定义 12.2.5
对 \(S\sub V\), 设 \(\part S=S\cup\{v:\E u\in V,~(u,v)\in E\}\), 若对任意 \(|S|<\frac{n}{2}\) 都有
\[\frac{|\part S|}{|S|}\ge 1+\Omega(1), \]则称 \(G\) 是一个 expander 图.
第十三章 概率方法
\(\S13.1\) 引例
定理 13.1.1 (Erdos)
Ramsey 数 \(R(k,k)>2^{k/2-1}\). (回忆 \(R(k,\ell)=\min\{n\in \N:\A |V|=n,~G~\text{contains}~k\text{-clique or}~\ell\text{-indep. set}\}\).)
→ Proof. 考虑随机图 \(\mathcal G(n,\frac{1}{2})\), 在其上, 如果
既不含 \(k\)-团也不含 \(k\)-独立集的存在概率就大于 \(0\). 选取 \(n=2^{k/2-1}\), 代入估计即可.
另一方面, 考察图中所有点与一个选定点的连边情况, 归纳地有
所以我们有 \(R(k,k)=\mathcal O(2^k)\). 总之就有 \(R(k,k)=2^{\Theta(k)}\).
命题 13.1.2
设集合 \(|X|=n\ge 2k\), \(\Omega\sub 2^X\), \(A\in \Omega\Ra |A|=k\), 且 \(A,B\in\Omega\Ra A\cap B\neq\varnothing\), 则 \(|\Omega|\le\binom{n-1}{k-1}\).
→ Proof. 取等容易: 选定 \(x\in\bigcap\Omega\) 即可.
对一般地 \(\Omega\), 设 \(X=\Z_n\), 考虑 \(X\) 上的随机排列 \(\sigma\), 设 \(A_i=\{i,i+1,\cdots,i+k-1\}\), 显然 \(\Pr[\sigma(S)=A_i]=\frac{1}{\binom{n}{k}}\), 注意 \(\sigma(\Omega)\) 仍然是一个合法集合; 一个合法集合里至多包含 \(k\) 个 \(A_i\), 那么
命题 13.1.3
考虑两列集合 \(\seq A1n\), \(\seq B1n\), 满足 \(|A_i|=k\), \(|B_i|=\ell\), \(A_i\cap B_i=\varnothing\), \(i\neq j\Ra A_i\cap B_j\neq\varnothing\), 那么 \(n\le\binom{k+\ell}{k}\).
→ Proof. 设 \(X=\bigcup A_i\cup B_i\), 考虑 \(X\) 上的随机全序 \(\le_X\), 设事件 \(E_i:\A x\in A_i,~\A y\in B_i,~x<y\). 为满足要求, \(E_i\) 最多发生一个, 所以 \(\Pr[E_i]\le\frac{1}{n}\). 而 \(\Pr[E_i]=\frac{1}{\binom{k+\ell}{k}}\), 明所欲证.
\(\S13.2\) Alternation
定理 13.2.1
对任意 \(k\ge 2\) 和 \(n\ge k\), 存在 \(M\in\M_{n\x n}(\F_2)\), 满足
- \(M\) 中 \(1\) 的个数为 \(\Omega\br{n^{2-\frac{2}{k+1}}}\);
- \(M\) 中不存在 \(k\x k\) 的子矩阵 (这里子矩阵不要求连续下标).
→ Proof. 考虑一个随机阵, 其中每个元素独立取自 \(\opn{Bern}(p)\). 则其中
对每个这样的子矩阵, 我们任意将其中一个 \(1\) 赋为 \(0\), 操作完成后
据称取
就能达到目标.
定理 13.2.2
对任意 \(k,\ell\), 存在图 \(G\) 使得 \(g(G)\ge \ell\) 且 \(\chi(G)\ge k\). (回忆 \(g(G)\) 是 \(G\) 的最小环长, \(\chi(G)\) 是 \(G\) 的最小色数.)
→ Proof. 考虑 \(\mathcal G(n,p)\), 其中
取 \(p=n^{\frac{1}{2\ell}-1}\),
令 \(\alp(G)\) 为 \(G\) 的最大独立集大小, 回忆 定理 12.1.5 有 \(\chi(G)\alp(G)\ge n\), 那么令 \(a=\frac{3}{p}\log n\), 有
总之
适当删除 \(\mathcal O(\sqrt{n})\) 边破环, \(\alp(G)\le\frac{3}{p}\log n+\sqrt{n}=o(n)\), 这样 \(\chi (G)\ge n/\alp(G)\) 总能足够大.
命题 13.2.3
对有限集 \(B\sub\Z\setminus\{0\}\), 存在 sum-free 的 \(A\sub B\), 使得 \(|A|>\frac{|B|}{3}\).
→ Proof. 选取足够大的素数 \(p=3k+2\), 将 \(B\) 嵌入 \(\Z_p\setminus\{0\}\). 我们关心 \(S=\{k+1,\cdots,2k+1\}\), 随机取 \(r\in\F_p^\x\), 则
因此存在 \(r_0\) 使得 \(|r_0B\cap S|>\frac{|B|}{3}\), 选择 \(A=r_0^{-1}(r_0 B\cap S)\) 即可.
命题 13.2.4
存在 \(n\) 阶竞赛图的 Hamilton 路径数不小于 \(\frac{n!}{2^{n-1}}\).
→ Proof. 后者是 Hamilton 路径数的期望值.
命题 13.2.5
对竞赛图, 称其满足 \(S_k\) 性质, 当且仅当 \(\A T\in\binom{V}{k},~\E u\in V,~\A v\in T,~(u,v)\in E\). 则当 \(n\ge k^22^k\), 总存在竞赛图满足 \(S_k\) 性质.
→ Proof. 考虑随机竞赛图, 对任一 \(T\in\binom{V}{k}\), \(\Pr[u\tto T]=2^{-k}\), \(\Pr[\A u~u\not\tto T]= (1-2^{-k})^{n-k}\). 对 \(T\) union bound 出
\(\S13.3\) 二次矩方法
例子 13.3.1
估计 \(\binom{2n}{n}\).
→ Solution 设随机变量 \(\seq X1{2n}\sim\opn{Bern}(\frac{1}{2})\), 则 \(\Ex[\sum X_i]=n\), \(\Var[\sum X_i]=\frac{n}{2}\), 那么
取 \(\alp=\sqrt{n}\), 又已知 \(\sum X_i=n\) 时单点概率最大, 所以
例子 13.3.2
设 \(\nu(x)=\#\{p\in\mathbb P:p\mid x\}\), 则
\[\#\l\{x\in[1:n]:\abs{\nu(x)-\ln\ln n}>\lmd\sqrt{\ln\ln n}\r\}\le\lmd^{-2}. \]
→ Proof. 设 \(X\sim\opn{Unif}([1:n])\), 随机变量 \(X_p:=[p\mid X]\), 则 \(\nu(X)=\sum_p X_p\). 我们知道
估计中间这项,
再来估计方差,
所以
定理 13.3.3
对随机图上的任意单调性质 \(\mathcal P\), 存在阈值函数 \(m^*:\N\to\N\), 使得
\[m(n)=\omega(m^*(n))\Ra\lin\Pr[\mathcal P(\mathcal G(n,m(n)))]=1,\\ m(n)=o(m^*(n))\Ra\lin\Pr[\mathcal P(\mathcal G(n,m(n)))]=0. \]另外:
- 如果存在 \(\eps>0\) 使得上述两条分别替换为 \((1\pm\eps)m^*(n)\) 仍然成立, 则称 \(m^*\) 是 sharp 阈值.
- 如果存在 \(\eps(n)=o(1)\), 使得上条替换仍然成立, 则称 \(m^*\) 是 super sharp 阈值.
→ Proof. 若 \(m=m^*\cdot k\), 其中 \(k=\omega(1)\), 由单调性我们知道
另一侧同理 (\(m^*=m\cdot k\), \(k=\omega(1)\)), 这样, 构造
显然它就是一个合法的阈值函数.
例如, 在 \(\mathcal G=\mathcal G\br{n,\frac{\ln n-\alp(n)}{n}}\) 上, 某个点孤立的概率为
则 \(\Ex[\#\{\text{isolated}\}]=\e^{\alp(n)}\), 而
所以
另一方面, 我们可以直接求小连通块的期望数量. 对 \(p=\frac{\ln n+\alp(n)}{n}\) 有
所以 \(k\ge 3\) 的时候都是小量. 对 \(k=2\) 单独估算也能得到 \(o(1)\) 的界, 最终就知道 \(\Pr[\mathcal G~\text{unconnected}]=o(1)\).
定理 13.3.4 (Lovász 局部性引理)
对 \(n\) 个事件 \(\seq A1n\), 设 \(G=(V,E)\) 满足 \(A_v\) 对 \(\{A_u\}_{u\neq v\land (u,v)\notin E}\) 独立. 设 \(p=\max\Pr[A_i]\), \(d\) 为图中最大度, \(\e pd<1\), 则 \(\Pr[\A v~\lnot A_v]>0\).
例如, 我们尝试对 \(d\)-正则图 \(G\) 进行边染色, 使得其不包含同色三角形. 我们对每条边均匀随机染 \([1:c]\) 中的颜色, 记坏事件 \(A_{uvw}\) 表示 \((u,v,w)\) 是同色三角形, 则在 \(A\) 的依赖关系图中, 最大度 \(\Delta\le\frac{3(d-2)}{2}\), 设 \(\Pr[A_{uvw}]\le\frac{1}{c^2}\), 取 \(c\ge\sqrt{\frac{3}{2}(d-2)}\) 即可保证方案存在.

浙公网安备 33010602011771号