随笔分类 - 数学基础
摘要:定义一个事件 $X=x$ 的 自信息 为 $$ I(x) = \log P(x) $$ 信息熵 简称 熵 , 是表示随机变量不确定性的度量. 定义为 $$ H(X) = \mathbb{E}_{X \sim P}[I(x)] = \mathbb{E}_{X \sim P} [\log P(x)] $
阅读全文
摘要:概率图模型 概率图模型把基于图的表示作为在高维空间上紧凑编码复杂分布的基础. 下图中, 节点 (或椭圆) 与问题中的变量对应, 而边与它们之间的直接概率交互对应: 在线查询: http://pgm.stanford.edu/ 中译本: 概半图模型:原理与技术 / (美国) Kollcr D., (以
阅读全文
摘要:第 1 章 凸优化基础 无论做任何事情,人们总是希望以最小的代价获得最大的利益,力求最好! 为此,人们发明各式各样的数学工具:导数,积分等。 现代优化理论大都来源于处理多元问题的理论,它有三个重要的基础: 矩阵理论: 矩阵 是描述多元问题的最基本的工具,为多元问题分析和求解提供了基本的数据结构,同时
阅读全文
摘要:理论基础 下面该栏目列出一些可能会用到的已经证实的理论! 大多数的理论均来自[^1]. [^1]: 匡继昌.实分析与泛函分析[M].北京:高等教育出版社.2002.8 对于 $\forall x,y,z \in X$, 若存在映射 $$ \begin{aligned} d:\; &X \times
阅读全文
摘要:上接 "梯度寻优 (二)" "Notebook" 在 "梯度寻优" 中我们提到了「凸集与分离定理」,由此我们知道: 使用最优化方法分类数据集就是寻找支撑超平面的过程. 如果此超平面是一个 $n$ 维的线性方程组, 我们就称之为 线性分类器 (神经网络, 支持向量机, 深度学习等非线性分类器以其为理论
阅读全文
摘要:上接 "凸优化基础" 扩展: "机器学习中的几个概念的关系" 2.1 逐次逼近法 使用主元消去法求解线性方程组 $Ax = b$ 相信大家都不陌生,但是对于 $A$ 的阶数很大且零元素很多的大型稀疏矩阵方程组,使用主元消去法求解将会是一个很大的挑战。鉴于此,逐次逼近法 (或称为 "迭代法" [^1]
阅读全文
摘要:简介 HMM 中的变量可以分为两组. 第一组是 状态变量 $\{y_i,y_2,\cdots, y_n\}$, 其中 $y_i \in \mathcal{Y}$ 表示第 $i$ 时刻的系统状态. 通常假定状态变量是隐藏的、不可观测的, 因此状态变量亦被称为 隐变量 (hidden variable)
阅读全文
摘要:统计基础概念 在多元变量分析中,我们考虑所有的 $d$ 个数值型属性 $X_1, \cdots, X_d$。整个数据集是一个 $n \times d$ 的矩阵,即( 数据矩阵 ): $$ D = \left[ \begin{array}{c|llll} & X_1 & X_2 & \cdots &
阅读全文
摘要:矩阵 参考: "机器学习基础" 一般而言,一个对象应该被视为完整的个体,表现实中有意义的事物,不能轻易拆分。 对象 是被特征化的客观事物,而 表 (或矩阵)是容纳这些对象的容器。换句话说,对象是表中的元素,表是对象的集合(表中的每个对象都有相同的特征和维度,对象对于每个特征都有一定的取值)。 分类
阅读全文
摘要:简介 缩小图像(或称为 下采样 (subsampled)或 降采样 (downsampled))的主要目的有两个: 1. 使得图像符合显示区域的大小; 2. 生成对应图像的缩略图。 放大图像(或称为 上采样 (upsampling)或 图像插值 (interpolating))的主要目的是放大原图像
阅读全文
摘要:郑捷《机器学习算法原理与编程实践》学习笔记(第一章 机器学习基础) 机器学习 对象 是指含有一组特征的行向量,也称为 特征向量 。 一般而言,一个对象应视为完整的个体,代表现实中有意义的事物,不能轻易拆分。 对于文本类数据集,需要首先生成词袋列表,再将每个词出现的词频数值化。 例如: 1. My d
阅读全文
摘要:matrix: 矩阵,更多参考 "英文" ) Submatrix:子矩阵 Linear equations:线性方程组 Linear transformations:线性变换 Square matrix:方阵 Identity matrix:单位阵 Diagonal and triangular m
阅读全文