MaxEnt与EM算法_七月算法4月机器学习班第8次课程笔记

Posted on 2016-05-25 18:19 洞明阅读(877) 评论(0) 编辑收藏举报

2016/5/16 星期一 12:23

	desc
从泛函的角度理解最大熵算法	熵本身就是一个泛函，p(x) 是概率密度函数，即是一个函数 H(x) = -Σp(x)·logp(x) # input is 函数，所以是函数的函数 MaxEnt model，希望找到一个概率分布，这个概率分布的熵最大，所以这是一个泛函问题 # 我以前的思路就是，遍历所有的分布， try，然后找到熵最大的分布 # 但是建立泛函思想，以后，即函数可以对函数求导，dH(x)/dp(y\|x)，由此可以得到熵最大的那个概率密度函数。经过 take 约束 into consideration，求导后得到符合熵最大的那个概率密度函数 if get 到想要的概率密度函数，该怎么用？===> argmax 啊！由于get 到的概率密度函数是有参数的，所以需要数据进行训练，然后拿到具体的概率密度函数然后用的时候，就是在这个概率密度函数下， argmax ，找到概率最大的 y 就可以
最大熵模型 from view of 泛函	最大熵模型是一个泛函问题 1. 输出是一个函数，因为 argmax this function 最大熵的本质是在找分布的 2. 输入数据仅仅是在给定概率密度族下，确定具体的参数形状 3. 当输出 general 的概率密度函数族的时候，至此模型基本已经完毕，剩下的就是用数据求解具体 w 了
一个观点	最大熵的输出，这个符合熵最大的概率密度函数的形式：是概率密度函数的 general 通用表达式，此时不必再正态分布，泊松分布的一个个去试了这个应该是最大熵求解过程的最大贡献【观点】即：类似 Taylor 展开式可以将任意函数展开为多项式类似傅里叶变换可以将任意函数展开为三角函数整理的e 组合，可以将all 概率密度函数展开为指数的表达式
泛函的概念	1. 函数的函数就是泛函 2. 将一个函数降维为一个 scalar ，这也是泛函的范畴关于泛函：input 函数，output scalar 所以统一了上面两点：即泛函的输入时函数，输出是一个标量比如熵，熵的输入时概率密度函数，是函数到标量的映射而这个泛函的具体方法，比如说就是把这个 input 的函数的所有定义域的对应的函数值相加，这样就是一种泛函方法，再就是这个 H(x) 的方法，就是定义域内的 pΣlogp 的，也是一种泛函方式
两个概念	1. 信息与概率是一对反义词概率大，信息少，概率小，信息大，由此===>使用choose -log 函数 that is why 自信息是 -log 信息就是对不确定性的度量，概率就是对确定性的度量使用 -log(p) 作为信息，称为自信息 2. 自信息和互信息自信息就是 -log(p)，互信息的概念，语义解释为：给了 y，相当于揭示了 x 多少信息关于联合熵，条件熵和互信息使用韦恩图来记忆对熵的另一种观点：熵是自信息的期望
指标的使用	即：条件熵，相对熵，交叉熵都可以衡量差异性条件熵越大，那么自然 X Y 的交集越少，所以差异越大互信息，即交集越大，自然越相似
了解 GMM 如何应用的	也是 argmax 相当于知道了具体的
解释最大熵	最大熵的使用准则就是：承认事实，对未知不做假设 1. 条件熵最大体现了承认事实这个准则 2. 最大化，体现了对未知不做假设最大熵其实就是找一个分布，使得该分布的泛函最大故直接写出条件熵的公式，然后：使用拉式定理处理约束条件
熵的思想	事件发生的概率越小，那么包含的信息就越多 # 因为有很多你不知道的前提是，你不知道的事和你知道事的形态集合是一样大的，不要认为你不知道的事就是配角反而意味着有大的信息量
计算期望	离散用概率作加权和连续用概率密度作加权积分
最大熵模型的最优化问题	P_(x) 这个是从语料中得来
数学观点本质	【观点】 SVM的问题是一个的凸优化问题 PCA 的问题是一个对角化的问题 MaxEnt 的问题是一个泛函的问题

EM 算法	EM 算法是一个生成模型这里理解两个变量，即：z 和 Z z is a vector to representation categories Z is a matrix to representation each data each category's probability 即，对于隐变量Z 1. 是一个 matrix 2. for each in data: for cate in category: Z[each][cate] I argue EM 算法最大的贡献是这个 Z 的确定 # 注意：z 是类别向量，是确定的；而 Z 才是隐变量最后如果使用隐变量的话，就是： max(Z, axis = 1)，即每一个 data 属于那个类别然后依据这些 data label 数据，估计分布的参数，这个是 M 步骤要做的
model 嵌套 EM	1. 一般使用 EM 算法的是生成模型 2. EM 算法的输出 Z 是核心 3. EM 算法输出不一定是 model 的输出比如 EM 的输出是 Z，但是 GMM 的输出是 μ，Σ，π 4. EM 算法的输出可以直接导出 GMM 的输出： μ，Σ，π 5. 对于GMM 来说，如果知道了 μ，Σ，π，那么相当于知道了男女各自的概率密度，然后来一个 data，分别放到这两个概率密度中，看属于哪个的概率大，就是属于哪个 GMM 的使用也是 argamx，相当于知道了概率密度
典型的生成模型	贝叶斯： P(y\|x) ∝ P(x\|y)·P(y) = P(x,y) 所以其实你每次都在用 P(x,y) 来代替这个 P(y\|x)啊！ # 虽然知道了生成模型，但是如果要进行判别，还是得划归到 P(y\|x) 上 HMM的已知观测状态序列问题：前提是从语料中，get 到了 P(state, observation)

极大似然估计	使用MLE 的时候，Xi 因为是存在的样本，所以视为固定而参数Θ 视为变量 MLE 使用的前提条件 1. 发生的即最可能发生的 2. 发生的事件之间独立同分布
MLE 与监督的关系	使用 MLE 不一定无监督比如 LR，就是有监督的使用MLE，因为相乘的时候，到底是 p1(属于第1类事件) 还是使用 p2(属于第2类事件) 需要你知道的 GMM 等使用 EM 算法的是无监督的
启发	一般而言，绝大多数的分类问题都可以使用 EM算法但是这个分类问题需要建立概率model，即 MLAPP a probability perspective 这真成了一个算法框架了不知道类别，没关系，遍历P(x, zj) 然后 Jessen 操作而关键点在于，这个Q 函数和 P(xi, zj ;Θ) 到底怎么表示，这个是需要想办法的地方， # 一般而言，Qi 是该样本点 data_i 到各个类别的距离，然后归一化而对于 P(xi, zj ;Θ)，在k-means 当中，使用的是： M步的时候：该点data_i 到其类别中心的距离 A = ΣΣ Rik · \|\|data_i - μk\|\|2 即用距离反映 P(xi, zj) 的概率。距离大，那么概率小，距离小，那么概率大 L = A^(-1) M 步就是在更新 μk，其中 μk 就是参数Θ 而每次E步的时候： R 则是隐变量 Z，而对于 each data_i，zi 就是一个 vector，此时将其设置为 one hot 的类型即只有一个为1，其余的为0，又被称为指示函数 summary 在 k-means 当中 · Θ是 μk · R 是 Z · \|\|data_i - μk\|\|2 反映概率 P(xi, zj;Θ)的倒数这里没有取log · 每次都把 R one hot 化了 EM 算法应用在在分词上，那个的 EM 的变量体现的不是很明显，而是重新定义了 Q 和 P 的求法，即是在 EM 框架内，但是不是纯碎的 EM 算法每次的 Q 就是看各种候选的分词方法的概率（词概率的乘积）每次的 P 就是在更新词频，以备 E步再次使用最终得到整个的Z，就是每个句子的分词方法，即 EM 的输出就是 model 的输出
使用决策树	可以对：特征进行评价根据熵的增益，其实就是评价互信息？
条件熵	条件熵视为熵的熵
关于MaxEnt的归一化	已知求出进行归一化，其实分母是一个常数，所以全部相加，然后分子上也有这么一个常数所以分子分母全部约掉了，所以才有这个是归一化的数学操作，而不是高深的操作
非对偶式	我认为在 MaxEnt 当中是没有对偶式的即：我只认为最大化条件熵，然后得到概率密度函数至于下一步的最大化，这个是通用的啊 general 即：知道概率密度函数了，所以自然是找概率最大的那个 y 值了，argmax
互信息与平均互信息	自信息是： i(x) = -log(P(x)) i(y\|x) = - log(P(y\|x)) 那么 i(x,y) = i(x) - i(y\|x) = -log(P(x)/P(y\|x)) 定义 i(x,y) 为自信息而自信息的期望，即： ΣΣP(x,y)·i(x,y) = -ΣΣP(x,y)·log(P(x)/P(y\|x)) 就是平均互信息而平均互信息就是 I(x,y) = H(x) - H(x\|y)，其实就是在衡量 X 和 Y 之间的相似度那么就可以用一个新的 view 看待决策树了 I have a function, I can get each feature 与 tag 的互信息，那么 for feature in feature_list: I(feature, tag) 找出与 tag 的互信息最大的那个feature，作为分叉的选择，然后迭代剩余的feature 不要使用 H(X) - H(X\|Y)，这样看比较复杂，直接使用这个差值的物理意义，即互信息互信息具有衡量两个随机变量相似度的能力
NEW 决策树	新型决策树分别使用：平均互信息（即：信息增益），条件熵的倒数、交叉熵、相对熵、相关系数、后验概率、逻辑回归后的权重、卡方检验的伴随概率p值排序来作为决策树的分叉依据如果你搞懂每次决策树其实就是在衡量每一个 feature 与类别的互信息相似度的话，那么就能联想到这里了
知道 How to use GMM 就好操作了	GMM 是一个无监督的分类模型 input data 的feature，指定分为几类前提假设是：这几类均服从高斯分布然后求出各个类的概率密度函数，然后 for each data 再 argmax 就可以了启发：可以有泊松混合模型，即： PMM
summary	1. 决策树的扩展 2. 从 GMM 到破松混合分布 3. MaxEnt 是泛函 4. EM 中的Z 是一个矩阵，而 P 和 Q 都好求 5. 评价随机变量（概率分布）相似度的四个熵的指标：条件熵的倒数，互信息，交叉熵和相对熵相对熵KL散度，已经有使用了互信息在决策树中有使用

会员力量，点亮园子希望

刷新页面返回顶部

洞明先生的博客

MaxEnt与EM算法_七月算法4月机器学习班第8次课程笔记