机器学习算法 - 随笔分类 - 宁静是一种习惯

聚类算法的评估应面向具体问题

摘要：现在要对所有的人进行分类, 如何进行? 通常的套路是: 按照性别来分, 可以分为男人/女人/others. 按照肤色来分, 可以分为白种人/黄种人/黑种人/... 按照国籍来分, 可以分为中国人/美国人... 按照... 显然, 按照不同的分类标准有不同的分类结果. 所以对聚类算法来说, 是没有什么阅读全文

posted @ 2017-01-13 15:38 宁静是一种习惯阅读(402) 评论(0) 推荐(0)

层次化聚类

摘要：Hierarchical Clustering(HC). 本文讨论自下而上的聚合(Agglomerative)方法. 输入输出是什么? 输入: 无标签的数据输出: 一棵层次化的分类树. 算法思想类似于selective search(SS)方法: 1. 初始化: ss 利用Graph base 阅读全文

posted @ 2017-01-12 19:56 宁静是一种习惯阅读(597) 评论(0) 推荐(0)

度量与非度量方法

摘要：Metric and Non metric methods. 度量方法的特点是feature vector是数值表达的, 且vector与vector之间可以计算距离/相似性. 大部分常见的机器学习算法都是metric methods. 非度量方法则不需要将feature数值化, 也不能/不需要计算阅读全文

posted @ 2016-12-08 23:53 宁静是一种习惯阅读(1214) 评论(0) 推荐(0)

机器学习算法的分类

摘要：[TOC] 大体来说, 可以分为三类. 有监督学习有输入$x$, 有标签$y$. 学习一个函数$y=f(x)$将$x$映射到$y$. 理论上来说, $y$可以是任意的. 当$y$是不连续的: 称为分类(Classification) , 或模式识别(Pattern Recognition) 当阅读全文

posted @ 2016-12-08 13:01 宁静是一种习惯阅读(371) 评论(0) 推荐(0)

信息熵与信息熵增益

摘要：信息数据的信息属性是与任务相关的. 对于分类任务, 标签值$y$包含的信息量为: $$ info(y) = ln p(y) $$ 其中, $p(y)$为$y$出现的概率. $p(y)$越小, $y$包含的信息量越大. 这是符合直觉的. 熵熵定义为信息的期望值. 一个可以分为$m$类的数据集$S$ 阅读全文

posted @ 2016-12-06 23:54 宁静是一种习惯阅读(1133) 评论(0) 推荐(0)

Cross-Entropy Loss 与Accuracy的数值关系

摘要：以分类任务为例, 假设要将样本分为$n$个类别. 先考虑单个样本$(X, z)$. 将标题$z$转化为一个$n$维列向量$y = (y_1, \dots y_k, \dots, y_n)^T$: $$ y_k= \begin{cases} 0& k \neq z \\ 1& k = z \end{c 阅读全文

posted @ 2016-12-05 11:13 宁静是一种习惯阅读(15348) 评论(3) 推荐(0)

什么时候可以将神经网络的参数全部初始化为0?

摘要：训练神经网络时, 什么时候可以将参数全部初始化为0? 阅读全文

posted @ 2016-09-12 22:30 宁静是一种习惯阅读(5636) 评论(0) 推荐(0)

什么是线性判别函数?

摘要：狭义: 判别函数是输入向量$x=(x_1, x_2, \dots, x_m)^T$的各分量的线性函数: $$ f(x) = w_0 +x_1w_1 + x_2w_2 + \dots + x_m w_m $$ 它是输入空间$H$的一个超平面. 广义的线性判别函数: 与 "kernel methods" 阅读全文

posted @ 2016-07-03 21:42 宁静是一种习惯阅读(624) 评论(0) 推荐(0)

参数化方法与非参数化方法

摘要：Parametric and non parametric methods. 区分参数化方向与非参数化方法的最快捷方式是, 参数化方法的参数数量是固定的, 不随着训练样本数量的变化而变化. 例如MLP, CNN, SVM等算法都是参数化方法. 而k近邻, decision tree等, 都是非参数化阅读全文

posted @ 2016-07-03 00:22 宁静是一种习惯阅读(3880) 评论(0) 推荐(0)

梯度下降法

摘要：试图形象的理解梯度下降法的原理阅读全文

posted @ 2016-06-03 18:53 宁静是一种习惯阅读(955) 评论(1) 推荐(0)

从神经网络视角看均方误差与交叉熵作为损失函数时的共同点

摘要：以均方误差或交叉熵误差作为loss function的NN, 其输出神经元的敏感度是它的激活值与目标值的差值阅读全文

posted @ 2016-05-31 16:38 宁静是一种习惯阅读(11103) 评论(2) 推荐(0)

关于机器学习算法中的标记习惯

摘要：机器学习算法中的个人标记习惯阅读全文

posted @ 2016-05-29 17:02 宁静是一种习惯阅读(459) 评论(0) 推荐(0)

线性回归, 逻辑回归和线性分类器

摘要：理一理线性回归, 逻辑回归和线性分类器之间的关系. 阅读全文