摘要:在机器学习算法(如二叉树)、特征选择(互信息)中经常用到熵的概念,信息熵的概念以及介绍网上有很多,这里主要做一个直观的介绍。 1. 信息的度量 2. 信息熵 一、 信息量 常常把消息中有意义的内容成为信息。我们常常说,某人说的某句话信息量很大,具体在信息论中,其实指的是他说的这句话消除的不确定性多。
阅读全文
05 2017 档案
摘要:在机器学习算法(如二叉树)、特征选择(互信息)中经常用到熵的概念,信息熵的概念以及介绍网上有很多,这里主要做一个直观的介绍。 1. 信息的度量 2. 信息熵 一、 信息量 常常把消息中有意义的内容成为信息。我们常常说,某人说的某句话信息量很大,具体在信息论中,其实指的是他说的这句话消除的不确定性多。
阅读全文
摘要:在机器学习中,特征选择主要有两个目的: 1. 减少特征数量,提高训练速度 2. 减少噪声特征从而提高模型在测试集上的准确率。一些噪声特征会导致模型出现错误的泛化,容易产生overfitting。 常用的特征选择算法有很多,这里着重介绍其中两个:卡方检验和互信息 一、卡方检验 1. 卡方分布 在说卡方
阅读全文
|