詹晴天

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

05 2017 档案

摘要:在机器学习算法(如二叉树)、特征选择(互信息)中经常用到熵的概念,信息熵的概念以及介绍网上有很多,这里主要做一个直观的介绍。 1. 信息的度量 2. 信息熵 一、 信息量 常常把消息中有意义的内容成为信息。我们常常说,某人说的某句话信息量很大,具体在信息论中,其实指的是他说的这句话消除的不确定性多。 阅读全文
posted @ 2017-05-16 22:39 詹晴天 阅读(1549) 评论(0) 推荐(0)

摘要:在机器学习中,特征选择主要有两个目的: 1. 减少特征数量,提高训练速度 2. 减少噪声特征从而提高模型在测试集上的准确率。一些噪声特征会导致模型出现错误的泛化,容易产生overfitting。 常用的特征选择算法有很多,这里着重介绍其中两个:卡方检验和互信息 一、卡方检验 1. 卡方分布 在说卡方 阅读全文
posted @ 2017-05-15 18:43 詹晴天 阅读(1265) 评论(0) 推荐(0)