随笔档案「2014年9月13日」：每日一个机器学习算法——k近邻分类 ... - IT屁民

2014年9月13日

摘要： K近邻很简单。简而言之，对于未知类的样本，按照某种计算距离找出它在训练集中的k个最近邻，如果k个近邻中多数样本属于哪个类别，就将它判决为那一个类别。由于采用k投票机制，所以能够减小噪声的影响。由于KNN方法主要靠周围有限的邻近的样本，而不是靠判别类域的方法来确定所属类别的，因此对于类域的交叉或重叠较... 阅读全文

posted @ 2014-09-13 19:35 IT屁民阅读(659) 评论(0) 推荐(0)

每日一个机器学习算法——信息熵

摘要： 1 定义2 直观解释信息熵用来衡量信息量的大小若不确定性越大，则信息量越大，熵越大若不确定性越小，则信息量越小，熵越小比如A班对B班，胜率一个为x，另一个为1-x则信息熵为 -(xlogx + (1-x)log(1-x))求导后容易证明x=1/2时取得最大，最大值为2也就是说两者势均力敌时，不确定性... 阅读全文

posted @ 2014-09-13 19:20 IT屁民阅读(21348) 评论(1) 推荐(2)

圣哥的技术狗窝

Happy coding, happy life~

公告