摘要: KNN(K Nearest Neighbors,K近邻 )算法是机器学习所有算法中理论最简单,最好理解的。KNN是一种基于实例的学习,通过计算新数据与训练数据特征值之间的距离,然后选取K(K>=1)个距离最近的邻居进行分类判断(投票法)或者回归。如果K=1,那么新数据被简单分配给其近邻的类。KNN算法算是监督学习还是无监督学习呢?首先来看一下监督学习和无监督学习的定义。对于监督学习... 阅读全文
posted @ 2015-12-18 21:35 ZHOU YANG 阅读(879) 评论(0) 推荐(0)
摘要: 1.贝叶斯定理 设X是数据元组。在贝叶斯的术语中,X看做是证据。通常,X用n个属性集的测量值描述。令H为某种假设,如数据元组X属于某个特定类C。对于分类问题,希望确定给定证据或者观测数据元组X,假设H成立的概率为P(H|X)。换言之,给定X的属性描述,找出元组X属于类C的概率。 P(H|X)是后验概率,或在条件X下,H的后验概率。例如,设数据元组限于分别由属性age和income描述的... 阅读全文
posted @ 2015-12-18 21:31 ZHOU YANG 阅读(3499) 评论(0) 推荐(0)