10 2018 档案

摘要:一、logistic回归概述 主要是进行二分类预测,也即是对于0~1之间的概率值,当概率大于0.5预测为1,小于0.5预测为0.显然,我们不能不提到一个函数,即sigmoid=1/(1+exp(-inX)),该函数的曲线类似于一个s型,在x=0处,函数值为0.5. 于是,为了实现logistic分类 阅读全文
posted @ 2018-10-24 21:08 Python少年 阅读(10253) 评论(0) 推荐(1)
摘要:1 准备知识:条件概率公式 相信学过概率论的同学对于概率论绝对不会陌生,如果一时觉得生疏,可以查阅相关资料,在这里主要是想贴出条件概率的计算公式: P(A|B)=P(A,B)/P(B)=P(B|A)*P(A)/P(B) 2 如何使用条件概率进行分类 假设这里要被分类的类别有两类,类c1和类c2,那么 阅读全文
posted @ 2018-10-24 12:37 Python少年 阅读(431) 评论(0) 推荐(0)
摘要:决策树 优点:计算复杂度不高,输出结果易于理解,对中间值的缺少不敏感,可以处理不相关特征数据 缺点:过拟合 决策树的构造 熵:混乱程度,信息的期望值 其中p(xi)是选择分类的概率 熵就是计算所有类别所有可能值包含的信息期望值,公式如下: (公式2) 构造基本思路 信息增益 = 初始香农熵-新计算得 阅读全文
posted @ 2018-10-16 20:56 Python少年 阅读(419) 评论(0) 推荐(0)
摘要:K近邻算法简单概述 K近邻算法采用测量不同特征值之间的距离方法进行分类 该方法的思路是:如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近),那么这k个实例中大多数属于哪个类别,则该样本也属于这个类别。 其中,计算样本与其他实例的相似性一般采用距离衡量法。离得越近越相似,离得越远越不相似 阅读全文
posted @ 2018-10-01 20:23 Python少年 阅读(298) 评论(0) 推荐(0)