小kk_p - 博客园

2017年12月

摘要： ID3算法： ID3算法就是在决策树上各个结点应用信息增益准则作为特征筛选，然后递归的构建决策树。具体算法如下所示：输入：训练数据集D，特征集A，阈值e 输出：决策树T （1）若D中所有实例属于同一类Ck，则T为单结点树，并将Ck作为该结点的类标记，返回T （2）若A为空，则T为单结点树，并将D中阅读全文

posted @ 2017-12-02 19:09 小kk_p 阅读(325) 评论(0) 推荐(0)

决策树算法（1）

摘要：决策树本质就是从训练数据集中归纳出一组分类规则，通过训练与数据集矛盾较小的决策树，同时具有较好的泛化能力。通常该算法是一个递归的选择最优特征，并根据该特征对训练数据集进行分割，使得对各个子数据集具有较好的分类的过程。最开始将所有特征都放置在根结点，选择最优特征，按照特征将训练集进行划分，使各子集阅读全文

posted @ 2017-12-01 22:56 小kk_p 阅读(597) 评论(0) 推荐(0)

2017年11月

朴素贝叶斯算法

摘要：（1）朴素贝叶斯基本方法：输入数据有：标记集合 y={c1,c2,...ck}, 特征向量x , 也即训练数据集T={(x1,y1),(x2,y2),....(xn,yn)} 朴素贝叶斯法通过训练数据集学习联合概率分布P(X,Y)（通过联合概率分布P(X,Y)进行不同条件概率的转换）, 先验概率分阅读全文

posted @ 2017-11-30 00:03 小kk_p 阅读(343) 评论(0) 推荐(0)

k近邻算法

摘要：这个算法较为简单，主要思想就是给定分好类的数据集，然后将新输入的数据集进入训练集中找到与之最相近的k类，然后将k类所属类别最多的一类作为新数据的分类结果。注：k的取值对模型拟合效果和预测效果影响较大其中距离函数有如下表示形式：当上式的p为2时，也就是欧式距离；当上式p为1时，也就是曼哈顿距离。阅读全文

posted @ 2017-11-29 15:33 小kk_p 阅读(388) 评论(0) 推荐(0)

感知机算法基础形式及对偶形式算法

摘要：知识预备：数据线性可分：对于给定数据集T={(x1,y1),(x2,y2),...,(xn,yn)},；若存在平面wx+b=0将正实例点和负实例点正确划分到两侧，也就是对所有yi=+1的实例，都有wxi+b>0, 对于所有yi=-1的实例，都有都有wxi+b<0；那么就称数据集T为线性可分数据。阅读全文

posted @ 2017-11-25 18:13 小kk_p 阅读(793) 评论(0) 推荐(0)

python基本数据预处理语法函数(1)

摘要： numpy包： pandas包： math包： collection包：其他： def aa(ali): for i in ali: i=i+1 yield i+5 b=aa([1,2,3,4]) [w for w in b] #返回[7,8,9,10] sys包： os包： assert用法：阅读全文

posted @ 2017-11-24 12:13 小kk_p 阅读(785) 评论(0) 推荐(0)

正则化的L1范数和L2范数

摘要：范数介绍：https://www.zhihu.com/question/20473040?utm_campaign=rss&utm_medium=rss&utm_source=rss&utm_content=title 首先介绍损失函数，它是用来估量你模型的预测值f(x)与真实值Y的不一致程度主要阅读全文

posted @ 2017-11-23 21:48 小kk_p 阅读(1976) 评论(0) 推荐(0)

公告