摘要: 机器学习算法-PCA降维 一、引言 在实际的数据分析问题中我们遇到的问题通常有较高维数的特征,在进行实际的数据分析的时候,我们并不会将所有的特征都用于算法的训练,而是挑选出我们认为可能对目标有影响的特征。比如在泰坦尼克号乘员生存预测的问题中我们会将姓名作为无用信息进行处理,这是我们可以从直观上比较好 阅读全文
posted @ 2018-07-10 23:56 d_760 阅读(416) 评论(0) 推荐(0) 编辑
摘要: 机器学习算法·决策树和朴素贝叶斯算法 一、问题描述 1912年当时世界上体积最庞大,内部设施最豪华的客运轮船’泰坦尼克号’,拥有美誉‘永不沉没’。然而在第一次下水穿越大西洋时,就在航行中撞上冰山,永远沉没海底。船上丧生者达到1500多人。假如我们穿越时空回到了过去,成为船上的一名普通乘客,那么我们有 阅读全文
posted @ 2018-07-10 23:56 d_760 阅读(3022) 评论(0) 推荐(0) 编辑
摘要: 机器学习算法应用·KNN算法 一、问题描述 验证码目前在互联网上非常常见,从学校的教务系统到12306购票系统,充当着防火墙的功能。但是随着OCR技术的发展,验证码暴露出的安全问题越来越严峻。目前对验证码的识别已经有了许多方法,例如CNN,可以直接输入图片进行识别。验证码分为许多种类,本文以传统的字 阅读全文
posted @ 2018-07-10 23:56 d_760 阅读(515) 评论(0) 推荐(0) 编辑
摘要: 基于SVM的字母验证码识别 摘要 本文研究的问题是包含数字和字母的字符验证码的识别。我们采用的是传统的字符分割识别方法,首先将图像中的字符分割出来,然后再对单字符进行识别。首先通过图像的初步去噪、滤波、形态学操作等一系列预处理过程,我们能够将图像中的噪点去除掉。为了将字符分割开来,我们利用Kmean 阅读全文
posted @ 2018-07-10 23:55 d_760 阅读(941) 评论(1) 推荐(1) 编辑
摘要: Logistic回归算法调试 一、算法原理 Logistic回归算法是一种优化算法,主要用用于只有两种标签的分类问题。其原理为对一些数据点用一条直线去拟合,对数据集进行划分。从广义上来讲这也是一种多元线性回归方法,所不同的是这种算法需要找出的是能够最大可能地将两个类别划分开来而不是根据直线关系预测因 阅读全文
posted @ 2018-07-10 23:55 d_760 阅读(489) 评论(0) 推荐(0) 编辑
摘要: 一、回归预测简介 现在我们知道的回归一词最早是由达尔文的表兄弟Francis Galton发明的。Galton在根据上一年的豌豆种子的尺寸预测下一代豌豆种子的尺寸时首次使用了回归预测。他在大量的对象上应用了回归分析,包括人的身高。他注意到,如果双亲的高度比平均高度高的话,则他们的子女也倾向于比平均身 阅读全文
posted @ 2018-06-05 13:46 d_760 阅读(12840) 评论(0) 推荐(0) 编辑
摘要: 一、算法简介 Adaboost算法是一种集成算法,所谓集成算法就是将多个弱的分类器组合在一起变成一个强的分类器。弱分类器通常是指分类效果比随机分类稍微好一点的分类器。就像我们在做一个重要决定的时候,通常会请教多个人的意见而不是一个人的意见,我们会综合考虑多个方面最终才会下决定。假如此时远处走来一个人 阅读全文
posted @ 2018-06-05 13:33 d_760 阅读(251) 评论(0) 推荐(0) 编辑
摘要: Svm(support Vector Mac)又称为支持向量机,是一种二分类的模型。当然如果进行修改之后也是可以用于多类别问题的分类。支持向量机可以分为线性核非线性两大类。其主要思想为找到空间中的一个更够将所有数据样本划开的超平面,并且使得本本集中所有数据到这个超平面的距离最短。 一、基于最大间隔分 阅读全文
posted @ 2018-05-21 05:20 d_760 阅读(13905) 评论(0) 推荐(2) 编辑