随笔分类 -  【机器学习】基础

摘要:正态分布对于正态分布,首先补充其理论知识,然后我们根据中的计算步骤,进行编程实现.正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。... 阅读全文
posted @ 2018-09-05 21:51 FontTian 阅读(697) 评论(0) 推荐(0)
摘要:离散概率计算与分布的应用在原书的这两章离散概率计算与分布的应用,重点在于概念的理解和公式的记忆. 而对于整本书而言,四五六章其实都作为第七章:三种离散概率分布,第八,九章,正态分布(连续概率分布之一)做铺垫. 主要包括以下内容: 1. 期望与方差的计算 2.... 阅读全文
posted @ 2018-07-02 20:31 FontTian 阅读(653) 评论(0) 推荐(0)
摘要:R语言简介与案例(本文为一次向计算机零基础人群演讲时,应要求所写演示内容)一. R语言是什么? 如果说统计学是人类历史上的一次伟大跨越,那么R语言就是就是帮助统计学家走的更远的一双翅膀.R语言是什么?R语言就是一门帮助统计学家在计算机上进行数学计算的语言,有了它统计学... 阅读全文
posted @ 2018-06-22 09:46 FontTian 阅读(2342) 评论(0) 推荐(0)
摘要:之前在比赛的时候需要用Python实现灰色关联分析,从网上搜了下只有实现两个列之间的,于是我把它改写成了直接想Pandas中的计算工具直接计算person系数那样的形式,可以对整个矩阵进行运算,并给出了可视化效果,效果请见实现灰色关联分析法对于两个系统之间的因素,其随... 阅读全文
posted @ 2018-06-07 13:22 FontTian 阅读(14437) 评论(1) 推荐(0)
摘要:留出法(hold-out)使用 n:m and n + m =1 的形式对原数据进行分割,例如 train : test = 7 : 3 or train : test = 6.5 : 3.5 但是这种相对原始的处理方式效果并不好,缺点如下: 缺点一:浪费数据缺点二:... 阅读全文
posted @ 2018-01-31 17:08 FontTian 阅读(267) 评论(0) 推荐(0)
摘要:回归决策树通过使用 DecisionTreeRegressor 类也可以用来解决回归问题。如在分类设置中,拟合方法将数组X和数组y作为参数,只有在这种情况下,y数组预期才是浮点值:下面是简单的使用示例%matplotlib inlinefrom sklearn imp... 阅读全文
posted @ 2017-12-17 14:14 FontTian 阅读(700) 评论(0) 推荐(0)
摘要:sklearn中的朴素贝叶斯分类器之前理解朴素贝叶斯中的结尾对sklearn中的朴素贝叶斯进行了简单的介绍. 此处对sklearn中的则对sklearn中的朴素贝叶斯算法进行比较详细介绍.不过手下还是对朴素贝叶斯本身进行一些补充.朴素贝叶斯算法朴素贝叶斯算法的数学基础... 阅读全文
posted @ 2017-12-17 13:04 FontTian 阅读(3571) 评论(0) 推荐(0)
摘要:决策树决策树简介决策树是一种使用if-then-else的决策规则的监督学习方法.其三要素为,枝节点,叶节点与分支条件,同时为了减少过拟合还有剪枝方法 为了便于记忆,可以称其为一方法三要素决策树的优势便于理解和解释。树的结构可以可视化出来。训练需要的数据少。其他机器学... 阅读全文
posted @ 2017-12-17 11:55 FontTian 阅读(237) 评论(0) 推荐(0)
摘要:前言数据集算是比较重要的学习资料了吧,在这里汇总一些好用的数据集以便使用, 关于一些内容可以参考一下知乎的提问UCI常用数据集UCI 一个不错的数据集下载网站 此处介绍几个点击;想比较高的数据集,后面有下载和存储的代码以及有关问题的说明.使用方式点击官方网站,你可以看... 阅读全文
posted @ 2017-12-08 09:27 FontTian 阅读(376) 评论(0) 推荐(0)
摘要:前叙读前简介机器学习的流派很多,现在比较流行的便是联结学派,其计算的重点在于权重更新,而其它学派比如贝叶斯学派,基于统计学,进化学派则注重结构学习.本篇博客以线性感知器为基础,将会对神经网络与一些机器学习算法进行介绍,如果你只想简单的了解,那么可以浏览一遍即可,当然你... 阅读全文
posted @ 2017-11-17 12:02 FontTian 阅读(240) 评论(0) 推荐(0)
摘要:简介管道机制实现了对全部步骤的流式化封装和管理(streaming workflows with pipelines)。管道机制(也有人翻译为流水线学习器?这样翻译可能更有利于后面内容的理解)在机器学习算法中得以应用的根源在于,参数集在新数据集(比如测试集)上的重复使... 阅读全文
posted @ 2017-10-14 14:37 FontTian 阅读(279) 评论(0) 推荐(0)
摘要:简介对于数据科学而言,我们要做的第一件事情,必然是了解我们的数据.而在数据探索期间,pandas和matplotlib 则是我们进行数据探索的利器.本文主要分为三个部分,第一部分是利用pandas进行一些基础的数据分析,第二部分是利用pandas自身功能进行一些有用的... 阅读全文
posted @ 2017-10-10 07:42 FontTian 阅读(217) 评论(0) 推荐(0)
摘要:原文链接:点击打开链接《机器学习实战-数据探索(1、变量识别;2、单变量分析;3、双变量分析)》机器学习实战-数据探索(缺失值处理)机器学习实战-数据探索(异常值处理)上面三篇文章介绍了数据探索的前五步,机器学习更多内容可以关注github项目:machine lea... 阅读全文
posted @ 2017-10-09 20:47 FontTian 阅读(162) 评论(0) 推荐(0)
摘要:python下载anconda更新pip源 参考文章一: Python类库三两事 - 一次解决:http://blog.csdn.net/FontThrone/article/details/76560698 参考文章二:Anaconda多环境多版本python配置指... 阅读全文
posted @ 2017-08-10 10:51 FontTian 阅读(184) 评论(0) 推荐(0)
摘要:原文地址:http://www.ctocio.com/hotnews/15919.html偶然看到的一篇文章,这篇文章写的很清晰,所以转载一下,补充自己的知识库,以下为正文机器学习无疑是当前数据分析领域的一个热点内容。很多人在平时的工作中都或多或少会用到机器学习的算法... 阅读全文
posted @ 2017-07-22 20:00 FontTian 阅读(284) 评论(0) 推荐(0)
摘要:package cn.zhf.test; import java.io.*; import java.util.*; public class SpamMailDetection { public static final String BASE_PA... 阅读全文
posted @ 2017-07-01 22:54 FontTian 阅读(764) 评论(0) 推荐(0)
摘要:含义数据标准化和归一化存在区别 数据归一化是数据标准化的一种典型做法,即将数据统一映射到[0,1]区间上. 数据的标准化是指将数据按照比例缩放,使之落入一个特定的区间.意义求解需要 比如在SVM中处理分类问题是又是需要进行数据的归一化处理,不然会对准确率产生很大的影响... 阅读全文
posted @ 2017-07-01 16:29 FontTian 阅读(7695) 评论(0) 推荐(0)
摘要:作者:梁小h 转载自 http://nnetinfo.com/nninfo/showText.jsp?id=37========================这里是分割线============================1.数值问题。 无容置疑,归... 阅读全文
posted @ 2017-07-01 14:56 FontTian 阅读(289) 评论(0) 推荐(0)
摘要:delta法则尽管当训练样例线性可分时,感知器法则可以成功地找到一个权向量,但如果样例不是线性可分时它将不能收敛。因此,人们设计了另一个训练法则来克服这个不足,称为 delta 法则(delta rule)。如果训练样本不是线性可分的,那么 delta 法则会收敛到目... 阅读全文
posted @ 2017-06-29 13:41 FontTian 阅读(389) 评论(0) 推荐(0)
摘要:最近在看深度学习的东西,一开始看的吴恩达的UFLDL教程,有中文版就直接看了,后来发现有些地方总是不是很明确,又去看英文版,然后又找了些资料看,才发现,中文版的译者在翻译的时候会对省略的公式推导过程进行补充,但是补充的又是错的,难怪觉得有问题。反向传播法其实是神经网... 阅读全文
posted @ 2017-06-29 11:25 FontTian 阅读(190) 评论(0) 推荐(0)