使用sklearn做特征工程
摘要:1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心
阅读全文
posted @
2019-06-13 09:53
Alan_Fire
阅读(956)
推荐(0)
常用的模型集成方法介绍:bagging、boosting 、stacking
摘要:本文介绍了集成学习的各种概念,并给出了一些必要的关键信息,以便读者能很好地理解和使用相关方法,并且能够在有需要的时候设计出合适的解决方案。 本文将讨论一些众所周知的概念,如自助法、自助聚合(bagging)、随机森林、提升法(boosting)、堆叠法(stacking)以及许多其它的基础集成学习模
阅读全文
posted @
2019-05-21 22:52
Alan_Fire
阅读(3285)
推荐(1)
数据挖掘、机器学习书籍推荐!!
摘要:强烈推荐:《机器学习》 (西瓜书) 入门读物: 《深入浅出数据分析》 这书挺简单的,基本的内容都涉及了,说得也比较清楚,最后谈到了R是大加分。难易程度:非常易。 《啤酒与尿布》 通过案例来说事情,而且是最经典的例子。难易程度:非常易。 《数据之美》 一本介绍性的书籍,每章都解决一个具体的问题,甚至还
阅读全文
posted @
2019-03-28 12:25
Alan_Fire
阅读(2330)
推荐(0)
推荐7个GitHub上不错的Python机器学习项目
摘要:1、Pylearn2 【Star:2633】 Pylearn是一个让机器学习研究简单化的基于Theano的库程序。 2、 Scikit-learn 【Star:32449】 Scikit-learn是基于Scipy为机器学习建造的的一个Python模块,他的特色就是多样化的分类,回归和聚类的算法包括
阅读全文
posted @
2019-03-28 01:11
Alan_Fire
阅读(1287)
推荐(0)
入坑机器学习?听听MIT在读博士的AI心得
摘要:我的一个朋友最近正要开始人工智能的研究,他问及我在 AI 领域近两年的研究中有哪些经验教训。本文就将介绍这两年来我所学到的经验。其内容涵盖日常生活到 AI 领域中的一些小技巧,希望这可以给你带来一些启发。 开始 找到一个你感觉合适的人询问「傻问题」 最初,我非常害怕自己的同事,羞于向人提问,因为这可
阅读全文
posted @
2019-03-26 01:02
Alan_Fire
阅读(326)
推荐(0)
机器学习:基本概念、五大流派与九种常见算法
摘要:机器学习正在进步,我们正在不断接近创造人工智能的目标。语音识别、图像检测、机器翻译、风格迁移等技术已经在生活中开始得到了应用,但机器学习的发展仍还在继续,有人认为这场变革有可能会彻底改变人类文明的发展方向乃至人类自身。但你了解现在正在发生的这场变革吗?四大会计师事务所之一的普华永道(PwC)近日发布
阅读全文
posted @
2019-03-20 00:05
Alan_Fire
阅读(780)
推荐(0)
机器学习必学10大算法
摘要:1. 线性回归 在统计学和机器学习领域,线性回归可能是最广为人知也最易理解的算法之一。 预测建模主要关注的是在牺牲可解释性的情况下,尽可能最小化模型误差或做出最准确的预测。我们将借鉴、重用来自许多其它领域的算法(包括统计学)来实现这些目标。 线性回归模型被表示为一个方程式,它为输入变量找到特定的权重
阅读全文
posted @
2019-03-19 23:28
Alan_Fire
阅读(326)
推荐(0)
CS229 7.2 应用机器学习方法的技巧,准确率,召回率与 F值
摘要:建立模型 当使用机器学习的方法来解决问题时,比如垃圾邮件分类等,一般的步骤是这样的: 1)从一个简单的算法入手这样可以很快的实现这个算法,并且可以在交叉验证集上进行测试; 2)画学习曲线以决定是否更多的数据,更多的特征或者其他方式会有所帮助; 3)人工检查那些算法预测错误的例子(在交叉验证集上),看
阅读全文
posted @
2018-11-27 10:00
Alan_Fire
阅读(258)
推荐(0)
CS229 7.1应用机器学习中的一些技巧
摘要:本文所讲述的是怎么样去在实践中更好的应用机器学习算法,比如如下经验风险最小化问题: 当求解最优的 后,发现他的预测误差非常之大,接下来如何处理来使得当前的误差尽可能的小呢?这里给出以下几个选项,下面介绍的是如何在一下这些应对策略中选择正确的方法来助力以上问题。 当模型的variance比较大时,可能
阅读全文
posted @
2018-11-27 09:59
Alan_Fire
阅读(256)
推荐(0)
梯度下降之随机梯度下降 -minibatch 与并行化方法
摘要:问题的引入: 考虑一个典型的有监督机器学习问题,给定m个训练样本S={x(i),y(i)},通过经验风险最小化来得到一组权值w,则现在对于整个训练集待优化目标函数为: 其中为单个训练样本(x(i),y(i))的损失函数,单个样本的损失表示如下: 引入L2正则,即在损失函数中引入,那么最终的损失为:
阅读全文
posted @
2018-11-27 09:57
Alan_Fire
阅读(616)
推荐(0)
用KNN算法分类CIFAR-10图片数据
摘要:KNN分类CIFAR-10,并且做Cross Validation,CIDAR-10数据库数据如下: knn.py : 主要的试验流程 from cs231n.data_utils import load_CIFAR10 from cs231n.classifiers import KNearest
阅读全文
posted @
2018-11-27 09:56
Alan_Fire
阅读(769)
推荐(0)
特征处理(Feature Processing)
摘要:特征工程(Feature Engineering)经常被说为机器学习中的black art,这里面包含了很多不可言说的方面。怎么处理好特征,最重要的当然还是对要解决问题的了解。但是,它其实也有很多科学的地方。这篇文章我之所以命名为特征处理(Feature Processing),是因为这里面要介绍的
阅读全文
posted @
2018-11-27 00:54
Alan_Fire
阅读(337)
推荐(0)
实际问题中如何使用机器学习模型
摘要:看待问题的两种策略:整体求解 vs 分而治之 为了解决一个实际问题,我们通常有两种策略: 第一种是整体求解,即把这个问题看成一个不可分割的整体,直接进行求解。 第二种是分而治之,即分解这个问题,使之变成多个小问题,然后通过求解各个小问题来最后达到求解整个问题的目的。 这两种策略分别把原始问题转化为单
阅读全文
posted @
2018-11-27 00:50
Alan_Fire
阅读(1175)
推荐(0)
CS229 6.18 CNN 的反向传导算法
摘要:本文主要内容是 CNN 的 BP 算法,看此文章前请保证对CNN有初步认识。 网络表示 CNN相对于传统的全连接DNN来说增加了卷积层与池化层,典型的卷积神经网络中(比如LeNet-5 ),开始几层都是卷积和池化的交替,然后在靠近输出的地方做成全连接网络,这时候已经将所有两维2D的特征maps转化为
阅读全文
posted @
2018-11-27 00:47
Alan_Fire
阅读(248)
推荐(0)
CS229 6.17 Neurons Networks convolutional neural network(cnn)
摘要:之前所讲的图像处理都是小 patchs ,比如28*28或者36*36之类,考虑如下情形,对于一副1000*1000的图像,即106,当隐层也有106节点时,那么W(1)的数量将达到1012级别,为了减少参数规模,加快训练速度,CNN应运而生。CNN就像辟邪剑谱一样,正常人练得很挫,一旦自宫后,就变
阅读全文
posted @
2018-11-27 00:45
Alan_Fire
阅读(176)
推荐(0)
CS229 6.16 Neurons Networks linear decoders and its implements
摘要:Sparse AutoEncoder是一个三层结构的网络,分别为输入输出与隐层,前边自编码器的描述可知,神经网络中的神经元都采用相同的激励函数,Linear Decoders 修改了自编码器的定义,对输出层与隐层采用了不用的激励函数,所以 Linear Decoder 得到的模型更容易应用,而且对模
阅读全文
posted @
2018-11-27 00:44
Alan_Fire
阅读(199)
推荐(0)
CS229 6.15 Neurons Networks Deep Belief Networks
摘要:Hintion老爷子在06年的science上的论文里阐述了 RBMs 可以堆叠起来并且通过逐层贪婪的方式来训练,这种网络被称作Deep Belife Networks(DBN),DBN是一种可以学习训练数据的高层特征表示的网络,DBN是一种生成模型,可见变量 与 个隐层的联合分布: 这里 x =
阅读全文
posted @
2018-11-27 00:42
Alan_Fire
阅读(131)
推荐(0)
CS229 6.14 Neurons Networks Restricted Boltzmann Machines
摘要:1.RBM简介 受限玻尔兹曼机(Restricted Boltzmann Machines,RBM)最早由hinton提出,是一种无监督学习方法,即对于给定数据,找到最大程度拟合这组数据的参数。RBM常用于降维,分类,回归与协同过滤,特征学习甚至 topic model ,其网络结构如下: RBM是
阅读全文
posted @
2018-11-27 00:28
Alan_Fire
阅读(253)
推荐(0)
CS229 6.13 Neurons Networks Implements of stack autoencoder
摘要:对于加深网络层数带来的问题,(gradient diffuse 局部最优等)可以使用逐层预训练(pre-training)的方法来避免 Stack-Autoencoder是一种逐层贪婪(Greedy layer-wise training)的训练方法,逐层贪婪的主要思路是每次只训练网络中的一层,即首
阅读全文
posted @
2018-11-27 00:26
Alan_Fire
阅读(302)
推荐(0)
CS229 6.12 Neurons Networks from self-taught learning to deep network
摘要:self-taught learning 在特征提取方面完全是用的无监督的方法,对于有标记的数据,可以结合有监督学习来对上述方法得到的参数进行微调,从而得到一个更加准确的参数a。 在self-taught learning中,首先用 无标记数据训练一个sparse autoencoder,这样用对于
阅读全文
posted @
2018-11-27 00:24
Alan_Fire
阅读(177)
推荐(0)