随笔分类 -  数据挖掘入门

摘要:本文由中山大学In+ Lab整理完成,转载注明出处! 团队介绍 传送门(http://www.cnblogs.com/inpluslab dataplayer/p/8541380.html) 线性分类器起源 在实际应用中,我们往往遇到这样的问题:给定一些数据点,它们分别属于两个不同的类,现在要找到一 阅读全文
posted @ 2018-03-06 21:21 inpluslab-dataplayer 阅读(848) 评论(0) 推荐(0)
摘要:随机森林 随机森林(Random Forest)算法是基于单棵决策树的改进,将多个弱分类器组合成一个强分类器,其用到了集成学习bagging的思想。 基本思想 随机森林顾名思义,是用随机的方式建立一个森林,森林里面有很多棵决策树组成。其随机体现在针对每棵树,按比例随机抽选样本,随机抽选特征,然后进行 阅读全文
posted @ 2018-03-06 20:47 inpluslab-dataplayer 阅读(1034) 评论(0) 推荐(0)
摘要:本文由中山大学In+ Lab整理完成,转载注明出处 团队介绍 "传送门" 决策树!99.99%的地球人都使用过的人工智能算法! 前言 本文假设读者已经了解基本的数据挖掘概念,如 “训练“,”回归”,“分类”,“过拟合”等。 0 简介 决策树算法的思想,来自于人日常做决策过程。 举个例子,当你喜欢上班 阅读全文
posted @ 2018-03-06 20:44 inpluslab-dataplayer 阅读(1130) 评论(0) 推荐(0)
摘要:序言 你可能早早就听说过这个故事: 在一家超市里,有一个有趣的现象:尿布和啤酒赫然摆在一起出售。但是这个奇怪的举措却使尿布和啤酒的销量双双增加了。这不是一个笑话,而是发生在美国沃尔玛连锁店超市的真实案例,并一直为商家所津津乐道。沃尔玛拥有世界上最大的数据仓库系统,为了能够准确了解顾客在其门店的购买习 阅读全文
posted @ 2018-03-05 19:44 inpluslab-dataplayer 阅读(505) 评论(1) 推荐(0)
摘要:本文由中山大学In+ Lab整理完成,转载注明出处 团队介绍 传送门 序言 KNN全称K-Nearest Neighbor algorithm,又称K近邻算法。由于KNN是“惰性学习”(lazy learning)的著名代表,不做任何模型训练,训练时间开销为零,所以我们称它为“史上最懒惰的算法”。看 阅读全文
posted @ 2018-03-05 17:38 inpluslab-dataplayer 阅读(2475) 评论(0) 推荐(1)
摘要:本文由中山大学In+ Lab整理完成,转载注明出处 团队介绍 传送门 逻辑回归 逻辑回归(logistic regression)是机器学习中的经典分类方法。看到这个机器学习方法的名字,你可能会有点疑惑:“逻辑回归明明是一个分类方法,为什么名字里面有回归的字眼?”,这实际上是个好问题,说明你对分类和 阅读全文
posted @ 2018-03-05 10:33 inpluslab-dataplayer 阅读(275) 评论(0) 推荐(0)
摘要:本文由中山大学In+ Lab整理完成,转载注明出处 团队介绍 传送门 GBDT 序言 GBDT (Gradient Boosting Decision Tree)又叫MART (Multiple Additive Regression Tree),是一种迭代的决策树算法,即该算法由多棵决策树组成,所 阅读全文
posted @ 2018-03-05 10:10 inpluslab-dataplayer 阅读(419) 评论(0) 推荐(0)
摘要:本文由中山大学In+ Lab整理完成,转载注明出处 团队介绍 传送门 一、什么是数据挖掘 随着alphago在围棋上横扫各路高手,轻松击败李世石使得人工智能大火,各种关于数据挖掘、人工智能、机器学习的文章络绎不绝。由此引发了大家的思考,什么是数据挖掘? 数据挖掘通俗点来讲是通过某种方式找出潜藏在大量 阅读全文
posted @ 2018-03-05 09:59 inpluslab-dataplayer 阅读(521) 评论(0) 推荐(0)