随笔分类 -  数据挖掘算法

摘要:概率图模型 一、马尔科夫链特性 在已知系统当前状态的条件下,他未来的演变不依赖于过去的演变。第T+1次的结果只受第T次结果的影响,即只与当前状态有关,而与系统的初始状态和此次转移前的所有状态无关。(无后效性) 马尔科夫的一步转移概率可以定义为: Pij(n) = P{Xn+1=j|Xn=i} 一步转 阅读全文
posted @ 2016-11-16 09:15 跳出 阅读(1198) 评论(0) 推荐(0)
摘要:离散化指把连续型数据切分为若干“段”,也称bin,是数据分析中常用的手段。切分的原则有等距,等频,优化,或根据数据特点而定。在营销数据挖掘中,离散化得到普遍采用。究其原因,有这样几点: ①算法需要。例如决策树,NaiveBayes等算法本身不能直接使用连续型变量,连续型数据只有经离散处理后才能进入算 阅读全文
posted @ 2016-08-29 17:20 跳出 阅读(2021) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/heaad/archive/2010/12/20/1911614.html (转) 优化算法入门系列文章目录(更新中): 1. 模拟退火算法 2. 遗传算法 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一 阅读全文
posted @ 2016-08-28 11:19 跳出 阅读(387) 评论(0) 推荐(0)
摘要:特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每 阅读全文
posted @ 2016-08-27 21:25 跳出 阅读(1180) 评论(0) 推荐(0)
摘要:http://tech.meituan.com/machinelearning-data-feature-process.html (转) 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务 阅读全文
posted @ 2016-08-27 21:22 跳出 阅读(507) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/tornadomeet/p/3395593.html (转) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可 阅读全文
posted @ 2016-08-26 20:59 跳出 阅读(412) 评论(0) 推荐(0)
摘要:本节参考的是网页http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial中关于Building Deep Networks for Classification一节的介绍。分下面2大部分内容: 1. 从self-taught到dee 阅读全文
posted @ 2016-08-26 11:37 跳出 阅读(275) 评论(0) 推荐(0)
摘要:机器学习算法——神经网络 http://www.cnblogs.com/tornadomeet/archive/2013/03/18/2966041.html (转) 线性回归或者logistic回归问题理论上不是可以解决所有的回归和分类问题么,那么为什么还有其它各种各样的机器学习算法呢?比如这里马 阅读全文
posted @ 2016-08-26 09:54 跳出 阅读(243) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/tornadomeet/archive/2012/11/12/2766458.html 过拟合和规则项 Regularization中文意思是规则,指的是在overfitting和underfitting之间做平衡,通过限制参数空间来控制模型的复杂度。测 阅读全文
posted @ 2016-08-25 21:29 跳出 阅读(2368) 评论(0) 推荐(0)
摘要:关联规则模型 关联规则模型的特点:就是从大量随机发生的并发时间中,找到强关联的现象,使得在某事件发生的前提下,另一事件的发生具有很高的概率,并且是一种具有业务意义的强规则。 关联规则:Apriori算法、FP树频集算法。 一个关联规则是形如X=》Y的蕴含式,这里X属于I,Y属于I,并且X与Y的交集为 阅读全文
posted @ 2016-08-16 10:05 跳出 阅读(530) 评论(0) 推荐(0)
摘要:聚类 数据没有标注。无监督技术。 K-均值聚类 层次聚类:是一个结构化的聚类方法,最终可得到多层的聚类结果,其中每个类族可能包含多个子类族。因为每个子类族与父类族连接,所以也称为树形聚类。 离群值:归一化/标准化解决。 降维 主成分分析 PCA 奇异值分解 SVD SVD试图将一个m X n矩阵分解 阅读全文
posted @ 2016-08-15 16:02 跳出 阅读(991) 评论(0) 推荐(0)
摘要:处理和转换数据 1)过滤掉或删除非规整数或有缺陷的数据 2)填充非规整或有缺陷的数据(零值,全局期望,中值) 3)对异常值做鲁棒处理 (鲁棒回归) 4)对可能的异常值进行转换 利用如对数或高斯核对其转换,有助于降低变量存在的值跳跃的影响,并将非线性关系变为线性的。 矩阵分解:协同过滤 最小二乘法AL 阅读全文
posted @ 2016-08-15 14:35 跳出 阅读(312) 评论(0) 推荐(0)
摘要:K近邻算法 下图中,绿色圆要被决定赋予哪个类,是红色三角形还是蓝色四方形?如果K=3,由于红色三角形所占比例为2/3,绿色圆将被赋予红色三角形那个类,如果K=5,由于蓝色四方形比例为3/5,因此绿色圆被赋予蓝色四方形类。 K 最近邻 (k-Nearest Neighbor,KNN) 分类算法,是一个 阅读全文
posted @ 2016-07-26 21:08 跳出 阅读(1507) 评论(0) 推荐(0)
摘要:贝叶斯算法 朴素贝叶斯的思想基础:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。 朴素贝叶斯分类的正式定义如下: 1、设x = {a1,a2,…,am}为一个待分类项,而每个a为x的一个特征属性。 2、有类别集合C = {y1,y2,…,yn} 阅读全文
posted @ 2016-07-26 20:05 跳出 阅读(490) 评论(0) 推荐(0)