数据挖掘算法 - 随笔分类 - 跳出

概率图模型

摘要：概率图模型一、马尔科夫链特性在已知系统当前状态的条件下，他未来的演变不依赖于过去的演变。第T+1次的结果只受第T次结果的影响，即只与当前状态有关，而与系统的初始状态和此次转移前的所有状态无关。（无后效性）马尔科夫的一步转移概率可以定义为： Pij(n) = P{Xn+1=j|Xn=i} 一步转阅读全文

posted @ 2016-11-16 09:15 跳出阅读(1198) 评论(0) 推荐(0)

数据处理：离散化好处多

摘要：离散化指把连续型数据切分为若干“段”，也称bin，是数据分析中常用的手段。切分的原则有等距，等频，优化，或根据数据特点而定。在营销数据挖掘中，离散化得到普遍采用。究其原因，有这样几点： ①算法需要。例如决策树，NaiveBayes等算法本身不能直接使用连续型变量，连续型数据只有经离散处理后才能进入算阅读全文

posted @ 2016-08-29 17:20 跳出阅读(2025) 评论(0) 推荐(0)

模拟退火算法

摘要：http://www.cnblogs.com/heaad/archive/2010/12/20/1911614.html （转）优化算法入门系列文章目录（更新中）： 1. 模拟退火算法 2. 遗传算法一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前，先介绍爬山算法。爬山算法是一阅读全文

posted @ 2016-08-28 11:19 跳出阅读(387) 评论(0) 推荐(0)

特征选择问题

摘要：特征选择是特征工程中的重要问题（另一个重要的问题是特征提取），坊间常说：数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言，特征选择是指选择获得相应模型和算法最好性能的特征集，工程上常用的方法有以下：1. 计算每阅读全文

posted @ 2016-08-27 21:25 跳出阅读(1182) 评论(0) 推荐(0)

机器学习中的数据清洗与特征处理综述

摘要：http://tech.meituan.com/machinelearning-data-feature-process.html （转）背景随着美团交易规模的逐步增大，积累下来的业务数据和交易数据越来越多，这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘，不仅能给美团业务阅读全文

posted @ 2016-08-27 21:22 跳出阅读(507) 评论(0) 推荐(0)

常见面试之机器学习算法思想简单梳理

摘要：http://www.cnblogs.com/tornadomeet/p/3395593.html （转）前言：找工作时（IT行业），除了常见的软件开发以外，机器学习岗位也可以当作是一个选择，不少计算机方向的研究生都会接触这个，如果你的研究方向是机器学习/数据挖掘之类，且又对其非常感兴趣的话，可阅读全文

posted @ 2016-08-26 20:59 跳出阅读(412) 评论(0) 推荐(0)

神经网络（二）

摘要：本节参考的是网页http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial中关于Building Deep Networks for Classification一节的介绍。分下面2大部分内容： 1. 从self-taught到dee 阅读全文

posted @ 2016-08-26 11:37 跳出阅读(276) 评论(0) 推荐(0)

神经网络（一）

摘要：机器学习算法——神经网络 http://www.cnblogs.com/tornadomeet/archive/2013/03/18/2966041.html （转）线性回归或者logistic回归问题理论上不是可以解决所有的回归和分类问题么，那么为什么还有其它各种各样的机器学习算法呢？比如这里马阅读全文

posted @ 2016-08-26 09:54 跳出阅读(243) 评论(0) 推荐(0)

机器学习的几个知识点记录（转）

摘要：http://www.cnblogs.com/tornadomeet/archive/2012/11/12/2766458.html 过拟合和规则项 Regularization中文意思是规则，指的是在overfitting和underfitting之间做平衡，通过限制参数空间来控制模型的复杂度。测阅读全文

posted @ 2016-08-25 21:29 跳出阅读(2368) 评论(0) 推荐(0)

特性选择、特征抽取阅读记录

摘要：关联规则模型关联规则模型的特点：就是从大量随机发生的并发时间中，找到强关联的现象，使得在某事件发生的前提下，另一事件的发生具有很高的概率，并且是一种具有业务意义的强规则。关联规则：Apriori算法、FP树频集算法。一个关联规则是形如X=》Y的蕴含式，这里X属于I，Y属于I，并且X与Y的交集为阅读全文

posted @ 2016-08-16 10:05 跳出阅读(532) 评论(0) 推荐(0)

聚类、降维、文本处理阅读记录

摘要：聚类数据没有标注。无监督技术。 K-均值聚类层次聚类：是一个结构化的聚类方法，最终可得到多层的聚类结果，其中每个类族可能包含多个子类族。因为每个子类族与父类族连接，所以也称为树形聚类。离群值：归一化/标准化解决。降维主成分分析 PCA 奇异值分解 SVD SVD试图将一个m X n矩阵分解阅读全文

posted @ 2016-08-15 16:02 跳出阅读(991) 评论(0) 推荐(0)

标准化、正则化阅读记录

摘要：处理和转换数据 1）过滤掉或删除非规整数或有缺陷的数据 2）填充非规整或有缺陷的数据（零值，全局期望，中值） 3）对异常值做鲁棒处理（鲁棒回归） 4）对可能的异常值进行转换利用如对数或高斯核对其转换，有助于降低变量存在的值跳跃的影响，并将非线性关系变为线性的。矩阵分解：协同过滤最小二乘法AL 阅读全文

posted @ 2016-08-15 14:35 跳出阅读(312) 评论(0) 推荐(0)

KNN算法

摘要：K近邻算法下图中，绿色圆要被决定赋予哪个类，是红色三角形还是蓝色四方形？如果K=3，由于红色三角形所占比例为2/3，绿色圆将被赋予红色三角形那个类，如果K=5，由于蓝色四方形比例为3/5，因此绿色圆被赋予蓝色四方形类。 K 最近邻 (k-Nearest Neighbor，KNN) 分类算法，是一个阅读全文

posted @ 2016-07-26 21:08 跳出阅读(1507) 评论(0) 推荐(0)

贝叶斯算法

摘要：贝叶斯算法朴素贝叶斯的思想基础：对于给出的待分类项，求解在此项出现的条件下各个类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。朴素贝叶斯分类的正式定义如下： 1、设x = {a1,a2,…,am}为一个待分类项，而每个a为x的一个特征属性。 2、有类别集合C = {y1,y2,…,yn} 阅读全文

posted @ 2016-07-26 20:05 跳出阅读(491) 评论(0) 推荐(0)

随笔分类 - 数据挖掘算法

公告