08 2016 档案

摘要:离散化指把连续型数据切分为若干“段”,也称bin,是数据分析中常用的手段。切分的原则有等距,等频,优化,或根据数据特点而定。在营销数据挖掘中,离散化得到普遍采用。究其原因,有这样几点: ①算法需要。例如决策树,NaiveBayes等算法本身不能直接使用连续型变量,连续型数据只有经离散处理后才能进入算 阅读全文
posted @ 2016-08-29 17:20 跳出 阅读(2025) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/heaad/archive/2010/12/20/1911614.html (转) 优化算法入门系列文章目录(更新中): 1. 模拟退火算法 2. 遗传算法 一. 爬山算法 ( Hill Climbing ) 介绍模拟退火前,先介绍爬山算法。爬山算法是一 阅读全文
posted @ 2016-08-28 11:19 跳出 阅读(387) 评论(0) 推荐(0)
摘要:特征选择是特征工程中的重要问题(另一个重要的问题是特征提取),坊间常说:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程尤其是特征选择在机器学习中占有相当重要的地位。通常而言,特征选择是指选择获得相应模型和算法最好性能的特征集,工程上常用的方法有以下:1. 计算每 阅读全文
posted @ 2016-08-27 21:25 跳出 阅读(1183) 评论(0) 推荐(0)
摘要:http://tech.meituan.com/machinelearning-data-feature-process.html (转) 背景 随着美团交易规模的逐步增大,积累下来的业务数据和交易数据越来越多,这些数据是美团做为一个团购平台最宝贵的财富。通过对这些数据的分析和挖掘,不仅能给美团业务 阅读全文
posted @ 2016-08-27 21:22 跳出 阅读(507) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/tornadomeet/p/3395593.html (转) 前言: 找工作时(IT行业),除了常见的软件开发以外,机器学习岗位也可以当作是一个选择,不少计算机方向的研究生都会接触这个,如果你的研究方向是机器学习/数据挖掘之类,且又对其非常感兴趣的话,可 阅读全文
posted @ 2016-08-26 20:59 跳出 阅读(412) 评论(0) 推荐(0)
摘要:本节参考的是网页http://deeplearning.stanford.edu/wiki/index.php/UFLDL_Tutorial中关于Building Deep Networks for Classification一节的介绍。分下面2大部分内容: 1. 从self-taught到dee 阅读全文
posted @ 2016-08-26 11:37 跳出 阅读(276) 评论(0) 推荐(0)
摘要:机器学习算法——神经网络 http://www.cnblogs.com/tornadomeet/archive/2013/03/18/2966041.html (转) 线性回归或者logistic回归问题理论上不是可以解决所有的回归和分类问题么,那么为什么还有其它各种各样的机器学习算法呢?比如这里马 阅读全文
posted @ 2016-08-26 09:54 跳出 阅读(243) 评论(0) 推荐(0)
摘要:http://www.cnblogs.com/tornadomeet/archive/2012/11/12/2766458.html 过拟合和规则项 Regularization中文意思是规则,指的是在overfitting和underfitting之间做平衡,通过限制参数空间来控制模型的复杂度。测 阅读全文
posted @ 2016-08-25 21:29 跳出 阅读(2368) 评论(0) 推荐(0)
摘要:一、 mysql查询缓存 查询缓存不是mysql的子系统,却是查询优化和执行子系统不可缺少的组成部分。它不仅可以缓存查询结果,还可以缓存查询结果本身。如果某个查询的结果就在缓存里, 系统就可以直接取出那些数据返回给客户端而跳过整个查询优化和执行阶段;这对那些使用频繁的查询来说效果尤其显著。这技术是m 阅读全文
posted @ 2016-08-18 19:14 跳出 阅读(340) 评论(0) 推荐(0)
摘要:关联规则模型 关联规则模型的特点:就是从大量随机发生的并发时间中,找到强关联的现象,使得在某事件发生的前提下,另一事件的发生具有很高的概率,并且是一种具有业务意义的强规则。 关联规则:Apriori算法、FP树频集算法。 一个关联规则是形如X=》Y的蕴含式,这里X属于I,Y属于I,并且X与Y的交集为 阅读全文
posted @ 2016-08-16 10:05 跳出 阅读(532) 评论(0) 推荐(0)
摘要:聚类 数据没有标注。无监督技术。 K-均值聚类 层次聚类:是一个结构化的聚类方法,最终可得到多层的聚类结果,其中每个类族可能包含多个子类族。因为每个子类族与父类族连接,所以也称为树形聚类。 离群值:归一化/标准化解决。 降维 主成分分析 PCA 奇异值分解 SVD SVD试图将一个m X n矩阵分解 阅读全文
posted @ 2016-08-15 16:02 跳出 阅读(991) 评论(0) 推荐(0)
摘要:处理和转换数据 1)过滤掉或删除非规整数或有缺陷的数据 2)填充非规整或有缺陷的数据(零值,全局期望,中值) 3)对异常值做鲁棒处理 (鲁棒回归) 4)对可能的异常值进行转换 利用如对数或高斯核对其转换,有助于降低变量存在的值跳跃的影响,并将非线性关系变为线性的。 矩阵分解:协同过滤 最小二乘法AL 阅读全文
posted @ 2016-08-15 14:35 跳出 阅读(312) 评论(0) 推荐(0)
摘要:广播变量、累加器、collect spark集群由两类集群构成:一个驱动程序,多个执行程序。 1、广播变量 broadcast 广播变量为只读变量,它由运行sparkContext的驱动程序创建后发送给会参与计算 的节点。也可被非驱动程序所在节点(即工作节点)访问,访问是调用该变量的value方法。 阅读全文
posted @ 2016-08-15 12:59 跳出 阅读(376) 评论(0) 推荐(0)
摘要:在大数据处理场景中,多表Join是非常常见的一类运算。为了便于求解,通常会将多表join问题转为多个两表连接问题。两表Join的实现算法非常多,一般我们会根据两表的数据特点选取不同的join算法,其中,最常用的两个算法是map-side join和reduce-side join。本文将介绍如何在a 阅读全文
posted @ 2016-08-15 10:32 跳出 阅读(660) 评论(0) 推荐(0)
摘要:MySQL数据库迁移(数据文件直接迁移) 在今年10月下旬的时候,公司的服务器需要迁移,其中涉及到了MySQL数据库迁移。查看了一下MySQL数据文件的大小,接近60G的大小(实际数据并没用那么多)。由于服务器上业务需要,要尽量减少服务器迁移时的损失。所以迁移时间选在了晚上零点开始,而且要尽量减少迁 阅读全文
posted @ 2016-08-13 13:46 跳出 阅读(297) 评论(0) 推荐(0)
摘要:1、hortonwork 和 cloudera 比较 除了功能,还需要对维护性能进行比较 2、环境部署需要细化 部署哪些组件 部署哪些webservice服务 各节点之间如何规划 内存磁盘资源如何分配 是否开启组件高可用 若开启组件高可用,是否考虑部署2套zookeeper 离线集群与在线集群如何互 阅读全文
posted @ 2016-08-13 11:20 跳出 阅读(203) 评论(0) 推荐(0)