06 2016 档案
机器学习之寻找KMeans的最优K
摘要:K-Means聚类算法是最为经典的,同时也是使用最为广泛的一种基于划分的聚类算法,它属于基于距离的无监督聚类算法。KMeans算法简单实用,在机器学习算法中占有重要的地位。对于KMeans算法而言,如何确定K值,确实让人头疼的事情。 最近这几天一直忙于构建公司的推荐引擎。对用户群体的分类,要使用KM 阅读全文
posted @ 2016-06-27 21:23 成都笨笨 阅读(6278) 评论(1) 推荐(1) 编辑
大数据系统之监控系统(二)Flume的扩展
摘要:一些需求是原生Flume无法满足的,因此,基于开源的Flume我们增加了许多功能。 EventDeserializer的缺陷 Flume的每一个source对应的deserializer必须实现接口EventDeserializer,该接口定义了readEvent/readEvents方法从各种日志 阅读全文
posted @ 2016-06-26 20:13 成都笨笨 阅读(3013) 评论(0) 推荐(0) 编辑
大数据系统之监控系统(一)
摘要:一个稳定可靠的系统离不开监控,我们不仅监控服务是否存活,还要监控系统的运行状况。运行状况主要是对这些组件的核心metrics采集、抓取、分析和报警。 一、监控的数据 监控的日志数据一般包括: v APP、PC、Web 等系统运行Log:采用Flume-NG搜集 v 用户日志 : 采用Flume-NG 阅读全文
posted @ 2016-06-26 20:06 成都笨笨 阅读(6342) 评论(0) 推荐(0) 编辑
大数据系统之系统设计
摘要:大数据已经成为一种发展趋势,得到越来越多的公司参与。最近从事大数据系统设计开发和推荐引擎方面的工作,分几篇文章两个系列把自己的心得记录一下, 和大家分享一下大数据方面的经验。 整个平台包括监控系统、日志分析系统、推荐系统。按数据业务步骤划分,分为数据采集、清洗、存储、分析和服务。整个数据流程如下图: 阅读全文
posted @ 2016-06-26 20:02 成都笨笨 阅读(2000) 评论(2) 推荐(0) 编辑
机器学习的一些常用算法
摘要:下面是些泛泛的基础知识,但是真正搞机器学习的话,还是非常有用。像推荐系统、DSP等目前项目上机器学习的应用的关键,我认为数据处理非常非常重要,因为很多情况下,机器学习的算法是有前提条件的,对数据是有要求的。 机器学习强调三个关键词:算法、经验、性能,其处理过程如下图所示。 上图表明机器学习是数据通过 阅读全文
posted @ 2016-06-26 19:55 成都笨笨 阅读(4202) 评论(0) 推荐(0) 编辑