zourui4271

博客园 首页 新随笔 联系 订阅 管理

2017年4月17日 #

摘要: 1.原始数据存在的几个问题:不一致;重复;含噪声;维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则 应该是从原始数据中选取合适的属性作为数据挖掘属性,这个选取过程应参考的原则是:尽可能赋予属性名和属性值明确的含义;统一多数据源的属性值编码; 阅读全文
posted @ 2017-04-17 17:25 zourui4271 阅读(486) 评论(0) 推荐(0)

摘要: 作为互联网公司,网站监测日志当然是数据的最大来源。我们目前的规模也不大,每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完 成,之前,业务中对实时的要求并不高,最多也就是准实时(延迟半小时以上),因此,我们使用Flume将数据收集到HDFS,然后进行清洗和分析。 后来,根据业务需要,我 阅读全文
posted @ 2017-04-17 08:43 zourui4271 阅读(499) 评论(0) 推荐(0)

摘要: 一、关于spark ml pipeline与机器学习 一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证 以上四个步骤可以抽象为一个包括多个步骤的流水线式工作,从数据收集开始至输出我们需要的最终结果。因此,对以上多个步骤、进行抽象建模,简化为流水 阅读全文
posted @ 2017-04-17 08:27 zourui4271 阅读(1509) 评论(0) 推荐(0)