2017 年 4月 17 日随笔档案 - zourui4271

数据挖掘的数据预处理

摘要： 1.原始数据存在的几个问题：不一致；重复；含噪声；维度高。 2.数据预处理包含数据清洗、数据集成、数据变换和数据归约几种方法。 3.数据挖掘中使用的数据的原则应该是从原始数据中选取合适的属性作为数据挖掘属性，这个选取过程应参考的原则是：尽可能赋予属性名和属性值明确的含义；统一多数据源的属性值编码；阅读全文

posted @ 2017-04-17 17:25 zourui4271 阅读(486) 评论(0) 推荐(0)

日志实时收集和计算的简单方案

摘要：作为互联网公司，网站监测日志当然是数据的最大来源。我们目前的规模也不大，每天的日志量大约1TB。后续90%以上的业务都是需要基于日志来完成，之前，业务中对实时的要求并不高，最多也就是准实时（延迟半小时以上），因此，我们使用Flume将数据收集到HDFS，然后进行清洗和分析。后来，根据业务需要，我阅读全文

posted @ 2017-04-17 08:43 zourui4271 阅读(499) 评论(0) 推荐(0)

spark ml 的例子

摘要：一、关于spark ml pipeline与机器学习一个典型的机器学习构建包含若干个过程 1、源数据ETL 2、数据预处理 3、特征选取 4、模型训练与验证以上四个步骤可以抽象为一个包括多个步骤的流水线式工作，从数据收集开始至输出我们需要的最终结果。因此，对以上多个步骤、进行抽象建模，简化为流水阅读全文

posted @ 2017-04-17 08:27 zourui4271 阅读(1509) 评论(0) 推荐(0)

zourui4271

公告