06 2019 档案

摘要:需求:每日hadoop结果文件中,找出数据不完整的日期和没有跑出数据的日期,重新进行跑hadoop任务 小结:当然这个也是调试的时候用的,不过真正,你要根据自己的需求去做,这时,忽然在我的脑子里出现了一个demo侠的名称,因为之前,我看了一篇我们公司内部的写的文章,学习分为几个阶段吧,因为我之前也没 阅读全文
posted @ 2019-06-07 16:06 帅爆太阳的男人 阅读(524) 评论(0) 推荐(0)
摘要:1,shell脚本的变量认识 注释:$*和$@的区别: $*和$@都表示传递给函数或脚本的的所有的参数,不被双引号(“ ”)包含时,都以$1,$2,$3。。。$n的形式输出所有参数,但他们被双引号(“ ”)时,$*会将所有参数作为一个整体,以“$1, $2,$3...$n”的形式输出,$@会将各个参 阅读全文
posted @ 2019-06-07 16:05 帅爆太阳的男人 阅读(220) 评论(0) 推荐(0)
摘要:1,hadoop:由Apache基金会所开发的分布式系统基础架构。 2,hadoop特点: 是一个分布式系统权限,有高容错性的特点,并且用来设计部署在低廉的硬件上,而且它提高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用 3,hadoop框架的核心设计: HDFS和mapreduse。HD 阅读全文
posted @ 2019-06-07 16:04 帅爆太阳的男人 阅读(320) 评论(0) 推荐(0)
摘要:1,数据质量分析 数据质量分析是数据挖掘中数据准备环节中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁 数据质量分析的主要任务时检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应的分析的数据。脏数据一般 阅读全文
posted @ 2019-06-07 16:01 帅爆太阳的男人 阅读(249) 评论(0) 推荐(0)