06 2019 档案
摘要:需求:每日hadoop结果文件中,找出数据不完整的日期和没有跑出数据的日期,重新进行跑hadoop任务 小结:当然这个也是调试的时候用的,不过真正,你要根据自己的需求去做,这时,忽然在我的脑子里出现了一个demo侠的名称,因为之前,我看了一篇我们公司内部的写的文章,学习分为几个阶段吧,因为我之前也没
阅读全文
摘要:1,shell脚本的变量认识 注释:$*和$@的区别: $*和$@都表示传递给函数或脚本的的所有的参数,不被双引号(“ ”)包含时,都以$1,$2,$3。。。$n的形式输出所有参数,但他们被双引号(“ ”)时,$*会将所有参数作为一个整体,以“$1, $2,$3...$n”的形式输出,$@会将各个参
阅读全文
摘要:1,hadoop:由Apache基金会所开发的分布式系统基础架构。 2,hadoop特点: 是一个分布式系统权限,有高容错性的特点,并且用来设计部署在低廉的硬件上,而且它提高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用 3,hadoop框架的核心设计: HDFS和mapreduse。HD
阅读全文
摘要:1,数据质量分析 数据质量分析是数据挖掘中数据准备环节中的重要一环,是数据预处理的前提,也是数据挖掘分析结论有效性和准确性基础,没有可信的数据,数据挖掘构建的模型将是空中楼阁 数据质量分析的主要任务时检查原始数据中是否存在脏数据,脏数据一般是指不符合要求,以及不能直接进行相应的分析的数据。脏数据一般
阅读全文
浙公网安备 33010602011771号