06 2019 档案

hadoop 综合大作业
摘要:1.数据准备 2.把CSV添加到/bigdatacase/dataset中 3.检查前5行并删除第一行 4.将csv文件导入hadoop并检查前10行数据情况 5.数据文件导入hive 阅读全文

posted @ 2019-06-17 11:23 朱志杰 阅读(189) 评论(0) 推荐(0)

分布式并行计算MapReduce
摘要:HDFS特点 1.数据冗余,软件容错很高。 2.流失数据访问,也就是HDFS一次写入,多次读写,并且没办法进行修改,只能删除之后重新创建 3.适合存储大文件。如果是小文件,而且是很多小文件,连一个块都装不满,并且还需要很多块,就会极大浪费空间。 HDFS的适用性和局限性: 1.数据批量读写,吞吐量高 阅读全文

posted @ 2019-06-03 17:28 朱志杰 阅读(178) 评论(0) 推荐(0)