随笔分类 - hadoop
摘要:测试环境 CDH:Cloudera Express 6.1.0 Hadoop:3.0.0-cdh6.1.0 Hive:2.1.1-cdh6.1.0 namenode:1个datanode:3个 原始文件大小:243.1MB 测试方法 利用hadoop进行测试,利用load data将文件导入到hiv
阅读全文
摘要:前言 该文章中将会整理一些大数据中常见的文件格式及压缩算法的理论知识,作为后期实践的理论指导。理论+实践才会更方便用这些文件格式和压缩算法。 目前hadoop中常见的文件格式有textfile、sequencefile、avro、rcfile、orcfile、parquet等,上述六种文件格式又可以
阅读全文
浙公网安备 33010602011771号