09 2020 档案
摘要:###框架版本 Hadoop 2.7.7 Hive 2.3.7 Tez 0.9.2 保证hadoop集群启动,hive元数据服务启动 ###上传tez到HDFS tar -zxvf apache-tez-0.9.2-bin.tar.gz mv apache-tez-0.9.2-bin tez-0.9
阅读全文
摘要:数仓分层 1.ODS层 原始数据层,存放原始数据,直接加载原始日志、数据,数据保持原貌不做处理,起到备份数据的作用。数据采用LZO压缩,并创建索引减少磁盘存储空间(切片)。创建分区表,防止后续全表扫描。可以通过创建外部表供多人使用,内部表(仅供自己使用) 2.DWD层 明细数据层,对ODS层数据进行
阅读全文
摘要:#读流程 1.在客户端提交参数后,客户端(Client)通过调用FileSystem对象的open()方法来打开需要读取的文件 2.DistributedFileSystem调用元数据节点,得到Block信息,对于每一个数据块元数据返回保存数据块的数据节点地址 3.DistributedFileSy
阅读全文