随笔分类 -  Hadoop

Hadoop相关文章
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 查询函数(Hive高级) NVL(cloumn,replace_with) 如果cloumn为NULL,则NVL函数返回 replace_with 的值; 否则返回cloumn的值; 如果两个 阅读全文
posted @ 2019-07-15 21:52 lillcol 阅读(566) 评论(0) 推荐(1)
摘要:本文参考: "黑泽君相关博客" 本文是我总结日常工作中遇到的坑,结合黑泽君相关博客,选取、补充了部分内容。 上传数据 1. 上传数据后执行修复 msck 命令 2. 上传数据后添加分区 3. 创建文件夹后load数据到分区(最常用) Export导出数据 like和rlike 1)使用LIKE运算选 阅读全文
posted @ 2019-07-15 21:50 lillcol 阅读(361) 评论(0) 推荐(0)
摘要:Hbase简介 "参考:Hbase技术详细学习笔记" "如何合理的设计HBase RowKey?" Hbase是分布式、面向列的开源数据库(其实准确的说是面向列族)。 HDFS为Hbase提供可靠的底层数据存储服务; MapReduce为Hbase提供高性能的计算能力; Zookeeper为Hbas 阅读全文
posted @ 2019-07-10 22:07 lillcol 阅读(424) 评论(0) 推荐(0)
摘要:spark的runtime "参考:Spark:Yarn cluster和Yarn client区别与联系" 浪尖分享资料 standalone Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式。 该集群模式的架构设计与HDFS和Yarn大相径庭,都是由一个主节点多个从节点组成。 阅读全文
posted @ 2019-07-09 18:05 lillcol 阅读(5310) 评论(1) 推荐(0)
摘要:YARN 组件 "参考:Spark on Yarn | Spark,从入门到精通" YARN 采用 Master/Slave结构 ,包含ResourceManager 和 NodeManager ResourceManager 是 Master; NodeManager 是 Slave。 YARN的 阅读全文
posted @ 2019-07-09 15:16 lillcol 阅读(1250) 评论(0) 推荐(0)
摘要:这篇文章主要是对官网内容学习过程的总结,大部分是原文,加上自己的学习笔记!!! spark 2.0+内存模型 调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存); 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。 默认情况下,J 阅读全文
posted @ 2019-07-04 00:13 lillcol 阅读(925) 评论(0) 推荐(1)
摘要:RDD,重新分区,repartition,coalesce,Spark,大数据,源码 阅读全文
posted @ 2018-11-01 17:14 lillcol 阅读(2668) 评论(0) 推荐(0)
摘要:DataFrame、大数据、优化、Scala、coalesce、repartition 阅读全文
posted @ 2018-10-31 19:06 lillcol 阅读(10169) 评论(0) 推荐(2)
摘要:Spark处理后的结果数据resultDataFrame可以有多种存储介质,比较常见是存储为文件、关系型数据库,非关系行数据库。 各种方式有各自的特点,对于海量数据而言,如果想要达到实时查询的目的,使用HBase作为存储的介质是非常不错的选择。 现需求是:Spark对Hive、mysql数据源进行处 阅读全文
posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)
摘要:Spark:DataFrame写文件,追加,覆盖 阅读全文
posted @ 2018-10-16 16:05 lillcol 阅读(26348) 评论(0) 推荐(0)