Hadoop - 随笔分类(第2页) - lillcol

hive 总结二

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。查询函数（Hive高级） NVL(cloumn,replace_with) 如果cloumn为NULL，则NVL函数返回 replace_with 的值；否则返回cloumn的值；如果两个阅读全文

posted @ 2019-07-15 21:52 lillcol 阅读(566) 评论(0) 推荐(1)

hive 总结一

摘要：本文参考： "黑泽君相关博客" 本文是我总结日常工作中遇到的坑，结合黑泽君相关博客，选取、补充了部分内容。上传数据 1. 上传数据后执行修复 msck 命令 2. 上传数据后添加分区 3. 创建文件夹后load数据到分区（最常用） Export导出数据 like和rlike 1）使用LIKE运算选阅读全文

posted @ 2019-07-15 21:50 lillcol 阅读(361) 评论(0) 推荐(0)

HBase 入门

摘要：Hbase简介 "参考：Hbase技术详细学习笔记" "如何合理的设计HBase RowKey?" Hbase是分布式、面向列的开源数据库（其实准确的说是面向列族）。 HDFS为Hbase提供可靠的底层数据存储服务； MapReduce为Hbase提供高性能的计算能力； Zookeeper为Hbas 阅读全文

posted @ 2019-07-10 22:07 lillcol 阅读(424) 评论(0) 推荐(0)

Spark:三种任务提交流程standalone、yarn-cluster、yarn-client

摘要：spark的runtime "参考:Spark:Yarn cluster和Yarn client区别与联系" 浪尖分享资料 standalone Spark可以通过部署与Yarn的架构类似的框架来提供自己的集群模式。该集群模式的架构设计与HDFS和Yarn大相径庭，都是由一个主节点多个从节点组成。阅读全文

posted @ 2019-07-09 18:05 lillcol 阅读(5310) 评论(1) 推荐(0)

YARN 原理简介

摘要：YARN 组件 "参考：Spark on Yarn | Spark，从入门到精通" YARN 采用 Master/Slave结构，包含ResourceManager 和 NodeManager ResourceManager 是 Master; NodeManager 是 Slave。 YARN的阅读全文

posted @ 2019-07-09 15:16 lillcol 阅读(1250) 评论(0) 推荐(0)

Spark-内存管理调优

摘要：这篇文章主要是对官网内容学习过程的总结，大部分是原文，加上自己的学习笔记！！！ spark 2.0+内存模型调优内存使用时需要考虑三个因素: 1. 对象使用的内存数量(您可能希望您的整个数据集都能装入内存)； 2. 访问这些对象的成本 3. 垃圾收集的开销(如果对象的周转率很高)。默认情况下，J 阅读全文

posted @ 2019-07-04 00:13 lillcol 阅读(925) 评论(0) 推荐(1)

Spark源码系列:RDD repartition、coalesce 对比

摘要：RDD,重新分区，repartition,coalesce,Spark,大数据,源码阅读全文

posted @ 2018-11-01 17:14 lillcol 阅读(2668) 评论(0) 推荐(0)

Spark源码系列:DataFrame repartition、coalesce 对比

摘要：DataFrame、大数据、优化、Scala、coalesce、repartition 阅读全文

posted @ 2018-10-31 19:06 lillcol 阅读(10169) 评论(0) 推荐(2)

Spark：DataFrame批量导入Hbase的两种方式(HFile、Hive)

摘要：Spark处理后的结果数据resultDataFrame可以有多种存储介质，比较常见是存储为文件、关系型数据库，非关系行数据库。各种方式有各自的特点，对于海量数据而言，如果想要达到实时查询的目的，使用HBase作为存储的介质是非常不错的选择。现需求是：Spark对Hive、mysql数据源进行处阅读全文

posted @ 2018-10-16 18:20 lillcol 阅读(4119) 评论(0) 推荐(0)

Spark:DataFrame 写入文本文件

摘要：Spark：DataFrame写文件，追加，覆盖阅读全文

posted @ 2018-10-16 16:05 lillcol 阅读(26348) 评论(0) 推荐(0)

lillcol

随笔分类 - Hadoop

公告