2017 年 10月随笔档案 - RZ_Lee

JAVA- 数据库连接池原理

摘要：第一次Java程序要在MySQL中执行一条语句，那么就必须建立一个Connection对象，代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后，就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢？因为数据库的连接是一种很重的资源，代表了网络连接阅读全文

posted @ 2017-10-26 17:57 RZ_Lee 阅读(225) 评论(0) 推荐(0)

Hive- 表

摘要：在hive中表的类型：管理表和托管表（外部表）。内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下，也可以通过location指定；删除表时，会删除表的数据以及元数据；外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置（LOCAT 阅读全文

posted @ 2017-10-25 21:49 RZ_Lee 阅读(269) 评论(0) 推荐(0)

Spark- 性能优化

摘要：由于Spark 的计算本质是基于内存的，所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈：CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据，那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张，不足以放下所有的数据（比如在针对10亿以上的数据量进行计算时），还是需要对阅读全文

posted @ 2017-10-24 10:51 RZ_Lee 阅读(362) 评论(0) 推荐(0)

Spark- Checkpoint原理剖析

摘要：Checkpoint，是Spark 提供的一个比较高级的功能。有的时候，比如说，我们的 Spark 应用程序，特别的复杂，然后从初始的RDD开始，到最后拯个应用程序完成，有非常多的步骤，比如超过20个transformation 操作。而且整个应用运行的时间也特别的长，比如通常要运行1-5小时。在阅读全文

posted @ 2017-10-24 09:19 RZ_Lee 阅读(311) 评论(0) 推荐(0)

Spark- 优化后的 shuffle 操作原理剖析

摘要：在spark新版本中，引入了 consolidation 机制，也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本，这个不会变。但是，当下一个 ShuffleMapTask 运行的时候，可以直接将数据写入之前的 Shuf 阅读全文

posted @ 2017-10-24 08:39 RZ_Lee 阅读(282) 评论(0) 推荐(0)

Spark- Spark普通Shuffle操作的原理剖析

摘要：在spark中，什么情况下会发生shuffle？ reduceByKey，groupByKey，sortByKey，countByKey，join，cogroup等操作。默认的shuffle操作的原理剖析假设有一个节点上面运行了4个 ShuffleMapTask，然后这个节点上只有2个 cpu 阅读全文

posted @ 2017-10-23 21:20 RZ_Lee 阅读(357) 评论(0) 推荐(0)

Spark- Spark内核架构原理和Spark架构深度剖析

摘要：Spark内核架构原理 1.Driver 选spark节点之一，提交我们编写的spark程序，开启一个Driver进程，执行我们的Application应用程序，也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作，提交一大堆的task去Executor上。Driver注册了一些Exe 阅读全文

posted @ 2017-10-22 01:09 RZ_Lee 阅读(367) 评论(0) 推荐(0)

Spark- Spark基本工作原理

摘要：Spark特点： 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存（少数情况基于磁盘，如shuffle阶段）所有计算操作，都是针对多个节点上内存的数据，进行并行操作的 3.迭代式计算对分布式节点内存中的数据进行处理，处理后的数据可能会移动到其他节点的内存中，当阅读全文

posted @ 2017-10-21 08:59 RZ_Lee 阅读(718) 评论(0) 推荐(0)

Hive- Hive 的基本操作

摘要：创建数据库查看数据库删除数据库创建表查看表结构查看表详细信息将表的详细信息格式化一下，开发中常用加载本地数据到表中修改hive表字段信息（字段名/字段类型）将hive内部表转为外部表改变外部表的location路径查看hive表的创建信息查看hive中的函数查看函数怎么使用阅读全文

posted @ 2017-10-18 10:14 RZ_Lee 阅读(674) 评论(0) 推荐(0)

Hive- 大数据仓库Hive

摘要：什么是 Hive？ Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射成一张表，并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上，分析数据的底层实现是 MapReduce ，执行程序阅读全文

posted @ 2017-10-17 13:26 RZ_Lee 阅读(254) 评论(0) 推荐(0)

Hadoop- DistCp(分布式拷贝)

摘要：在实际的生产环境中，我们的企业都有测试集群和生产集群，有的比较大型的企业有多个版本的Hadoop 大数据集群，这时候有个这样的需求，各个集群上的资源需要进行迁移，比如说一些生产集群需要一些测试集群的数据，需要将测试集群的上的数据拷贝到生产集群，这时候就需要使用到分布式拷贝（Distributed C 阅读全文

posted @ 2017-10-17 01:33 RZ_Lee 阅读(692) 评论(0) 推荐(0)

Hadoop- 集群时间同步

摘要：集群的时间要同步 * 找一台机器时间服务器 * 所有的机器与这台机器时间进行定时的同步比如，每日十分钟，同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp 阅读全文

posted @ 2017-10-16 17:57 RZ_Lee 阅读(173) 评论(0) 推荐(0)

Hadoop- MapReduce在实际应用中常见的调优

摘要：1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理，reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ，也可在配置文件上设置reduce任务个数，默认阅读全文

posted @ 2017-10-16 11:28 RZ_Lee 阅读(397) 评论(0) 推荐(0)

Hadoop- HDFS的Safemode

摘要：Hadoop- HDFS的Safemode hadoop启动时，NameNode启动完后就开始进入安全模式，等待DataNode向NameNode发送block report ，当datanode blocks / total blocks = 99.99%，此时安全模式才会退出安全模式下的操作：阅读全文

posted @ 2017-10-10 11:03 RZ_Lee 阅读(256) 评论(0) 推荐(0)

Hadoop- 分布式资源管理YARN架构讲解

摘要：YARN是分布式资源管理，每一台机器都要去管理该台计算机的资源，Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager，整个集群的管理者管理着整个集群的NodeManager，叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理阅读全文

posted @ 2017-10-09 01:51 RZ_Lee 阅读(820) 评论(0) 推荐(0)

Hadoop- Hadoop详解

摘要：首先所有知识以官网为准，所有的内容在官网上都有展示，所有的变动与改进，新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台，利用服务器集群根据用户的自定义业务逻辑，对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统，H 阅读全文

posted @ 2017-10-05 11:37 RZ_Lee 阅读(505) 评论(0) 推荐(0)

RZ_Lee

积累点滴，终成大器

10 2017 档案

公告