10 2017 档案

摘要:第一次Java程序要在MySQL中执行一条语句,那么就必须建立一个Connection对象,代表了与MySQL数据库的连接通过直接发送你要执行的SQL语句之后,就会调用Connection.close()来关闭和销毁与数据库的连接。为什么要立即关闭呢?因为数据库的连接是一种很重的资源,代表了网络连接 阅读全文
posted @ 2017-10-26 17:57 RZ_Lee 阅读(225) 评论(0) 推荐(0)
摘要:在hive中表的类型:管理表和托管表(外部表)。 内部表也称之为MANAGER_TABLE,默认存储在/user/hive/warehouse下,也可以通过location指定;删除表时,会删除表的数据以及元数据; 外部表称之为EXTERNAL_TABLE。在创建表时可以自己指定目录位置(LOCAT 阅读全文
posted @ 2017-10-25 21:49 RZ_Lee 阅读(269) 评论(0) 推荐(0)
摘要:由于Spark 的计算本质是基于内存的,所以Spark的性能城西的性能可能因为集群中的任何因素出现瓶颈:CPU、网络带宽、或者是内存。如果内存能够容得下所有的数据,那么网络传输和通信就会导致性能出现频惊。但是如果内存比较紧张,不足以放下所有的数据(比如在针对10亿以上的数据量进行计算时),还是需要对 阅读全文
posted @ 2017-10-24 10:51 RZ_Lee 阅读(362) 评论(0) 推荐(0)
摘要:Checkpoint,是Spark 提供的一个比较高级的功能。有的时候,比如说,我们的 Spark 应用程序,特别的复杂,然后从初始的RDD开始,到最后拯个应用程序完成,有非常多的步骤,比如超过20个transformation 操作。而且整个应用运行的时间也特别的长,比如通常要运行1-5小时。 在 阅读全文
posted @ 2017-10-24 09:19 RZ_Lee 阅读(311) 评论(0) 推荐(0)
摘要:在spark新版本中,引入了 consolidation 机制,也就是说提出了ShuffleGroup的概念。一个 ShuffleMapTask 将数据写入 ResultTask 数量的本地文本,这个不会变。但是,当下一个 ShuffleMapTask 运行的时候,可以直接将数据写入之前的 Shuf 阅读全文
posted @ 2017-10-24 08:39 RZ_Lee 阅读(282) 评论(0) 推荐(0)
摘要:在spark中,什么情况下会发生shuffle? reduceByKey,groupByKey,sortByKey,countByKey,join,cogroup等操作。 默认的shuffle操作的原理剖析 假设有一个节点上面运行了4个 ShuffleMapTask,然后这个节点上只有2个 cpu 阅读全文
posted @ 2017-10-23 21:20 RZ_Lee 阅读(357) 评论(0) 推荐(0)
摘要:Spark内核架构原理 1.Driver 选spark节点之一,提交我们编写的spark程序,开启一个Driver进程,执行我们的Application应用程序,也就是我们自己编写的代码。Driver会根据我们对RDD定义的操作,提交一大堆的task去Executor上。Driver注册了一些Exe 阅读全文
posted @ 2017-10-22 01:09 RZ_Lee 阅读(367) 评论(0) 推荐(0)
摘要:Spark特点: 1.分布式 spark读取数据时是把数据分布式存储到各个节点内存中 2.主要基于内存(少数情况基于磁盘,如shuffle阶段) 所有计算操作,都是针对多个节点上内存的数据,进行并行操作的 3.迭代式计算 对分布式节点内存中的数据进行处理,处理后的数据可能会移动到其他节点的内存中,当 阅读全文
posted @ 2017-10-21 08:59 RZ_Lee 阅读(718) 评论(0) 推荐(0)
摘要:创建数据库 查看数据库 删除数据库 创建表 查看表结构 查看表详细信息 将表的详细信息格式化一下,开发中常用 加载本地数据到表中 修改hive表字段信息(字段名/字段类型) 将hive内部表转为外部表 改变外部表的location路径 查看hive表的创建信息 查看hive中的函数 查看函数怎么使用 阅读全文
posted @ 2017-10-18 10:14 RZ_Lee 阅读(674) 评论(0) 推荐(0)
摘要:什么是 Hive? Hive 是由 FaceBook 开源用于解决少量数据结构化日志的数据统计。Hive是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射成一张表,并提供类SQL查询功能。Hive 处理的数据存储在 HDFS 上,分析数据的底层实现是 MapReduce ,执行程序 阅读全文
posted @ 2017-10-17 13:26 RZ_Lee 阅读(254) 评论(0) 推荐(0)
摘要:在实际的生产环境中,我们的企业都有测试集群和生产集群,有的比较大型的企业有多个版本的Hadoop 大数据集群,这时候有个这样的需求,各个集群上的资源需要进行迁移,比如说一些生产集群需要一些测试集群的数据,需要将测试集群的上的数据拷贝到生产集群,这时候就需要使用到分布式拷贝(Distributed C 阅读全文
posted @ 2017-10-17 01:33 RZ_Lee 阅读(692) 评论(0) 推荐(0)
摘要:集群的时间要同步 * 找一台机器 时间服务器 * 所有的机器与这台机器时间进行定时的同步 比如,每日十分钟,同步一次时间 # rpm -qa|grep ntp # vi /etc/ntp.conf # vi /etc/sysconfig/ntpd # Drop root to id 'ntp:ntp 阅读全文
posted @ 2017-10-16 17:57 RZ_Lee 阅读(173) 评论(0) 推荐(0)
摘要:1、Reduce Task Number 通常来说一个block就对应一个map任务进行处理,reduce任务如果人工不去设置干预的话就一个reduce。reduce任务的个数可以通过在程序中设置 job.setNumReduceTasks(个数); ,也可在配置文件上设置reduce任务个数,默认 阅读全文
posted @ 2017-10-16 11:28 RZ_Lee 阅读(397) 评论(0) 推荐(0)
摘要:Hadoop- HDFS的Safemode hadoop启动时,NameNode启动完后就开始进入安全模式,等待DataNode向NameNode发送block report ,当datanode blocks / total blocks = 99.99%,此时安全模式才会退出 安全模式下的操作: 阅读全文
posted @ 2017-10-10 11:03 RZ_Lee 阅读(256) 评论(0) 推荐(0)
摘要:YARN是分布式资源管理,每一台机器都要去管理该台计算机的资源,Yarn负责为MapReduce程序分配运算硬件资源。每一台机器的管理者叫 NodeManager,整个集群的管理者管理着整个集群的NodeManager,叫 ResourceManager。资源调度和资源隔离是YARN作为一个资源管理 阅读全文
posted @ 2017-10-09 01:51 RZ_Lee 阅读(820) 评论(0) 推荐(0)
摘要:首先所有知识以官网为准,所有的内容在官网上都有展示,所有的变动与改进,新增内容都以官网为准。hadoop.apache.org Hadoop是一个开源的可拓展的分布式并行处理计算平台,利用服务器集群根据用户的自定义业务逻辑,对海量数据进行分布式处理。Hadoop提供了一个可靠的共享存储和分析系统,H 阅读全文
posted @ 2017-10-05 11:37 RZ_Lee 阅读(505) 评论(0) 推荐(0)