Syui啦

2020年3月26日

摘要： split hbase是通过regionServer管理table的，一个table对应一个或多个region，hmaster将这些region根据集群负载分配给regionServer进行管理。若一个table没有进行预分区，那么只有一个region，初始化表时数据的读写都命中同一个regionS 阅读全文

posted @ 2020-03-26 10:38 Syui啦阅读(5212) 评论(0) 推荐(0)

2020年3月25日

启动hbase后hmaster自动关闭

摘要：春节期间一直没有用过笔记本上的集群，今天启动hbase后在shell操作报错，没有master。日志报错：NoClassDefFoundError: org/apache/htrace/SamplerBuilder 我确信集群配置、版本这些都没问题，于是删了zk上的hbase节点数据后重启zk，也没阅读全文

posted @ 2020-03-25 09:29 Syui啦阅读(689) 评论(0) 推荐(0)

2020年3月17日

hive一级分区、二级分区、动态分区

摘要：一级分区 1、hive分区是根据某列的值进行划分，每个分区对应HDFS上的一个目录，以下就是分区表test.table_t在HDFS的存储路径，可以看到有202002和202003两个分区，且分区字段为month。 2、创建分区表 1 create table table_name( 2 no in 阅读全文

posted @ 2020-03-17 19:24 Syui啦阅读(8306) 评论(1) 推荐(0)

hive beeline连接和交互shell连接

摘要：交互shell连接 ${HIVE_HOME}/bin/hive 比较丑陋，数据显示也比较乱。 beeline连接 1、要在hive-site.xml中添加hiveserver2的配置，端口默认为10000，且要保证hive在mysql中的元数据库已经创建成功。 2、启动hiveserver2：hiv 阅读全文

posted @ 2020-03-17 17:52 Syui啦阅读(1834) 评论(0) 推荐(0)

yum安装mysql

摘要： 1、在线下载mysql包 yum -y install mysql mysql-server mysql-devel 2、启动mysql /etc/init.d/mysqld start 3、通过mysql自带脚本，跟着提示按照自己需要进行设置 /usr/bin/mysql_secure_insta 阅读全文

posted @ 2020-03-17 17:35 Syui啦阅读(159) 评论(0) 推荐(0)

Oracle触发器开发

摘要：开发触发器的注意点触发器不接收参数触发器越多，DML操作性能越低触发器最大为32k，若pl/sql语句太多，可以编写存储过程，在触发器中调用在触发器的执行部分只能用DML语句(insert、select、update、delete)，不能使用DDL语句(create、alter、drop) 阅读全文

posted @ 2020-03-17 16:02 Syui啦阅读(255) 评论(0) 推荐(0)

Oracle存储过程、包的开发

摘要：规范 1 create or replace procedure_name 2 ( 3 --参数：argument,根据参数类型命名，如number就是an_...，date就是ad_... 4 ad_data_date in date, 5 --使用表名.列名定义参数类型 6 P_id table 阅读全文

posted @ 2020-03-17 15:47 Syui啦阅读(252) 评论(0) 推荐(0)

2019年7月8日

Spark2.4.0源码——TaskScheduler

摘要：概述 TaskScheduler定义了对任务进行调度的接口规范，目前spark只有taskSchedulerImpl一个实现类，用于接收DAGScheduler发送的taskSets，并按照资源调度算法将资源分配给task并提交task到executor上执行。 TaskSchedulerImpl通阅读全文

posted @ 2019-07-08 17:19 Syui啦阅读(256) 评论(0) 推荐(0)

2019年7月4日

Spark2.4.0源码——DAGScheduler

摘要：前言 Spark会将用户提交的作业看作一个job，在提交的时候首先将job转换为一系列的RDD，并按照RDD之间的依赖关系构建DAG(有向无环图)，DAGScheduler会按照RDD依赖的不同将DAG划分为不同的stage，每个stage内部按照RDD分区数创建多个task，最后将task封装成t 阅读全文

posted @ 2019-07-04 08:51 Syui啦阅读(193) 评论(0) 推荐(0)

2019年6月27日

Spark2.4.0源码——RpcEnv

摘要：参考《Spark内核设计的艺术：架构设计与实现——耿嘉安》 NettyRpcEnv概述 Spark的NettyRpc环境的一些重要组件： private[netty] val transportConf = SparkTransportConf.fromSparkConf(...) private 阅读全文

posted @ 2019-06-27 16:47 Syui啦阅读(1666) 评论(0) 推荐(0)

不是反派，不是英雄。

公告