摘要:
Sequence函数 用Sequence函数生成时间序列函数,真的是非常简便易用,之前因为没找到,所以走了不少弯路。 println("指定开始和结束数字,生成对应的数字序列,通过第三个参数来控制步长") SparkUtil.executeSQL(""" |select explode(sequen 阅读全文
摘要:
1. 均衡操作 以1.4.9版本为例,默认balance策略是开启状态。如果关闭,在Ui会出现如下警告: The Load Balancer is not enabled which will eventually cause performance degradation in HBase as 阅读全文
摘要:
hadoop如果一个节点内有新增磁盘或者数据出现在磁盘上不均衡时,需要做磁盘均衡,就是将其他已经写入数据的磁盘均衡到新增加的磁盘上去,大概分为以下三个步骤,计划,执行,查询: 一般默认都开启了磁盘均衡,但是我这种状况特殊,公司给的初始磁盘大小不一样。。。我也没辙。。我只是试验下,我这种情况能否做数据 阅读全文
摘要:
将hbase目录拷贝后命名为hbase2,然后在hbase2中做如下修改。 1.hbase-site.xml hbase的默认端口是16020和16030,所以这里使用16120和16130。 <property> <name>hbase.regionserver.port</name> <valu 阅读全文
摘要:
需求说明 期初是我们的物理机上安装了Hbase,由于物理机硬件配置还可以,1T内存,64核。 只有4台机器,我们装完Hbase后,发现应用请求比较多,导致RegionServer经常挂掉。 但是机器本身资源使用率并不高,因此我们希望在一个节点上启用多个RegionServer服务。 如果一个节点启动 阅读全文
摘要:
问题:hbase集群请求超负载,导致HRegionServer服务宕掉,出现Region in Transition状态 重启后,如果Region in Transition一直存在很长时间,需要查看是否被某个producer锁住。 hbase修复工具下载地址 这里是源码,需要自己下载编译成jar包 阅读全文
摘要:
1. HbaseUtil工具类 Hbase虽然提供了相关的API,但是在实际使用过程中还是非常麻烦,因此根据官方的API封装对应的工具类,从而简化开发操作。 package com.king import java.math.BigDecimal import java.util import co 阅读全文
摘要:
1.RowKey设计 省略 2.参数优化 2.1 zk会话超时时间 hbase-site.xml zookeeper.session.timeout: 默认值90000毫秒(90s)。 当某个RegionServer挂掉后,90s之后Master才能察觉到。可适当减少此值,尽可能块的检测region 阅读全文
摘要:
默认我们使用的hive自带的json包格式,创建表时格式为: CREATE EXTERNAL TABLE `ods.ods_test`( ... ) ROW FORMAT SERDE 'org.apache.hive.hcatalog.data.JsonSerDe' STORED AS text; 阅读全文
摘要:
前提是主库的MySQL开启了Binlog,不然需要修改配置,然后重启MySQL 1.主库配置 [mysqld] max_allowed_packet=1024M server-id=1 log-bin=mysql-bin binlog_format=row # 必须为FULL,MySQL-5.7后才 阅读全文
摘要:
当运维丢给你一台新装的操作系统,本文将记录手工添加一个节点需要做哪些具体的操作,当前的版本是apache hadoop,未使用CDH版本。 1 系统环境设置 1.1 修改hostname 根据IP设置对应节点的名称,比如增加一个192.168.1.130节点作为数据节点。 临时设置:hostname 阅读全文
摘要:
做机器迁移,导致flink程序写iceberg失败,原因是hive的元数据存储库mysql停了一段时间。 然后flink出现以下异常, org.apache.iceberg.exceptions.NotFoundException: Failed to open input stream for f 阅读全文
摘要:
有5个zk节点,有1个节点查看状态一直报错: ZooKeeper JMX enabled by default Using config: /home/hadoop/bigdata/zk/bin/../conf/zoo.cfg Client port found: 2181. Client addr 阅读全文
摘要:
1、备份命令 格式:mysqldump -h主机名 -P端口 -u用户名 -p密码 --database 数据库名 > 文件名.sql 例如: mysqldump -h 192.168.1.100 -p 3306 -uroot -ppassword --database cmdb > /data/b 阅读全文
摘要:
Mysql的binlog开启后一直没清理,占用太大空间 1.查看binlog过期时间 show variables like 'expire_logs_days'; expire_logs_days=0: 这里的值如果为0,表示所有binlog日志永久都不会失效,不会自动删除; 这里的值如果为30, 阅读全文
摘要:
1. 原因 写入iceberg表时,会在hive_locks表中插入一条记录,表示该表正在被写入(hive中的独占锁) 当数据插入完成后,会自动删除该条记录。 2. 出现场景 (1)在同时往同一个iceberg表中写入数据时,会出现Retrying task after failure: Waiti 阅读全文
摘要:
SQL 错误 [1] [08S01]: Error while processing statement: FAILED: Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. org.apache.i 阅读全文
摘要:
执行spark任务居然碰到了hive中表的被锁了,导致写数据时失败,这个还真是头一次碰到过这回事。 错误信息如下: 22/09/04 21:02:28 WARN Tasks: Retrying task after failure: Waiting for lock. org.apache.iceb 阅读全文
摘要:
感悟:有时候很简单的笨办法,比那些高大上的技术要实用的多。 有一个数据同步,大约4亿条记录,没有分区。现在要按照天,小时分区写入到iceberg的分区表中。 源数据中本身就是很多几十k大小的非常多的小文件。 于是在读取时,总想着要shuffle,合并小文件,于是是这样的: hive_df = spa 阅读全文
摘要:
PySpark版本: https://spark.apache.org/docs/2.4.8/api/python/pyspark.sql.html Scala Spark版本: https://spark.apache.org/docs/2.4.8/api/scala/index.html#org 阅读全文