记录一个dremio 物化存储异常问题
最近碰到一个比较有意思的dremio问题,异常信息如下,造成的现象是dremio 已经无法提交任务了,基本过60s 会有如下的信息
异常信息如下
com.dremio.common.exceptions.UserException: Timed out waiting for materialization cache to initialize.
at com.dremio.common.exceptions.UserException$Builder.build(UserException.java:984)
at com.dremio.exec.planner.sql.SqlExceptionHelper.coerceException(SqlExceptionHelper.java:124)
at com.dremio.exec.planner.sql.handlers.query.NormalHandler.getPlan(NormalHandler.java:147)
at com.dremio.exec.planner.sql.handlers.commands.HandlerToExec.plan(HandlerToExec.java:56)
at com.dremio.exec.work.foreman.AttemptManager.plan(AttemptManager.java:777)
at com.dremio.exec.work.foreman.AttemptManager.lambda$run$4(AttemptManager.java:611)
at com.dremio.service.commandpool.CommandWrapper.run(CommandWrapper.java:73)
at com.dremio.service.commandpool.ReleasableBoundCommandPool.submit(ReleasableBoundCommandPool.java:198)
解决方法
首先尝试的是服务先重启下,结果没用,提交还是会有上线的问题,尝试了好几次结果都没有效果,之后想着可能是kv 有异常了,因为出现问题之前有尝试进行一个source 的信息变动,结果没成功,然后就想着可以尝试清理下dremio 的kv 使用dremio-admin 工具,开始清理的任务还都是比较快的,结果在一个profiles 的kv 中特别慢,花了得有5分钟左右,原则上应该很快,之后清理完成之后,服务重启,异常消息,业务可以正常工作
说明
可能的问题估计就是kv的异常,因为一次source 变动操作不太顺利引起的多,重新清理(实际内部并不是清理,而是压缩整理)kv dremio-admin clean -c 可以解决不太一致的数据
说明
问题比较诡异 ,因为dremio 组件上相对简单,以为简单的重启就可以解决了,结果发现还是不行,开始也以为物化存储异常了(s3)检查结果服务是正常的,定时清理kv 还是比较有用的,但是注意备份
浙公网安备 33010602011771号