随笔分类 -  BigData

上一页 1 ··· 6 7 8 9 10 11 下一页
摘要:hdfs、yarn、hbase这些组件的master支持多个,实现自动主备切换,其中hdfs、hbase无论访问主master或者备master都可以正常访问页面,但是yarn比较特别,只有主master的页面可以访问,备master会返回Refresh,3s后重定向; 一种方式是提供两个域名,分别 阅读全文
posted @ 2018-12-12 16:54 匠人先生 阅读(1741) 评论(0) 推荐(0)
摘要:java中访问hbase有两种方式,一种是hbase自带的client,一种是通过hbase thrift 1 hbase client示例 Configuration conf = HBaseConfiguration.create(); conf.set(HConstants.ZOOKEEPER 阅读全文
posted @ 2018-12-12 16:47 匠人先生 阅读(790) 评论(0) 推荐(0)
摘要:问题重现 select id from big_table where name = 'sdlkfjalksdjfla' limit 100; 首先看执行计划: hive> explain select * from big_table where name = 'sdlkfjalksdjfla' 阅读全文
posted @ 2018-12-12 16:41 匠人先生 阅读(2778) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName("MethodPositionTest") val sc = new SparkContext(spark 阅读全文
posted @ 2018-12-12 16:28 匠人先生 阅读(3222) 评论(0) 推荐(0)
摘要:oozie中支持很多的action类型,比如spark、hive,对应的标签为: <spark xmlns="uri:oozie:spark-action:0.1"> ... oozie中sharelib用于存放每个action类型需要的依赖,可以查看当前所有的action类型以及每个action类 阅读全文
posted @ 2018-12-12 16:08 匠人先生 阅读(3723) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkclient-0.3.jar --driver-memory 1g app.jar 报错 Java Hot 阅读全文
posted @ 2018-12-12 15:38 匠人先生 阅读(2889) 评论(0) 推荐(0)
摘要:spark 2.1.1 最近spark任务(spark on yarn)有一个报错 Diagnostics: Container [pid=5901,containerID=container_1542879939729_30802_01_000001] is running beyond phys 阅读全文
posted @ 2018-12-11 15:13 匠人先生 阅读(2910) 评论(0) 推荐(1)
摘要:hive执行sql提交到yarn上的任务名字是被处理过的,通常只能显示sql的前边一段和最后几个字符,这样就会带来一些问题: 1)相近时间提交了几个相近的sql,相互之间无法区分; 2)一个任务有问题,想看下这个任务具体执行的是什么?是谁的任务? 通过以下方法可以查看: 1)如果任务正在runnin 阅读全文
posted @ 2018-12-07 16:40 匠人先生 阅读(6216) 评论(0) 推荐(1)
摘要:Spark2.1.1 最近运行spark任务时会发现任务经常运行很久,具体job如下: Job Id ▾ Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 16 阅读全文
posted @ 2018-12-03 18:21 匠人先生 阅读(7497) 评论(0) 推荐(2)
摘要:http://parquet.apache.org 层次结构: file -> row groups -> column chunks -> pages(data/index/dictionary) Motivation We created Parquet to make the advantag 阅读全文
posted @ 2018-11-08 17:05 匠人先生 阅读(1060) 评论(0) 推荐(1)
摘要:https://orc.apache.org Optimized Row Columnar (ORC) file 行列混合存储 层次结构: file -> stripes -> row groups(10000 rows) Background Back in January 2013, we cr 阅读全文
posted @ 2018-11-07 18:19 匠人先生 阅读(2350) 评论(0) 推荐(0)
摘要:kafka0.8.1 一 问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/22 11:52:32.738] at java.net.Socket.createImpl(Soc 阅读全文
posted @ 2018-11-07 16:17 匠人先生 阅读(7548) 评论(2) 推荐(2)
摘要:kafka_2.8.0-0.8.1 一 现象 生产环境一组kafka集群经常发生问题,现象是kafka在zookeeper上的broker节点消失,此时kafka进程和端口都在,然后每个broker都在报错,主要是 1) [2017-01-09 12:40:53,832] INFO Partitio 阅读全文
posted @ 2018-11-07 15:50 匠人先生 阅读(4146) 评论(0) 推荐(0)
摘要:kafka0.8.1 一 问题现象 生产环境kafka服务器134、135、136分别在10月11号、10月13号挂掉: 134日志 [2014-10-13 16:45:41,902] FATAL [KafkaApi-134] Halting due to unrecoverable I/O err 阅读全文
posted @ 2018-11-07 15:25 匠人先生 阅读(2346) 评论(1) 推荐(0)
摘要:kafka2.0 http://kafka.apache.org 一 简介 Kafka® is used for building real-time data pipelines and streaming apps. It is horizontally scalable, fault-tole 阅读全文
posted @ 2018-11-06 23:20 匠人先生 阅读(711) 评论(0) 推荐(1)
摘要:最近用yarn cluster方式提交spark任务时,有时会报错,报错几率是40%,报错如下: 18/03/15 21:50:36 116 ERROR ApplicationMaster91: User class threw exception: org.apache.spark.sql.Ana 阅读全文
posted @ 2018-11-02 15:01 匠人先生 阅读(2676) 评论(0) 推荐(0)
摘要:概括 Azkaban是一个非常轻量的开源调度框架,适合二次开发,但是无法直接用于生产环境,存在致命缺陷(比如AzkabanWebServer是单点,1年多时间没有修复),在一些情景下的行为简单粗暴(比如重启AzkabanExecutorServer会导致该server上正在运行的所有流程fail), 阅读全文
posted @ 2018-11-02 11:12 匠人先生 阅读(1301) 评论(0) 推荐(2)
摘要:Azkaban3.45 一 简介 1 官网 https://azkaban.github.io/ Azkaban was implemented at LinkedIn to solve the problem of Hadoop job dependencies. We had jobs that 阅读全文
posted @ 2018-11-02 11:09 匠人先生 阅读(1967) 评论(0) 推荐(1)
摘要:Oozie4.3 一 简介 1 官网 http://oozie.apache.org/ Apache Oozie Workflow Scheduler for Hadoop Hadoop生态的工作流调度器 Overview Oozie is a workflow scheduler system t 阅读全文
posted @ 2018-11-02 11:05 匠人先生 阅读(2454) 评论(0) 推荐(1)
摘要:1 集群配置管理 应用服务器的配置通常会放到properties文件中,格式为: system1.module2.prop3=value4 然后启动的时候加载,这样带来的问题是启动后无法修改,想修改必须要重启应用服务器; 一个简单的替代方式是存放到数据库中,应用服务器每次从数据库中加载配置,这样带来 阅读全文
posted @ 2018-11-02 10:56 匠人先生 阅读(301) 评论(0) 推荐(1)

上一页 1 ··· 6 7 8 9 10 11 下一页