随笔分类 -  BigData

上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要:本地运行spark报错 18/12/18 12:56:55 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.18/12/18 12:56:55 WARN Utils: Service 'spa 阅读全文
posted @ 2018-12-18 21:08 匠人先生 阅读(3815) 评论(0) 推荐(1)
摘要:spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hive-on-MR is deprecated in Hive 2 and may not be ava 阅读全文
posted @ 2018-12-18 17:18 匠人先生 阅读(1374) 评论(0) 推荐(0)
摘要:spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot 阅读全文
posted @ 2018-12-18 16:15 匠人先生 阅读(2873) 评论(1) 推荐(1)
摘要:spark 2.1.1 一 启动命令 启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.deploy.SparkSubmit --class org.apache.spark.sql.hive 阅读全文
posted @ 2018-12-18 15:54 匠人先生 阅读(3542) 评论(0) 推荐(1)
摘要:spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.apache.spark.SparkException: Task failed while writi 阅读全文
posted @ 2018-12-18 15:08 匠人先生 阅读(4914) 评论(1) 推荐(3)
摘要:对文件进行词频统计,是一个大数据领域的hello word级别的应用,来看下实现有多少种: 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机处理(Array) 阅读全文
posted @ 2018-12-13 17:29 匠人先生 阅读(3396) 评论(0) 推荐(0)
摘要:官方文档如下: http://oozie.apache.org/docs/5.0.0/AG_OozieUpgrade.html 这里写的比较简单,大概过程如下:1 下载5.0代码并编译;2 解压5.0包并替换oozie-site.xml;3 停掉所有的流程;4 按照官方文档说的升级DB;5 重新启动 阅读全文
posted @ 2018-12-13 16:35 匠人先生 阅读(585) 评论(0) 推荐(1)
摘要:yarn中有一个比较重要的配置yarn.nodemanager.local-dirs,如果配置的不好,在饱和状态运行下集群会出现很多问题:1 默认配置${hadoop.tmp.dir}/nm-local-dir,系统盘通常只有几百G,配置在这里会经常报磁盘空间不足的错误;2 配置到其中1个数据盘,比 阅读全文
posted @ 2018-12-13 16:24 匠人先生 阅读(8662) 评论(1) 推荐(0)
摘要:HDFS中的File由Block组成,一个File包含一个或多个Block,当创建File时会创建一个Block,然后根据配置的副本数量(默认是3)申请3个Datanode来存放这个Block; 通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息,例如: hd 阅读全文
posted @ 2018-12-13 15:59 匠人先生 阅读(2075) 评论(0) 推荐(0)
摘要:HDFS会周期性的检查是否有文件缺少副本,并触发副本复制逻辑使之达到配置的副本数, <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonit 阅读全文
posted @ 2018-12-13 15:39 匠人先生 阅读(2732) 评论(0) 推荐(1)
摘要:公司一个kylin集群,每到周二下午就会逐个节点OOM退出,非常有规律,kylin集群5个节点,每个节点分配的内存已经不断增加到70多G,但是问题依旧; 经排查发现,每周二下午kylin集群的请求量确实会多一些,有可能是kylin的bug,也可能是其他原因,当节点kylin进程内存占用上升时,打印线 阅读全文
posted @ 2018-12-13 11:40 匠人先生 阅读(921) 评论(0) 推荐(1)
摘要:问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed 阅读全文
posted @ 2018-12-12 18:50 匠人先生 阅读(5372) 评论(0) 推荐(0)
摘要:常见调度框架实现方式 开源 Oozie 成熟稳定可靠,可直接用于生产环境 Azkaban 单点、简单粗暴,有两套独立的调度实现,必须二次开发才可用 Airflow 代码以及流程配置都是python 自己封装 基于quartz单机 使用zk来做分布式控制 常用quartz+zk做调度系统 使用db心跳 阅读全文
posted @ 2018-12-12 17:52 匠人先生 阅读(2486) 评论(0) 推荐(1)
摘要:问题 Drill最新版本是1.14,从1.13开始Drill支持hive的版本升级到2.3.2,详见1.13的release notes The Hive client for Drill is updated to version 2.3.2. With the update, Drill sup 阅读全文
posted @ 2018-12-12 17:33 匠人先生 阅读(1923) 评论(0) 推荐(1)
摘要:问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource 阅读全文
posted @ 2018-12-12 17:25 匠人先生 阅读(2161) 评论(0) 推荐(0)
摘要:内部表和外部表最主要的一个差别就是删除表或者删除分区时,底层的文件是否自动删除,内部表会自动删除,外部表不会自动删除,所以基础数据表一定要用外部表,即使误删表或分区之后,还可以很容易的恢复回来。 虽然外部表可以恢复,但是逐个分区恢复也很累,如果你的分区很多,或者有多级分区的时候 alter tabl 阅读全文
posted @ 2018-12-12 17:19 匠人先生 阅读(896) 评论(0) 推荐(1)
摘要:常用格式 textfile 需要定义分隔符,占用空间大,读写效率最低,非常容易发生冲突(分隔符)的一种格式,基本上只有需要导入数据的时候才会使用,比如导入csv文件; ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' LINES TERMINATE 阅读全文
posted @ 2018-12-12 17:18 匠人先生 阅读(2563) 评论(0) 推荐(0)
摘要:通过oozie job id可以查看流程详细信息,命令如下: oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下: Job ID : 0012077-180830142722522-oozie-hado-W Workflow N 阅读全文
posted @ 2018-12-12 17:15 匠人先生 阅读(2751) 评论(0) 推荐(0)
摘要:当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce; 在hive中叫mapjoin(map-side join),配置为 hive. 阅读全文
posted @ 2018-12-12 17:09 匠人先生 阅读(7094) 评论(0) 推荐(0)
摘要:spark任务添加依赖的方式: 1 如果是local方式运行,可以通过--jars来添加依赖; 2 如果是yarn方式运行,可以通过spark.yarn.jars来添加依赖; 这两种方式在oozie上都行不通,首先oozie上没办法也不应该通过local运行,其次通过spark.yarn.jars方 阅读全文
posted @ 2018-12-12 16:57 匠人先生 阅读(1645) 评论(0) 推荐(1)

上一页 1 ··· 5 6 7 8 9 10 11 下一页