BigData - 随笔分类(第9页) - 匠人先生

大叔经验分享（13）spark运行报错WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.

摘要：本地运行spark报错 18/12/18 12:56:55 WARN Utils: Service 'sparkDriver' could not bind on port 0. Attempting port 1.18/12/18 12:56:55 WARN Utils: Service 'spa 阅读全文

posted @ 2018-12-18 21:08 匠人先生阅读(3815) 评论(0) 推荐(1)

大叔经验分享（12）如何程序化kill提交到spark thrift上的sql

摘要：spark 2.1.1 hive正在执行中的sql可以很容易的中止，因为可以从console输出中拿到当前在yarn上的application id，然后就可以kill任务， WARNING: Hive-on-MR is deprecated in Hive 2 and may not be ava 阅读全文

posted @ 2018-12-18 17:18 匠人先生阅读(1374) 评论(0) 推荐(0)

大叔问题定位分享（16）spark写数据到hive外部表报错ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot be cast to org.apache.hadoop.hive.ql.io.HiveOutputFormat

摘要：spark 2.1.1 spark在写数据到hive外部表（底层数据在hbase中）时会报错 Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot 阅读全文

posted @ 2018-12-18 16:15 匠人先生阅读(2873) 评论(1) 推荐(1)

大数据基础之Spark（3）Spark Thrift实现原理及代码实现

摘要：spark 2.1.1 一启动命令启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.deploy.SparkSubmit --class org.apache.spark.sql.hive 阅读全文

posted @ 2018-12-18 15:54 匠人先生阅读(3542) 评论(0) 推荐(1)

大叔问题定位分享（15）spark写parquet数据报错ParquetEncodingException: empty fields are illegal, the field should be ommited completely instead

摘要：spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下： org.apache.spark.SparkException: Task failed while writi 阅读全文

posted @ 2018-12-18 15:08 匠人先生阅读(4914) 评论(1) 推荐(3)

大数据基础之词频统计Word Count

摘要：对文件进行词频统计，是一个大数据领域的hello word级别的应用，来看下实现有多少种： 1 Linux单机处理 egrep -o "\b[[:alpha:]]+\b" test_word.log|sort|uniq -c|sort -rn|head -10 2 Scala单机处理（Array）阅读全文

posted @ 2018-12-13 17:29 匠人先生阅读(3396) 评论(0) 推荐(0)

大数据基础之Oozie（3）Oozie从4.3升级到5.0

摘要：官方文档如下： http://oozie.apache.org/docs/5.0.0/AG_OozieUpgrade.html 这里写的比较简单，大概过程如下：1 下载5.0代码并编译；2 解压5.0包并替换oozie-site.xml；3 停掉所有的流程；4 按照官方文档说的升级DB；5 重新启动阅读全文

posted @ 2018-12-13 16:35 匠人先生阅读(585) 评论(0) 推荐(1)

大叔经验分享（9）yarn重要配置yarn.nodemanager.local-dirs

摘要：yarn中有一个比较重要的配置yarn.nodemanager.local-dirs，如果配置的不好，在饱和状态运行下集群会出现很多问题：1 默认配置${hadoop.tmp.dir}/nm-local-dir，系统盘通常只有几百G，配置在这里会经常报磁盘空间不足的错误；2 配置到其中1个数据盘，比阅读全文

posted @ 2018-12-13 16:24 匠人先生阅读(8662) 评论(1) 推荐(0)

大数据基础之HDFS（1）HDFS新创建文件如何分配Datanode

摘要：HDFS中的File由Block组成，一个File包含一个或多个Block，当创建File时会创建一个Block，然后根据配置的副本数量（默认是3）申请3个Datanode来存放这个Block；通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息，例如： hd 阅读全文

posted @ 2018-12-13 15:59 匠人先生阅读(2075) 评论(0) 推荐(0)

大数据基础之HDFS（2）HDFS副本数量检查及复制逻辑

摘要：HDFS会周期性的检查是否有文件缺少副本，并触发副本复制逻辑使之达到配置的副本数， <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonit 阅读全文

posted @ 2018-12-13 15:39 匠人先生阅读(2732) 评论(0) 推荐(1)

大叔问题定位分享（14）Kylin频繁OOM问题

摘要：公司一个kylin集群，每到周二下午就会逐个节点OOM退出，非常有规律，kylin集群5个节点，每个节点分配的内存已经不断增加到70多G，但是问题依旧；经排查发现，每周二下午kylin集群的请求量确实会多一些，有可能是kylin的bug，也可能是其他原因，当节点kylin进程内存占用上升时，打印线阅读全文

posted @ 2018-12-13 11:40 匠人先生阅读(921) 评论(0) 推荐(1)

【原创】大叔问题定位分享（13）HBase Region频繁下线

摘要：问题现象：hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed 阅读全文

posted @ 2018-12-12 18:50 匠人先生阅读(5372) 评论(0) 推荐(0)

大数据基础之调度框架

摘要：常见调度框架实现方式开源 Oozie 成熟稳定可靠，可直接用于生产环境 Azkaban 单点、简单粗暴，有两套独立的调度实现，必须二次开发才可用 Airflow 代码以及流程配置都是python 自己封装基于quartz单机使用zk来做分布式控制常用quartz+zk做调度系统使用db心跳阅读全文

posted @ 2018-12-12 17:52 匠人先生阅读(2486) 评论(0) 推荐(1)

大数据基础之Drill（2）Drill1.14+Hive2.1.1运行

摘要：问题 Drill最新版本是1.14，从1.13开始Drill支持hive的版本升级到2.3.2，详见1.13的release notes The Hive client for Drill is updated to version 2.3.2. With the update, Drill sup 阅读全文

posted @ 2018-12-12 17:33 匠人先生阅读(1923) 评论(0) 推荐(1)

大叔问题定位分享（12）Spark保存文本类型文件（text、csv、json等）到hdfs时为什么是压缩格式的

摘要：问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf，然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource 阅读全文

posted @ 2018-12-12 17:25 匠人先生阅读(2161) 评论(0) 推荐(0)

大叔经验分享（8）创建hive表时用内部表还是外部表

摘要：内部表和外部表最主要的一个差别就是删除表或者删除分区时，底层的文件是否自动删除，内部表会自动删除，外部表不会自动删除，所以基础数据表一定要用外部表，即使误删表或分区之后，还可以很容易的恢复回来。虽然外部表可以恢复，但是逐个分区恢复也很累，如果你的分区很多，或者有多级分区的时候 alter tabl 阅读全文

posted @ 2018-12-12 17:19 匠人先生阅读(896) 评论(0) 推荐(1)

大叔经验分享（7）创建hive表时格式如何选择

摘要：常用格式 textfile 需要定义分隔符，占用空间大，读写效率最低，非常容易发生冲突（分隔符）的一种格式，基本上只有需要导入数据的时候才会使用，比如导入csv文件； ROW FORMAT DELIMITED FIELDS TERMINATED BY '\u0001' LINES TERMINATE 阅读全文

posted @ 2018-12-12 17:18 匠人先生阅读(2563) 评论(0) 推荐(0)

大叔经验分享（6）Oozie如何查看提交到Yarn上的任务日志

摘要：通过oozie job id可以查看流程详细信息，命令如下： oozie job -info 0012077-180830142722522-oozie-hado-W 流程详细信息如下： Job ID : 0012077-180830142722522-oozie-hado-W Workflow N 阅读全文

posted @ 2018-12-12 17:15 匠人先生阅读(2751) 评论(0) 推荐(0)

大叔问题定位分享（11）Spark中对大表子查询加limit为什么会报Broadcast超时错误

摘要：当两个表需要join时，如果一个是大表，一个是小表，正常的map-reduce流程需要shuffle，这会导致大表数据在节点间网络传输，常见的优化方式是将小表读到内存中并广播到大表处理，避免shuffle+reduce；在hive中叫mapjoin（map-side join），配置为 hive. 阅读全文

posted @ 2018-12-12 17:09 匠人先生阅读(7094) 评论(0) 推荐(0)

大叔经验分享（5）oozie提交spark任务如何添加依赖

摘要：spark任务添加依赖的方式： 1 如果是local方式运行，可以通过--jars来添加依赖； 2 如果是yarn方式运行，可以通过spark.yarn.jars来添加依赖；这两种方式在oozie上都行不通，首先oozie上没办法也不应该通过local运行，其次通过spark.yarn.jars方阅读全文

posted @ 2018-12-12 16:57 匠人先生阅读(1645) 评论(0) 推荐(1)

Thinking in BigData

匠人先生

随笔分类 - BigData

公告