随笔分类 -  源码

摘要:一 简介 spark核心是RDD,官方文档地址:https://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds官方描述如下:重点是可容错,可并行处理 Spark r 阅读全文
posted @ 2018-12-20 21:18 匠人先生 阅读(1661) 评论(0) 推荐(1)
摘要:spark 2.1.1 beeline连接spark thrift之后,执行use database有时会卡住,而use database 在server端对应的是 setCurrentDatabase, 经过排查发现当时spark thrift正在执行insert操作, org.apache.sp 阅读全文
posted @ 2018-12-19 19:38 匠人先生 阅读(948) 评论(0) 推荐(0)
摘要:spark 2.1.1 hive正在执行中的sql可以很容易的中止,因为可以从console输出中拿到当前在yarn上的application id,然后就可以kill任务, WARNING: Hive-on-MR is deprecated in Hive 2 and may not be ava 阅读全文
posted @ 2018-12-18 17:18 匠人先生 阅读(1374) 评论(0) 推荐(0)
摘要:spark 2.1.1 spark在写数据到hive外部表(底层数据在hbase中)时会报错 Caused by: java.lang.ClassCastException: org.apache.hadoop.hive.hbase.HiveHBaseTableOutputFormat cannot 阅读全文
posted @ 2018-12-18 16:15 匠人先生 阅读(2873) 评论(1) 推荐(1)
摘要:spark 2.1.1 一 启动命令 启动spark thrift命令 $SPARK_HOME/sbin/start-thriftserver.sh 然后会执行 org.apache.spark.deploy.SparkSubmit --class org.apache.spark.sql.hive 阅读全文
posted @ 2018-12-18 15:54 匠人先生 阅读(3542) 评论(0) 推荐(1)
摘要:spark 2.1.1 spark里执行sql报错 insert overwrite table test_parquet_table select * from dummy 报错如下: org.apache.spark.SparkException: Task failed while writi 阅读全文
posted @ 2018-12-18 15:08 匠人先生 阅读(4914) 评论(1) 推荐(3)
摘要:HDFS中的File由Block组成,一个File包含一个或多个Block,当创建File时会创建一个Block,然后根据配置的副本数量(默认是3)申请3个Datanode来存放这个Block; 通过hdfs fsck命令可以查看一个文件具体的Block、Datanode、Rack信息,例如: hd 阅读全文
posted @ 2018-12-13 15:59 匠人先生 阅读(2075) 评论(0) 推荐(0)
摘要:HDFS会周期性的检查是否有文件缺少副本,并触发副本复制逻辑使之达到配置的副本数, <property> <name>dfs.replication</name> <value>3</value> </property> 具体实现是在BlockManager中启动线程ReplicationMonit 阅读全文
posted @ 2018-12-13 15:39 匠人先生 阅读(2732) 评论(0) 推荐(1)
摘要:公司一个kylin集群,每到周二下午就会逐个节点OOM退出,非常有规律,kylin集群5个节点,每个节点分配的内存已经不断增加到70多G,但是问题依旧; 经排查发现,每周二下午kylin集群的请求量确实会多一些,有可能是kylin的bug,也可能是其他原因,当节点kylin进程内存占用上升时,打印线 阅读全文
posted @ 2018-12-13 11:40 匠人先生 阅读(921) 评论(0) 推荐(1)
摘要:classloader简介 1 classloader层次结构(父子关系) Bootstrap(ClassLoader) ExtClassLoader AppClassLoader XXXClassLoader 详见代码如下: sun.misc.Launcher public Launcher() 阅读全文
posted @ 2018-12-12 23:11 匠人先生 阅读(338) 评论(0) 推荐(0)
摘要:问题现象:hive执行sql报错 select count(*) from test_hive_table; 报错 Error: java.io.IOException: org.apache.hadoop.hbase.client.RetriesExhaustedException: Failed 阅读全文
posted @ 2018-12-12 18:50 匠人先生 阅读(5372) 评论(0) 推荐(0)
摘要:问题重现 rdd.repartition(1).write.csv(outPath) 写文件之后发现文件是压缩过的 write时首先会获取hadoopConf,然后从中获取是否压缩以及压缩格式 org.apache.spark.sql.execution.datasources.DataSource 阅读全文
posted @ 2018-12-12 17:25 匠人先生 阅读(2161) 评论(0) 推荐(0)
摘要:当两个表需要join时,如果一个是大表,一个是小表,正常的map-reduce流程需要shuffle,这会导致大表数据在节点间网络传输,常见的优化方式是将小表读到内存中并广播到大表处理,避免shuffle+reduce; 在hive中叫mapjoin(map-side join),配置为 hive. 阅读全文
posted @ 2018-12-12 17:09 匠人先生 阅读(7094) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 问题代码示例 object MethodPositionTest { val sparkConf = new SparkConf().setAppName("MethodPositionTest") val sc = new SparkContext(spark 阅读全文
posted @ 2018-12-12 16:28 匠人先生 阅读(3222) 评论(0) 推荐(0)
摘要:spark 2.1.1 一 问题重现 spark-submit --master local[*] --class app.package.AppClass --jars /jarpath/zkclient-0.3.jar --driver-memory 1g app.jar 报错 Java Hot 阅读全文
posted @ 2018-12-12 15:38 匠人先生 阅读(2887) 评论(0) 推荐(0)
摘要:spark 2.1.1 最近spark任务(spark on yarn)有一个报错 Diagnostics: Container [pid=5901,containerID=container_1542879939729_30802_01_000001] is running beyond phys 阅读全文
posted @ 2018-12-11 15:13 匠人先生 阅读(2910) 评论(0) 推荐(1)
摘要:Spark2.1.1 最近运行spark任务时会发现任务经常运行很久,具体job如下: Job Id ▾ Description Submitted Duration Stages: Succeeded/Total Tasks (for all stages): Succeeded/Total 16 阅读全文
posted @ 2018-12-03 18:21 匠人先生 阅读(7494) 评论(0) 推荐(2)
摘要:一 freemarker加载模版机制 freemarker中的配置项template_update_delay表明模版的缓存时间,单位是s,超过缓存时间则从磁盘加载最新的模版,具体细节如下: 1)freemarker中获取模版的方法在Configuration中: 2)Configuration的g 阅读全文
posted @ 2018-11-07 17:26 匠人先生 阅读(3427) 评论(0) 推荐(0)
摘要:一 问题 Dubbo monitor所在服务器状态异常,iowait一直很高,load也一直很高,监控如下: iowait如图: load如图: 二 分析 通过iotop命令可以查看当前系统中磁盘io情况以及进程占用磁盘io的情况 从中可以定位到占用io进程的pid; 通过 cat /proc/${ 阅读全文
posted @ 2018-11-07 17:11 匠人先生 阅读(1250) 评论(0) 推荐(0)
摘要:kafka0.8.1 一 问题 10月22号应用系统忽然报错: [2014/12/22 11:52:32.738]java.net.SocketException: 打开的文件过多 [2014/12/22 11:52:32.738] at java.net.Socket.createImpl(Soc 阅读全文
posted @ 2018-11-07 16:17 匠人先生 阅读(7548) 评论(2) 推荐(2)