2018 年 11月 29 日随笔档案 - 大葱拌豆腐

2018年11月29日

摘要： Hive 前言 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的 SQL 查询功能，将类 SQL 语句转换为 MapReduce 任务执行。数据组织格式下面是直接存储在HDFS上的数据组织方式 Table：每个表存储在HDFS上的一个目录阅读全文

posted @ 2018-11-29 23:37 大葱拌豆腐阅读(1570) 评论(0) 推荐(0)

Spark配置参数

摘要：以下是整理的Spark中的一些配置参数，官方文档请参考Spark Configuration。 Spark提供三个位置用来配置系统： Spark属性：控制大部分的应用程序参数，可以用SparkConf对象或者Java系统属性设置环境变量：可以通过每个节点的conf/spark-env.sh脚本设置阅读全文

posted @ 2018-11-29 23:15 大葱拌豆腐阅读(573) 评论(0) 推荐(0)

spark on yarn任务提交缓慢解决

摘要： 1.为什么要让运行时Jar可以从yarn端访问spark2以后，原有lib目录下的大JAR包被分散成多个小JAR包，原来的spark-assembly-*.jar已经不存在每一次我们运行的时候，如果没有指定 spark.yarn.archive or spark.yarn.jars Spark将在阅读全文

posted @ 2018-11-29 22:54 大葱拌豆腐阅读(2326) 评论(0) 推荐(0)

spark.yarn.jar和spark.yarn.archive的使用

摘要：启动Spark任务时，在没有配置spark.yarn.archive或者spark.yarn.jars时，会看到不停地上传jar非常耗时；使用spark.yarn.archive可以大大地减少任务的启动时间，整个处理过程如下 1.在本地创建zip文件 2.上传至HDFS并更改权限 3.配置spar 阅读全文

posted @ 2018-11-29 22:39 大葱拌豆腐阅读(1791) 评论(0) 推荐(0)

公告