摘要:
前期博客 你可以按照我写的这篇博客去,按照hive的mysql。 1 复习ha相关 + weekend110的hive的元数据库mysql方式安装配置(完全正确配法)(CentOS版本)(包含卸载系统自带的MySQL) 出现如下问题 ERROR 1045 (28000): Access denied 阅读全文
posted @ 2017-04-09 23:45
大数据和AI躺过的坑
阅读(1067)
评论(0)
推荐(0)
摘要:
http://www.cnblogs.com/braveym/p/5854703.html 阅读全文
posted @ 2017-04-09 23:28
大数据和AI躺过的坑
阅读(305)
评论(0)
推荐(0)
摘要:
问题 好像跟平时的理解不一样,外边是0,进去就是有大小了? 答:hdfs具体文件是针对具体文件的,不是文件目录。 文件夹大小为0,不是里面所有内容为0。 阅读全文
posted @ 2017-04-09 23:00
大数据和AI躺过的坑
阅读(1003)
评论(0)
推荐(0)
摘要:
为什么要提出这个问题? spark跑YARN模式或Client模式提交任务不成功(application state: ACCEPTED) 然后执行 参考 手工释放linux内存——/proc/sys/vm/drop_cache http://www.linuxidc.com/Linux/2010- 阅读全文
posted @ 2017-04-09 20:51
大数据和AI躺过的坑
阅读(2175)
评论(0)
推荐(0)
摘要:
Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。即Spark SQL是Spark Core封装而来的! Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构化数据源,可以让你 阅读全文
posted @ 2017-04-09 17:58
大数据和AI躺过的坑
阅读(2738)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! Spark 同时支持Scala、Python、Java 三种应用程序API编程接口和编程方式, 考虑到大数据处理的特性,一般会优先使用Scala进行编程,其次是Python,最后才是Java。 无论使用Scala、Python还是Java编程程序都需要遵循Spark 编程模型, 阅读全文
posted @ 2017-04-09 17:51
大数据和AI躺过的坑
阅读(8257)
评论(0)
推荐(0)
摘要:
Spark存储管理机制 概要 01 存储管理概述 02 RDD持久化 03 Shuffle数据存储 04 广播变量与累加器 01 存储管理概述 思考: RDD,我们可以直接使用而无须关心它的实现细节,RDD是Spark的基础,但是有个问题大家也许会比较关心:RDD所操作的数据究竟在哪里?它是如何存储 阅读全文
posted @ 2017-04-09 17:20
大数据和AI躺过的坑
阅读(1296)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! spark-submit在哪个位置 打包Spark application 将Spark application打成assemblyed jar。我们都知道,其实我们写好的一个Spark application,它除了spark本身的jar包和hdfs的jar包之外,它还有第三 阅读全文
posted @ 2017-04-09 16:35
大数据和AI躺过的坑
阅读(4631)
评论(0)
推荐(1)
摘要:
不多说,直接上干货! REPL Read-Eval-Print-Loop,即交互式shell,以交互式方式来编程。 那么,什么是REPL呢,如下就是 Spark REPL (scala) (python) (其他) 这里不多说 Spark shell Spark的scala REPL,支持使用sca 阅读全文
posted @ 2017-04-09 16:07
大数据和AI躺过的坑
阅读(8740)
评论(0)
推荐(1)
摘要:
很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理 概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark SQL编程 04 分布式SQL引擎 05 用户自定义函数 06 性能调优 Spark SQL概述 阅读全文
posted @ 2017-04-09 10:53
大数据和AI躺过的坑
阅读(1107)
评论(0)
推荐(0)
摘要:
不多说,直接上干货! 问题详情 电脑8G,目前搭建3节点的spark集群,采用YARN模式。 master分配2G,slave1分配1G,slave2分配1G。(在安装虚拟机时) export SPARK_WORKER_MERMORY=1g (在spark-env.sh) 其实这个问题解决办法很简单 阅读全文
posted @ 2017-04-09 09:58
大数据和AI躺过的坑
阅读(24999)
评论(1)
推荐(1)

浙公网安备 33010602011771号