打赏
摘要: 在Hadoop集群里,有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式 在Spark集群里,有四种模式: 1、local单机模式 结果xshell可见: ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste 阅读全文
posted @ 2016-11-23 09:52 大数据和AI躺过的坑 阅读(677) 评论(0) 推荐(0)
摘要: 很少有人会这样来自问自己?只知道,以键值对的形式处理数据并输出结果,而没有解释为什么要以键值对的形式进行。 包括hadoop的mapreduce里的键值对,spark里的rdd里的map等。 这是为什么呢? 1、键值对的具体含义 首先,我们会通过强调Java标准库中的类似概念,来阐明我们所说的键值对 阅读全文
posted @ 2016-11-23 09:23 大数据和AI躺过的坑 阅读(457) 评论(0) 推荐(0)
摘要: 很多人只会,但没深入体会和想为什么要这样? 拿Hadoop来说,当然,spark也一样的道理。 输出路径由Hadoop自己创建,实际的结果文件遵守part-nnnn的约定。 如何指定一个已有目录作为Hadoop作业的输出路径,作业将无法进行,并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将 阅读全文
posted @ 2016-11-23 09:10 大数据和AI躺过的坑 阅读(812) 评论(0) 推荐(0)
摘要: 能看懂博主我此博文,相信你已经有了一定基础了。 对于本地模式、伪分布模式和全分布模式的概念,这里,我不多赘述。太多资料和博客,随便在网上一搜就好。 比如《hadoop实战 第二版》陆嘉恒老师等。 我这里呢,是再次挖掘深入。 我们知道,如伪分布模式或全分布式模式,里有着很多的java进程(这个,可用j 阅读全文
posted @ 2016-11-23 09:05 大数据和AI躺过的坑 阅读(928) 评论(0) 推荐(1)