2016 年 11月 23 日随笔档案 - 大数据和AI躺过的坑

2016年11月23日

Hadoop概念学习系列之谈hadoop/spark里为什么都有，YARN呢？（四十一）

摘要：在Hadoop集群里，有三种模式: 1、本地模式 2、伪分布模式 3、全分布模式在Spark集群里，有四种模式： 1、local单机模式结果xshell可见： ./bin/spark-submit --class org.apache.spark.examples.SparkPi --maste 阅读全文

posted @ 2016-11-23 09:52 大数据和AI躺过的坑阅读(680) 评论(0) 推荐(0)

Hadoop概念学习系列之谈hadoop/spark里为什么都有，键值对呢？（四十）

摘要：很少有人会这样来自问自己？只知道，以键值对的形式处理数据并输出结果，而没有解释为什么要以键值对的形式进行。包括hadoop的mapreduce里的键值对，spark里的rdd里的map等。这是为什么呢？ 1、键值对的具体含义首先，我们会通过强调Java标准库中的类似概念，来阐明我们所说的键值对阅读全文

posted @ 2016-11-23 09:23 大数据和AI躺过的坑阅读(459) 评论(0) 推荐(0)

Hadoop概念学习系列之为什么hadoop/spark执行作业时，输出路径必须要不存在？（三十九）

摘要：很多人只会，但没深入体会和想为什么要这样？拿Hadoop来说，当然，spark也一样的道理。输出路径由Hadoop自己创建，实际的结果文件遵守part-nnnn的约定。如何指定一个已有目录作为Hadoop作业的输出路径，作业将无法进行，并会抛出异常抗议一个已经存在的目录。如果想让Hadoop将阅读全文

posted @ 2016-11-23 09:10 大数据和AI躺过的坑阅读(813) 评论(0) 推荐(0)

Hadoop概念学习系列之再谈hadoop集群里的本地模式、伪分布模式和全分布模式（三十七）

摘要：能看懂博主我此博文，相信你已经有了一定基础了。对于本地模式、伪分布模式和全分布模式的概念，这里，我不多赘述。太多资料和博客，随便在网上一搜就好。比如《hadoop实战第二版》陆嘉恒老师等。我这里呢，是再次挖掘深入。我们知道，如伪分布模式或全分布式模式，里有着很多的java进程（这个，可用j 阅读全文

posted @ 2016-11-23 09:05 大数据和AI躺过的坑阅读(928) 评论(0) 推荐(1)

大数据和人工智能躺过的坑

公告