大数据和AI躺过的坑

2017年6月7日

hadoop报错java.io.IOException: Incorrect configuration: namenode address dfs.namenode.servicerpc-address or dfs.namenode.rpc-address is not configured

摘要：不多说，直接上干货！问题详情问题排查解决办法成功！阅读全文

posted @ 2017-06-07 00:41 大数据和AI躺过的坑阅读(5366) 评论(0) 推荐(1)

2017年6月6日

ubuntu系统里vi编辑器时，按方向箭头输入是乱码的ABCD字母？（图文详解）

摘要：不多说，直接上干货！问题详情 ubuntu系统里vi编辑器时，按方向箭头输入是乱码的ABCD字母？解决办法是由于预装的vim软件没更新，运行 sudo apt-get install vim 安装最新的即可解决！欢迎大家，加入我的微信公众号：大数据躺过的坑人工智能躺过的坑同时，大家可以关阅读全文

posted @ 2017-06-06 23:19 大数据和AI躺过的坑阅读(1518) 评论(0) 推荐(0)

VirtualBox里如何正确安装增强工具（图文详解）

摘要：不多说，直接上干货！找到复制到阅读全文

posted @ 2017-06-06 17:03 大数据和AI躺过的坑阅读(1093) 评论(0) 推荐(0)

hadoop-2.7.3.tar.gz + spark-2.0.2-bin-hadoop2.7.tgz + zeppelin-0.6.2-incubating-bin-all.tgz（master、slave1和slave2）（博主推荐）（图文详解）

摘要：不多说，直接上干货！我这里，采取的是ubuntu 16.04系统，当然大家也可以在CentOS6.5里，这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建（单节点）（Ubuntu系统）大数阅读全文

posted @ 2017-06-06 09:47 大数据和AI躺过的坑阅读(1645) 评论(0) 推荐(0)

hadoop-2.6.0.tar.gz + spark-1.6.1-bin-hadoop2.6.tgz + zeppelin-0.5.6-incubating-bin-all.tgz（master、slave1和slave2）（博主推荐）（图文详解）

摘要：不多说，直接上干货！我这里，采取的是CentOS6.5，当然大家也可以在ubuntu 16.04系统里，这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建（单节点）（Ubuntu系统）大数阅读全文

posted @ 2017-06-06 09:44 大数据和AI躺过的坑阅读(1289) 评论(0) 推荐(0)

Apache Zeppelin是什么？

摘要：不多说，直接上干货！ Apache Zeppelin提供了web版的类似ipython的notebook，用于做数据分析和可视化。背后可以接入不同的数据处理引擎，包括spark, hive, tajo等，原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Da 阅读全文

posted @ 2017-06-06 09:34 大数据和AI躺过的坑阅读(5196) 评论(0) 推荐(0)

TopN问题（分别使用Hadoop和Spark实现）

摘要：简介 TopN算法是一个经典的算法，由于每个map都只是实现了本地的TopN算法，而假设map有M个，在归约的阶段只有M x N个，这个结果是可以接受的并不会造成性能瓶颈。这个TopN算法在map阶段将使用TreeMap来实现排序，以到达可伸缩的目的。当然算法有两种，一种是唯一键，就是说key的阅读全文

posted @ 2017-06-06 09:09 大数据和AI躺过的坑阅读(5306) 评论(0) 推荐(0)

二次排序问题（分别使用Hadoop和Spark实现）

摘要：不多说，直接上干货！这篇博客里的算法部分的内容来自《数据算法：Hadoop/Spark大数据处理技巧》一书，不过书中的代码虽然思路正确，但是代码不完整，并且只有java部分的编程，我在它的基础上又加入scala部分，当然是在使用Spark的时候写的scala。一、输入、期望输出、思路。输入为S 阅读全文

posted @ 2017-06-06 09:07 大数据和AI躺过的坑阅读(2513) 评论(1) 推荐(0)

Spark Scala语言学习系列之完成HelloWorld程序（三种方式）

摘要：三种方式完成HelloWorld程序分别采用在REPL，命令行（scala脚本）和Eclipse下运行hello world。一、Scala REPL。 windows下安装好scala后，直接Ctrl+R，然后在运行命令窗里输入scala，或者输入cmd后，进入命令行在输入scala。然后我阅读全文

posted @ 2017-06-06 09:02 大数据和AI躺过的坑阅读(2506) 评论(0) 推荐(0)

2017年6月5日

Spark Streaming概念学习系列之SparkStreaming性能调优

摘要： SparkStreaming性能调优合理的并行度减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度： 1.增加接收器数目有时如果记录太多导致单台机器来不及读入并分发的话，接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream（这样会创建多个接收器）来增加接收器阅读全文

posted @ 2017-06-05 15:29 大数据和AI躺过的坑阅读(1092) 评论(0) 推荐(0)

大数据和人工智能躺过的坑

公告