打赏
上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 180 下一页
摘要: 不多说,直接上干货! 问题详情 问题排查 解决办法 成功! 阅读全文
posted @ 2017-06-07 00:41 大数据和AI躺过的坑 阅读(5361) 评论(0) 推荐(1)
摘要: 不多说,直接上干货! 问题详情 ubuntu系统里vi编辑器时,按方向箭头输入是乱码的ABCD字母? 解决办法 是由于预装的vim软件没更新,运行 sudo apt-get install vim 安装最新的即可解决! 欢迎大家,加入我的微信公众号:大数据躺过的坑 人工智能躺过的坑 同时,大家可以关 阅读全文
posted @ 2017-06-06 23:19 大数据和AI躺过的坑 阅读(1512) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 找到 复制到 阅读全文
posted @ 2017-06-06 17:03 大数据和AI躺过的坑 阅读(1091) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 我这里,采取的是ubuntu 16.04系统,当然大家也可以在CentOS6.5里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数 阅读全文
posted @ 2017-06-06 09:47 大数据和AI躺过的坑 阅读(1642) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 我这里,采取的是CentOS6.5,当然大家也可以在ubuntu 16.04系统里,这些都是小事 CentOS 6.5的安装详解 hadoop-2.6.0.tar.gz + spark-1.5.2-bin-hadoop2.6.tgz的集群搭建(单节点)(Ubuntu系统) 大数 阅读全文
posted @ 2017-06-06 09:44 大数据和AI躺过的坑 阅读(1287) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! Apache Zeppelin提供了web版的类似ipython的notebook,用于做数据分析和可视化。背后可以接入不同的数据处理引擎,包括spark, hive, tajo等,原生支持scala, java, shell, markdown等。它的整体展现和使用形式和Da 阅读全文
posted @ 2017-06-06 09:34 大数据和AI躺过的坑 阅读(5167) 评论(0) 推荐(0)
摘要: 简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 当然算法有两种,一种是唯一键,就是说key的 阅读全文
posted @ 2017-06-06 09:09 大数据和AI躺过的坑 阅读(5302) 评论(0) 推荐(0)
摘要: 不多说,直接上干货! 这篇博客里的算法部分的内容来自《数据算法:Hadoop/Spark大数据处理技巧》一书,不过书中的代码虽然思路正确,但是代码不完整,并且只有java部分的编程,我在它的基础上又加入scala部分,当然是在使用Spark的时候写的scala。 一、输入、期望输出、思路。 输入为S 阅读全文
posted @ 2017-06-06 09:07 大数据和AI躺过的坑 阅读(2513) 评论(1) 推荐(0)
摘要: 三种方式完成HelloWorld程序 分别采用在REPL,命令行(scala脚本)和Eclipse下运行hello world。 一、Scala REPL。 windows下安装好scala后,直接Ctrl+R,然后在运行命令窗里输入scala,或者输入cmd后,进入命令行在输入scala。 然后我 阅读全文
posted @ 2017-06-06 09:02 大数据和AI躺过的坑 阅读(2503) 评论(0) 推荐(0)
摘要: SparkStreaming性能调优 合理的并行度 减少批处理所消耗时间的常见方式还有提高并行度。有以下三种方式可以提高并行度: 1.增加接收器数目 有时如果记录太多导致单台机器来不及读入并分发的话,接收器会成为系统瓶颈。这时你就需要通过创建多个输入DStream(这样会创建多个接收器)来增加接收器 阅读全文
posted @ 2017-06-05 15:29 大数据和AI躺过的坑 阅读(1091) 评论(0) 推荐(0)
上一页 1 ··· 61 62 63 64 65 66 67 68 69 ··· 180 下一页