01 2017 档案
摘要:0.简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 当然算法有两种,一种是唯一键,就是说ke
阅读全文
摘要:0.序 默认情况下,Zeppelin安装好并且配置完zeppelin-site.xml和zeppelin-env.sh后,我们进入的模式,从右上角就能看出来是anonymous模式,这种模式下会看见所有的notebook,这种情况下,如果是多个人在使用的很方便和安全。 这篇就是对zeppelin的一
阅读全文
摘要:0.序 说实在的这个功能太赞了 在一开始接触的时候不知道有这个功能,我尝试做一下配置,发现非常的棒。 棒的原因有两点: 可以在随时随地有互联网的地方访问自己的ZeppelinHub来查看ZeppelinNoteBook,这个Notebook上的内容是与你服务器上的同步的,如果的你的notebook设
阅读全文
摘要:0.序 先吐槽一下网上旧版本的Zeppelin和R的安装,让我折腾了几个小时。 不过最终还是调通了也不容易,其实我现在一点R都没有学呢,只是刚看了一节课,但是这个工具既然出现在了Spark中,我想它还是蛮流行和好用的。 之前配置了Zeppelin的Spark的结合,但是那没有配置R的部分,但是Zep
阅读全文
摘要:0.抱怨与其他(此部分与标题没有太多联系): 首先一点想说的是版本问题,为什么标题我会写清楚版本号呢!原因就是版本不对真的很会坑人。 就在写这篇博客的同一天,我还写了另一篇,是 Hadoop2.7.3+Spark2.1.0 完全分布式环境 搭建全过程 坑人的地方在哪里呢,Zeppelin0.6.2不
阅读全文
摘要:一、修改hosts文件 在主节点,就是第一台主机的命令行下; vim /etc/hosts 我的是三台云主机: 在原文件的基础上加上; ip1 master worker0 namenode ip2 worker1 datanode1 ip3 worker2 datanode2 其中的ipN代表一个
阅读全文
摘要:零、序(注意本部分与标题无太大关系,可直接翻到第一部分) 既然没用为啥会有序?原因不想再开一篇文章,来抒发点什么感想或者计划了,就在这里写点好了: 前些日子买了几本书,打算学习和研究大数据方面的知识,一直因为实习、考试、毕业设计等问题搞得没有时间,现在进入了寒假,可以安心的学点有用的知识了。 这篇博
阅读全文

浙公网安备 33010602011771号