随笔档案「2017年1月」 - PurStar

分别使用Hadoop和Spark实现TopN（1）——唯一键

摘要：0.简介 TopN算法是一个经典的算法，由于每个map都只是实现了本地的TopN算法，而假设map有M个，在归约的阶段只有M x N个，这个结果是可以接受的并不会造成性能瓶颈。这个TopN算法在map阶段将使用TreeMap来实现排序，以到达可伸缩的目的。当然算法有两种，一种是唯一键，就是说ke 阅读全文

posted @ 2017-01-21 12:36 PurStar 阅读(3036) 评论(0) 推荐(0)

Zeppelin0.6.2之shiro安全配置初探

摘要：0.序默认情况下，Zeppelin安装好并且配置完zeppelin-site.xml和zeppelin-env.sh后，我们进入的模式，从右上角就能看出来是anonymous模式，这种模式下会看见所有的notebook，这种情况下，如果是多个人在使用的很方便和安全。这篇就是对zeppelin的一阅读全文

posted @ 2017-01-20 11:45 PurStar 阅读(1183) 评论(0) 推荐(0)

使用ZeppelinHub来存储和展示ZeppelinNoteBook

摘要：0.序说实在的这个功能太赞了在一开始接触的时候不知道有这个功能，我尝试做一下配置，发现非常的棒。棒的原因有两点：可以在随时随地有互联网的地方访问自己的ZeppelinHub来查看ZeppelinNoteBook，这个Notebook上的内容是与你服务器上的同步的，如果的你的notebook设阅读全文

posted @ 2017-01-19 16:01 PurStar 阅读(2227) 评论(0) 推荐(0)

Zeppelin0.6.2+sparkR2.0.2环境搭建

摘要：0.序先吐槽一下网上旧版本的Zeppelin和R的安装，让我折腾了几个小时。不过最终还是调通了也不容易，其实我现在一点R都没有学呢，只是刚看了一节课，但是这个工具既然出现在了Spark中，我想它还是蛮流行和好用的。之前配置了Zeppelin的Spark的结合，但是那没有配置R的部分，但是Zep 阅读全文

posted @ 2017-01-18 20:26 PurStar 阅读(696) 评论(0) 推荐(0)

Spark2.0.2+Zeppelin0.6.2 环境搭建初探

摘要：0.抱怨与其他（此部分与标题没有太多联系）：首先一点想说的是版本问题，为什么标题我会写清楚版本号呢！原因就是版本不对真的很会坑人。就在写这篇博客的同一天，我还写了另一篇，是 Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程坑人的地方在哪里呢，Zeppelin0.6.2不阅读全文

posted @ 2017-01-17 20:11 PurStar 阅读(2633) 评论(0) 推荐(0)

Hadoop2.7.3+Spark2.1.0 完全分布式环境搭建全过程

摘要：一、修改hosts文件在主节点，就是第一台主机的命令行下; vim /etc/hosts 我的是三台云主机：在原文件的基础上加上; ip1 master worker0 namenode ip2 worker1 datanode1 ip3 worker2 datanode2 其中的ipN代表一个阅读全文

posted @ 2017-01-17 16:26 PurStar 阅读(39733) 评论(3) 推荐(1)

分别使用Hadoop和Spark实现二次排序

摘要：零、序（注意本部分与标题无太大关系，可直接翻到第一部分）既然没用为啥会有序？原因不想再开一篇文章，来抒发点什么感想或者计划了，就在这里写点好了：前些日子买了几本书，打算学习和研究大数据方面的知识，一直因为实习、考试、毕业设计等问题搞得没有时间，现在进入了寒假，可以安心的学点有用的知识了。这篇博阅读全文

posted @ 2017-01-14 23:42 PurStar 阅读(4673) 评论(0) 推荐(0)

PurStar

01 2017 档案

公告