BigDataStudy - 随笔分类 - DamonDr

使用MapReduce实现温度排序

摘要：温度排序代码，具体说明可以搜索其他博客 KeyPair.java Sort.java: Partition.java: Group.java: RunJob.java: 其中自定义的sort和parititon是在mapTask任务之后使用的，而Group是在reduce任务使用的。阅读全文

posted @ 2018-03-29 16:20 DamonDr 阅读(647) 评论(0) 推荐(0)

使用MapReduce实现二度人脉搜索算法

摘要：一，背景介绍在新浪微博、人人网等社交网站上，为了使用户在网络上认识更多的朋友，社交网站往往提供类似“你可能感兴趣的人”、“间接关注推荐”等好友推荐的功能，其中就包含了二度人脉算法。二，算法实现原始数据集测试：数据集说明：为关注关系，即a关注b，b关注c和d，所以a的二度人脉应该是d和c,而c 阅读全文

posted @ 2018-03-29 15:59 DamonDr 阅读(1666) 评论(0) 推荐(0)

win下idea远程提交WordCount任务到HA集群

摘要：一，环境配置 1，修改win下的host文件：即C:\Windows\System32\drivers\etc\host中添加集群中机子的ip 2，win下hadoop，并为win的环境变量配置hadoop_home，添加winutils.exe放到$HADOOP_HOME/bin下 3，使用ide 阅读全文

posted @ 2018-03-29 15:39 DamonDr 阅读(860) 评论(0) 推荐(0)

HA分布式集群配置三 spark集群配置

摘要：（一）HA下配置spark 1，spark版本型号：spark-2.1.0-bin-hadoop2.7 2，解压，修改配置环境变量 3，修改spark-env.sh文件 4，修改slaves文件 5，分发及启动各个节点jps情况： [root@ha1 spark-2.1.0]# jps 2464 阅读全文

posted @ 2017-08-06 19:01 DamonDr 阅读(332) 评论(0) 推荐(0)

HA分布式集群一hadoop+zookeeper

摘要：一：HA分布式配置的优势： 1，防止由于一台namenode挂掉，集群失败的情形 2，适合工业生产的需求二：HA安装步骤： 1，安装虚拟机 1，型号：VMware_workstation_full_12.5.0.11529.exe linux镜像：CentOS-7-x86_64-DVD-1611. 阅读全文

posted @ 2017-08-02 18:59 DamonDr 阅读(911) 评论(0) 推荐(0)

HA分布式集群二hive配置

摘要：一，概念 hive:是一种数据仓库，数据储存在：hdfs上，hsql是由替换简单的map-reduce，hive通过mysql来记录映射数据二，安装 1，mysql安装： 1，检测是否有mariadb 2，安装前准备： 3，配置mysql： 2，hive安装(hive-2.1.1) 1，安装前配置阅读全文

posted @ 2017-08-02 18:59 DamonDr 阅读(1828) 评论(0) 推荐(0)

Centos下装eclipse测试Hadoop

摘要：(一)，安装eclipse 1，下载eclipse，点这里 2，将文件上传到Centos7,可以用WinSCP 3，解压并安装eclipse [root@Master opt]# tar zxvf '/home/s/eclipse-jee-neon-1a-linux-gtk-x86_64.tar.g 阅读全文

posted @ 2017-04-14 17:23 DamonDr 阅读(416) 评论(0) 推荐(0)

Centos7完全分布式搭建Hadoop2.7.3

摘要：(一）软件准备 1，hadoop-2.7.3.tar.gz（包） 2,三台机器装有cetos7的机子（二）安装步骤 1，给每台机子配相同的用户进入root : su root 创建用户s: useradd s 修改用户密码：passwd s 2.关闭防火墙及修改每台机的hosts(root 下）阅读全文

posted @ 2017-04-13 19:42 DamonDr 阅读(7725) 评论(0) 推荐(0)

SparkDr

随笔分类 - BigDataStudy

公告