随笔分类 -  BigDataStudy

摘要:温度排序代码,具体说明可以搜索其他博客 KeyPair.java Sort.java: Partition.java: Group.java: RunJob.java: 其中自定义的sort和parititon是在mapTask任务之后使用的,而Group是在reduce任务使用的。 阅读全文
posted @ 2018-03-29 16:20 DamonDr 阅读(646) 评论(0) 推荐(0)
摘要:一,背景介绍 在新浪微博、人人网等社交网站上,为了使用户在网络上认识更多的朋友,社交网站往往提供类似“你可能感兴趣的人”、“间接关注推荐”等好友推荐的功能,其中就包含了二度人脉算法。 二,算法实现 原始数据集测试: 数据集说明:为关注关系,即a关注b,b关注c和d,所以a的二度人脉应该是d和c,而c 阅读全文
posted @ 2018-03-29 15:59 DamonDr 阅读(1647) 评论(0) 推荐(0)
摘要:一,环境配置 1,修改win下的host文件:即C:\Windows\System32\drivers\etc\host中添加集群中机子的ip 2,win下hadoop,并为win的环境变量配置hadoop_home,添加winutils.exe放到$HADOOP_HOME/bin下 3,使用ide 阅读全文
posted @ 2018-03-29 15:39 DamonDr 阅读(847) 评论(0) 推荐(0)
摘要:(一)HA下配置spark 1,spark版本型号:spark-2.1.0-bin-hadoop2.7 2,解压,修改配置环境变量 3,修改spark-env.sh文件 4,修改slaves文件 5,分发及启动 各个节点jps情况: [root@ha1 spark-2.1.0]# jps 2464 阅读全文
posted @ 2017-08-06 19:01 DamonDr 阅读(331) 评论(0) 推荐(0)
摘要:一:HA分布式配置的优势: 1,防止由于一台namenode挂掉,集群失败的情形 2,适合工业生产的需求 二:HA安装步骤: 1,安装虚拟机 1,型号:VMware_workstation_full_12.5.0.11529.exe linux镜像:CentOS-7-x86_64-DVD-1611. 阅读全文
posted @ 2017-08-02 18:59 DamonDr 阅读(903) 评论(0) 推荐(0)
摘要:一,概念 hive:是一种数据仓库,数据储存在:hdfs上,hsql是由替换简单的map-reduce,hive通过mysql来记录映射数据 二,安装 1,mysql安装: 1,检测是否有mariadb 2,安装前准备: 3,配置mysql: 2,hive安装(hive-2.1.1) 1,安装前配置 阅读全文
posted @ 2017-08-02 18:59 DamonDr 阅读(1819) 评论(0) 推荐(0)
摘要:(一),安装eclipse 1,下载eclipse,点这里 2,将文件上传到Centos7,可以用WinSCP 3,解压并安装eclipse [root@Master opt]# tar zxvf '/home/s/eclipse-jee-neon-1a-linux-gtk-x86_64.tar.g 阅读全文
posted @ 2017-04-14 17:23 DamonDr 阅读(411) 评论(0) 推荐(0)
摘要:(一)软件准备 1,hadoop-2.7.3.tar.gz(包) 2,三台机器装有cetos7的机子 (二)安装步骤 1,给每台机子配相同的用户 进入root : su root 创建用户s: useradd s 修改用户密码:passwd s 2.关闭防火墙及修改每台机的hosts(root 下) 阅读全文
posted @ 2017-04-13 19:42 DamonDr 阅读(7714) 评论(0) 推荐(0)