随笔分类 -  大数据-a1-hadoop

摘要:1、HDFS的产生背景以及定义 产生背景 随着数据量越来越大,在一个系统存不下所有数据,那就需要分配到更多的操作系统管理磁盘 单数不方便管理和维护,迫切需要一种系统来管理多台机器上文件,这也是分布式文件股那里系统 HDFS只是分布式文件管理系统中的一种 HDFS定义 HDFS (hadoop Dis 阅读全文
posted @ 2019-08-07 16:29 MrChengs 阅读(236) 评论(0) 推荐(0)
摘要:集群时间同部 1、系统定时任务 1、重启crond服务:service crond restart 2、crontab 定时任务设置 基本语法:crontab [选项] 选项 * * * * * 执行的任务 第五个“*” 一周中的星期几 0-7 0/7都是星期日 特殊符号 时间同部 时间同步的方式: 阅读全文
posted @ 2019-07-23 09:49 MrChengs 阅读(284) 评论(0) 推荐(0)
摘要:1、集群配置 1、集群的规划 三台机器进行相关的不同的部署 注意: NameNode和SecondaryNameNode占用内存是1:1,要求他俩不在一个节点上。 ResourceManager是整个资源管理器的龙头需要避开NameNode和SeconddarynameNode 2、配置集群 had 阅读全文
posted @ 2019-07-22 00:39 MrChengs 阅读(383) 评论(0) 推荐(0)
摘要:注意:在实际的生产开发中均是使用完全分布式 1、搭建步骤 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装JDK 3)配置环境变量 4)安装Hadoop 5)配置环境变量 6)配置集群 7)单点启动 8)配置ssh 9)群起并测试集群 2、scp:(secure cope)安全拷贝 1 阅读全文
posted @ 2019-07-22 00:06 MrChengs 阅读(290) 评论(0) 推荐(0)
摘要:伪分布式模式 启动HDFS并运行MapReduce程序 相关默认配置文件的页面: http://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoop-common/core-default.xml 1、修改core-site.xml配置文件 阅读全文
posted @ 2019-07-20 18:33 MrChengs 阅读(764) 评论(0) 推荐(0)
摘要:Hadoop的运行模式 Hadoop运行模式包括:本地模式、伪分布式模式以及完全分布式模式。 Hadoop官方网站:http://hadoop.apache.org/ 2.7.2版本官网:http://hadoop.apache.org/docs/r2.7.2/ 文档:http://hadoop.a 阅读全文
posted @ 2019-07-20 14:59 MrChengs 阅读(506) 评论(0) 推荐(0)
摘要:主要流程: 1、克隆虚拟机 2、安装jdk 3、配置静态ip 4、关闭防火墙 参考配置地址: https://blog.csdn.net/qq_38799155/article/details/75949250 然后在opt目录下创建:software、module两个文件 software:用于存 阅读全文
posted @ 2019-07-20 14:33 MrChengs 阅读(112) 评论(0) 推荐(0)
摘要:Hadoop是什么 1、是一个由apache基金会所开发的分布式系统基础架构 2、主要解决海量数据的存储和海量数据的分析计算 3、广义上说,Hadoop通常是一个广泛的概念 >Hadoop生态圈 发展历史 1、Lucene科=框架是Doug Cutting开创的开源软件,用java代码实现,于goo 阅读全文
posted @ 2019-07-20 13:53 MrChengs 阅读(317) 评论(1) 推荐(0)
摘要:大数据 大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。 大数据技术,是指从各种各样类型的数据中,快速获得有价值信息的能力。 适用于大数据的技术,包括大规模并行处理(MPP)数据库,数据挖掘电网,分布式文件系统,分布式数据库, 云计算平台,互联网,和可扩展的存储系统。 阅读全文
posted @ 2019-07-20 13:28 MrChengs 阅读(171) 评论(0) 推荐(0)