大数据的基本概念和Haoop环境搭建
一、大数据的基本概念:
大数据简言之就是处理数据的技术
大数据的特点:1.价值密度低、2.快速化、3.多样化、4.数据量大
分布式:分布式主要是指:多个进程协同在一起完成一个任务,构成了一个整体。
二、分布式的图片:

三、Hadoop安装
1、解压到/soft下
tar -xzvf hadoop-2.7.3.tar.gz -C /soft/
2、建立符号链接 hadoop
ln -s hadoop-2.7.3 hadoop
3、修改环境变量 HADOOP_HOME
注意:bin目录和sbin目录都需要放在PATH下
# hadoop环境变量
export HADOOP_HOME=/soft/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
4、生效环境变量
source /etc/profile
5、验证
hadoop version
四、Hadoop的伪分布式的搭建
0、修改hosts文件 /etc/hosts
添加 192.168.159.100 s100
1、修改core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://s100</value>
</property>
</configuration>
2、修改hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
3、修改mapred-site.xml
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4、修改yarn-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>s100</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
5、修改hadoop-env.sh
将第25行改为
export JAVA_HOME=/soft/jdk
6、修改slaves文件
将localhost改成s100
7、格式化hdfs文件系统
hdfs namenode -format
8、启动hadoop进程
start-all.sh
9、关闭hadoop进程
stop-all.sh

浙公网安备 33010602011771号