大数据的基本概念和Haoop环境搭建

一、大数据的基本概念:

        大数据简言之就是处理数据的技术

        大数据的特点:1.价值密度低、2.快速化、3.多样化、4.数据量大

         分布式:分布式主要是指:多个进程协同在一起完成一个任务,构成了一个整体。

二、分布式的图片:

 

三、Hadoop安装    

         1、解压到/soft下
               tar -xzvf hadoop-2.7.3.tar.gz -C /soft/
        2、建立符号链接 hadoop
               ln -s hadoop-2.7.3 hadoop
        3、修改环境变量 HADOOP_HOME
          注意:bin目录和sbin目录都需要放在PATH下
                 # hadoop环境变量
                  export HADOOP_HOME=/soft/hadoop
                 export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

      4、生效环境变量
                source /etc/profile
     5、验证
                hadoop version

 四、Hadoop的伪分布式的搭建

   0、修改hosts文件 /etc/hosts

            添加    192.168.159.100  s100
 1、修改core-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://s100</value>
</property>
</configuration>

2、修改hdfs-site.xml
<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>

3、修改mapred-site.xml

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
4、修改yarn-site.xml
<?xml version="1.0"?>
<configuration>
<property>
<name>yarn.resourcemanager.hostname</name>
<value>s100</value>
</property>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
</configuration>
5、修改hadoop-env.sh
将第25行改为
export JAVA_HOME=/soft/jdk
6、修改slaves文件
将localhost改成s100
7、格式化hdfs文件系统
hdfs namenode -format
8、启动hadoop进程
start-all.sh
9、关闭hadoop进程
stop-all.sh

posted @ 2018-12-09 19:07  低调做人,踏实做事  阅读(399)  评论(0)    收藏  举报