大数据学习笔记01

大数据学习笔记

1.环境安装

安装vmware,需要密钥,安装之后在网络配置中可以找到vm1 和vm8两个网络,否则安装不成功

安装centos,官网下载比较慢,可以到清华镜像下载

安装finalshell或者xshell,通过远程ssh连接到linux,需要保证

  • vmware中虚拟机配置正确
  • win10系统中vm8网络配置ipv4正确
  • 任务管理器中五个vm服务都运行,不行则打开服务,设置为自动

2.大数据流式计算

2.1什么是大数据流式计算

例子:自来水厂处理自来水

特点:实时性(源源不断)

1601196431425

2.2大数据离线计算与流式计算的区别

离线计算 流式计算
代表技术 MapReduce Storm、Spark Streaming、Flink
数据采集 sqoop Flume

1601197182958

2.3Apache Storm 的体系结构

1601197628606

2.4实战:zookeeper

准备环境:

1.安装Linux Redhat7.4 64位

2.JDK 1.8 64位

3.配置密码登录

4.主机名

5.关闭防火墙

  • 相当于是一个数据库
  • 搭建一个单节点zk
  • 安装步骤
    • tar -zxvf zookeeper-3.4.10.tar.gz -C ~/Training/
    • 设置环境变量 vi

2.5实战:搭建Apache Storm

2.6

posted @ 2020-09-28 20:18  wrrr  阅读(65)  评论(0编辑  收藏  举报