随笔分类 - Linux
摘要:1. 准备 搭建好zookeeper集群 准备好kafka安装包 官方下载:http://kafka.apache.org/downloads 2. 安装kafka 3. 配置环境(同时操作三台) 4. 配置文件 5. 启动kafka 6. 测试
阅读全文
摘要:1. RDD算子分类 1.1 Transformation Transformation(转换):根据数据集创建一个新的 数据集,计算后返回一个新的RDD。例如,一个RDD进行map操作后,生成了新的RDD。 RDD中的所有转换都是延迟加载的,也就是说,他们并不会直接计算结果。相反的,他们只是记住这
阅读全文
摘要:1. 前提条件 1.1 创建3台虚拟机,且配置好网络,建立好互信。 1.2 Java1.8 环境配置 1.3 "Hadoop2.7.7分布式 完成搭建" 1.4 Scala软件包和Spark软件包的下载 https://www.scala lang.org/download/ http://spar
阅读全文
摘要:1. 准备环境 1. 安装操作系统Cenos 2. 配置yum源 yum:https://developer.aliyun.com/mirror/ 3. Nginx依赖 gcc c++ zlib pcre openssl openssl devel 4. Nginx和扩展模块 Nginx本身只是一个
阅读全文
摘要:1. 准备数据源 摘录了一片散文,保存格式为utf 8 2. 准备环境 2.1 搭建伪分布式环境 https://www.cnblogs.com/cjq10029/p/12336446.html 上传数据源文件到hdfs中创建的in目录下 2.2 下载相关资源 下载hadoop277 链接:http
阅读全文
摘要:1. 写操作 1. 客户端向namenode发起上传请求 2. namenode检查datanode是否已经存有该文件,并且检查客户端的权限 3. 确认可以上传后,根据文件块数返回datanode栈 注:namenode触发副本放置策略,如果客户端在集群内的某一台机器,那么副本第一块放置在该服务器上
阅读全文
摘要:1. datanode介绍 1.1 datanode datanode是负责当前节点上的数据的管理,具体目录内容是在初始阶段自动创建的,保存的文件夹位置由配置选项{dfs.data.dir}决定 1.2 datanode的作用 datanode以数据块的形式存储HDFS文件 datanode响应HD
阅读全文
摘要:1. namenode介绍 namenode管理文件系统的命名空间。它维护着文件系统树及整棵树内所有的文件和目录。这些信息以两个文件形式永久保存在本地磁盘上:命名空间镜像文件fsimage和编辑日志文件edits。NameNode也记录着每个文件中各个块所在的数据节点信息,但它并不永久保存块的位置信
阅读全文
摘要:1.纵向扩容(添加硬盘) 1.1 添加硬盘 确定完成添加,运行 lsblk 查看硬盘使用情况 1.2 硬盘分区 centerOS7的默认文件系统是xfs,centerOS6默认的文件系统是ext4 1.3 挂载 mount 分的区 被挂载的文件夹 注:umount /dev/sdb1 /sdb1 取
阅读全文
摘要:问题描述 通过start dfs.sh启动了三个节点 但无法通过IP访问50070端口 问题分析 1.可能是防火墙没关,被拦截了 果然,防火墙没关 再将防火墙设为开机不启动 再访问节点,成功了
阅读全文
摘要:1.准备阶段 准备好两台虚拟机(安装好hadoop,见:https://www.cnblogs.com/cjq10029/p/12336446.html),计划: 2.开始操作 1.同步时间 2.配置IP映射 3.配置免密 授权免密访问 hdp01 hdp01 hdp01 hdp02 4.修改hdf
阅读全文
摘要:操作hdfs的基本命令 在hdfs中,路径需要用绝对路径 1. 查看根目录 hadoop fs ls / 2. 递归查看所有文件和文件夹 lsr等同于 ls R hadoop fs lsr / 3. 创建文件夹 hadoop fs mkidr /hello 4. 创建多级文件夹 hadoop fs
阅读全文
摘要:1.下载hadoop 链接:https://pan.baidu.com/s/10HBQd57pA4OYNPXe8Dwx9g 提取码:1wtk 运行hadoop需要Java环境,所以还需要安装jdk 链接:https://pan.baidu.com/s/1BoLOw8ASWWX5Pm3P6wmFfw
阅读全文

浙公网安备 33010602011771号