S++

千线一眼

导航

2022年2月26日 #

hadoop入门(11):hdfs的java编程-小文件合并

摘要: 上一篇章涉及到了I/O方式上传下载文件 这一篇我们来实现一下小文件合并 代码 /** * 小文件合并:读取本地小文件合并到hdfs的大文件中 */ @Test public void mergeFile() throws URISyntaxException, IOException, Interr 阅读全文

posted @ 2022-02-26 10:53 S++ 阅读(502) 评论(0) 推荐(0)

hadoop入门(10):hdfs的java编程-文件的上传与下载

摘要: 上传文件 方式一:常规流程 @Test public void uploadFile2Hdfs() throws IOException { // configuration Configuration configuration = new Configuration(); // 设置nameno 阅读全文

posted @ 2022-02-26 10:53 S++ 阅读(426) 评论(0) 推荐(0)

hadoop入门(7):开发环境配置

摘要: 前言 安装路径中不要包含中文、空格 修改host文件 windows C:\windows\System32\drivers\etc\hosts Mac os /etc/hosts 添加以下内容 # 三台虚拟机的ip以及映射 192.168.77.110 node001.sjj.com node00 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(98) 评论(0) 推荐(0)

hadoop入门(9):hdfs的java编程-创建目录

摘要: 前言 api文档 为了方便,我先在test下新建 文件编写 创建文件 编写文件 import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop. 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(736) 评论(0) 推荐(0)

hadoop入门(8):hdfs的java编程-配置

摘要: 准备 环境:hadoop、jdk、maven 软件:IDEA 创建maven工程 新建项目 选择maven项目,下一步 取名:HadoopProject 设置IDEA中的maven 点击Preferences 选择Build、Execution、Deployment->Build tools->ma 阅读全文

posted @ 2022-02-26 10:52 S++ 阅读(80) 评论(0) 推荐(0)

hadoop入门(4):部署zookeeper

摘要: 1. 获取zookeeper zookeeper3.6.3版本 2. 解压 tar -xvf apache-zookeeper-3.6.3-bin.tar -C /sjj/install/ 3. 修改配置文件 新建文件夹 mkdir -p /sjj/install/apache-zookeeper- 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(94) 评论(0) 推荐(0)

hadoop入门(5):了解hadoop

摘要: hadoop的起源 阶段一 Hadoop最早起源于Nutch。Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题——如何解决数十亿网页的存储和索引问题。 阶段二 2003年、2004年谷歌发表的两篇论文为该问题提供了可 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(72) 评论(0) 推荐(0)

hadoop入门(6):HDFS命令

摘要: 常用命令 HDFS文件操作命令风格有两种 两种命令效果一样 hdfs dfs 开头 hadoop fs 开头 查看帮助信息 hdfs dfs -help [cmd] hadoop fs -help [cmd] # 两个命令等价 查看指定目录文件列表 -ls [-C] [-d] [-h] [-q] [ 阅读全文

posted @ 2022-02-26 10:51 S++ 阅读(789) 评论(0) 推荐(0)

hadoop入门(2):为三台CentOS安装Hadoop集群

摘要: 操作前说明 环境 | 机器名 | IP | 用户 | | | | | | node001 | 192.168.77.110 | hadoop | | node002 | 192.168.77.120 | hadoop | | node003 | 192.168.77.130 | hadoop | 要 阅读全文

posted @ 2022-02-26 10:50 S++ 阅读(181) 评论(0) 推荐(0)

hadoop入门(3):hadoop集群的便利脚本

摘要: 通过rsync分发脚本 rsync是很好用的增量拷贝命令 安装rsync sudo yum -y install rsync 我们创建 /home/用户/bin 目录来存放脚本文件 以后我们可以用rsync来分发脚本 创建一键启动停止hadoop脚本 在 /home/用户/bin 下 vim had 阅读全文

posted @ 2022-02-26 10:50 S++ 阅读(67) 评论(0) 推荐(0)

hadoop入门(1):为三台CentOS7配置Java

摘要: ##操作前说明 ####机器准备 版本:CentOS 7 三台机器ip:192.168.77.110; 192.168.77.110 ; 192.168.77.110; 三台机器名:node001; node002; node003; 要求:三台机器能相互ping通,三台机器能正常使用ssh ### 阅读全文

posted @ 2022-02-26 10:49 S++ 阅读(101) 评论(0) 推荐(0)

hadoop入门(0):Mac OS准备工作

摘要: 准备 操作系统: macOS 镜像文件: CentOS7 虚拟机软件:VMware Fusion 网络配置 创建自己的网络 打开VMware Fusion偏好设置->网络->自定 解锁 添加网络vmnet2 勾选使用NAT、将Mac主机连接到该网络;去勾选DHCP 应用,加锁 修改配置 打开终端进入 阅读全文

posted @ 2022-02-26 10:47 S++ 阅读(58) 评论(0) 推荐(0)