随笔分类 -  大数据 / hadoop

摘要:1. 安装jdk和hadoop,解压jdk 和hadoop 包 2. 添加环境变量 vim /etc/profile.d/my_env.sh 3. source /etc/profile hadoop 完全分布式搭建 xsync 集群分发脚本,期望脚本在任何路径都能使用 echo $PATH 所以可 阅读全文
posted @ 2022-01-15 22:52 冰底熊
摘要:1.创建maven项目 2.编写mr 程序 1.添加maven 依赖和插件 <dependencies> <dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-client</artifactId> <version 阅读全文
posted @ 2021-10-14 23:42 冰底熊
摘要:基准测试 1) 测试HDFS写性能 测试内容:向HDFS集群写2个128M的文件 hadoop jar /opt/module/hadoop-3.1.3/share/hadoop/mapreduce/hadoop-mapreduce-client-jobclient-3.1.3-tests.jar 阅读全文
posted @ 2021-08-01 17:54 冰底熊
摘要:Hadoop参数调优 1)HDFS参数调优hdfs-site.xml The number of Namenode RPC server threads that listen to requests from clients. If dfs.namenode.servicerpc-address 阅读全文
posted @ 2021-08-01 17:12 冰底熊
摘要:1)hadoop 本身并不支持 lzo 压缩,故需要使用 twitter 提供的 hadoop-lzo 开源组件。hadoop lzo 需依赖 hadoop 和 lzo 进行编译,编译步骤如下。 编译参照: https://www.cnblogs.com/allthewayforward/p/11 阅读全文
posted @ 2021-08-01 17:00 冰底熊
摘要:Hadoop群起脚本 #!/bin/bash if [ $# -lt 1 ] then echo "No args input" fi case $1 in "start") echo " 启动hadoop集群 " echo " 启动hdfs " ssh hadoop102 "/opt/module 阅读全文
posted @ 2021-08-01 15:15 冰底熊
摘要:分发脚本 #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi #2. 遍历集群所有机器 for host in hadoop102 hadoop103 hadoop104 do echo $h 阅读全文
posted @ 2021-08-01 15:11 冰底熊
摘要:hadoop.apache.orgspark.apache.orgflink.apache.orghadoop :HDFS/YARN/MAPREDUCE HDFS读写流程 NameNode DataNode SecondaryNameNode 写流程 1. 客户端请求NameNode (几副本,bl 阅读全文
posted @ 2021-06-06 00:28 冰底熊
摘要:MapReduce 1.易于编程 简单实现一些接口,就可以完成一个分布式程序。 2. 高容错性 3. 适合PB 级以上海量数据的离线处理 缺点: 1. 不擅长实时计算 2. 不擅长流式计算 3. 不擅长DAG 有向图计算 MapReduce 核心编程思想 阅读全文
posted @ 2020-08-21 00:25 冰底熊
摘要:1.集群间数据拷贝 hadoop distcp hdfs://haoop102:9000/user/hello.txt hdfs://hadoop103:9000/user/hello.txt 2.小文件归档 小文件消耗NameNode中大部分内存。 hadoop fs -ls -R /usr/ou 阅读全文
posted @ 2020-08-20 23:52 冰底熊