随笔分类 -  大数据

摘要:函数 查看系统自带的函数 show functions; 显示自带的函数的用法 desc function upper; 详细显示自带的函数的用法 desc function extended upper; UDF > 一进一出 (upper) UDAF > 多进一出 (count) UDTF > 阅读全文
posted @ 2021-03-21 20:34 冰底熊
摘要:1. 创建maven 工程 2. 相关依赖和插件 <dependencies> <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.11</artifactId> <version>2.1.1</vers 阅读全文
posted @ 2020-10-08 12:48 冰底熊 阅读(306) 评论(0) 推荐(0)
摘要:MapReduce 1.易于编程 简单实现一些接口,就可以完成一个分布式程序。 2. 高容错性 3. 适合PB 级以上海量数据的离线处理 缺点: 1. 不擅长实时计算 2. 不擅长流式计算 3. 不擅长DAG 有向图计算 MapReduce 核心编程思想 阅读全文
posted @ 2020-08-21 00:25 冰底熊
摘要:1.集群间数据拷贝 hadoop distcp hdfs://haoop102:9000/user/hello.txt hdfs://hadoop103:9000/user/hello.txt 2.小文件归档 小文件消耗NameNode中大部分内存。 hadoop fs -ls -R /usr/ou 阅读全文
posted @ 2020-08-20 23:52 冰底熊