随笔分类 -  大数据

摘要:背景:要读取hdfs上指定路径分区下的所有文件内容(5个文件),并对数据内容进行处理整合成单个文件 正确遍历读取hdfs中指定路径下的数据文件样例代码如下: private List<RIRInfo> getIanaDataFromHdfs(String ianaDataHdfsPath) { Li 阅读全文
posted @ 2020-12-16 15:09 Spirited-away 阅读(327) 评论(0) 推荐(0)
摘要:背景:最近做的一个项目需求需要把生产环境服务器上指定目录下数据推送到hdfs上,然后通过hive去查询,但在安装hive之前需要先安装mysql,原因是啥呢?先了解下他们之间的关系。 一、什么是Hive Hive是一个基于Hadoop的数据仓库平台。通过hive,我们可以方便地进行ETL(数据仓库技 阅读全文
posted @ 2020-12-12 14:40 Spirited-away 阅读(360) 评论(0) 推荐(0)
摘要:1、基本架构 (1)、应用程序Spark 应用程序由一个驱动器进程和一组执行器进程组成。驱动进程运行 main()函数,位于集群中的一个节点上,它负责三件事:维护 Spark 应用程序的相关信息;回应用户的程序或输入;分析任务并分发给若干执行器进行处理。驱动器是必须的,它是 Spark 应用程序的核 阅读全文
posted @ 2020-12-11 20:08 Spirited-away 阅读(114) 评论(0) 推荐(0)
摘要:一、本地代码编译 mvn clean install -DskipTests 二、构建spark提交脚本 样例如下:ip_spark.bat @echo offset param=%1set PROJECT_DIR="D:\gitlab\CP_WiseCloudLocationService_Wis 阅读全文
posted @ 2020-12-11 18:51 Spirited-away 阅读(556) 评论(0) 推荐(0)
摘要:一:数据库创建 创建命令: hive> CREATE DATABASE IF NOT EXISTS higeo; 二:表创建 样例如下: # @DESC hive内表, 创建IP库分段详细内容表 hive> # @DESC hive内表, 创建IP省份城市映射表CREATE TABLE IF NOT 阅读全文
posted @ 2020-12-11 17:29 Spirited-away 阅读(332) 评论(0) 推荐(0)