摘要: 1.hive是什么? hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapRedu 阅读全文
posted @ 2020-10-24 19:04 augie 阅读(177) 评论(0) 推荐(0)
摘要: 1.列举至少3个非关系型数据库,简单描述他们的特性 Memcached 很早出现的NoSql数据库 数据都在内存中,一般不持久化 支持简单的key-value模式 一般是作为缓存数据库辅助持久化的数据库Redis 几乎覆盖了Memcached的绝大部分功能 数据都在内存中,支持持久化,主要用作备份恢 阅读全文
posted @ 2020-10-18 21:02 augie 阅读(96) 评论(0) 推荐(0)
摘要: 一、HDFS-HA集群配置 1.环境准备 1. 修改IP 2. 修改主机名及主机名和IP地址的映射 3. 关闭防火墙 4. ssh免密登录 5. 安装JDK,配置环境变量等 2.规划集群 hadoop102 hadoop103 hadoop104 NameNode NameNode JournalN 阅读全文
posted @ 2020-07-28 19:44 augie 阅读(162) 评论(0) 推荐(0)
摘要: 大数据之Hadoop入门 1.什么是大数据? 大数据(Big Data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合。 2.大数据的特点 业界通常用4个V(即Volume、Variety、Value、Velocity)来概括大数据的特征。 一.是数据体量巨大( 阅读全文
posted @ 2020-07-26 20:23 augie 阅读(277) 评论(0) 推荐(0)