• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
waker_wang
博客园 | 首页 | 新随笔 | 新文章 | 联系 | 订阅 订阅 | 管理
上一页 1 2 3 4 5

2018年8月2日

Hadoop HDFS
摘要: Hadoop主要有两个层次,即: 加工/计算层(MapReduce),以及 存储层(Hadoop分布式文件系统,即HDFS)。 Hadoop文件系统使用分布式文件系统设计开发。它是运行在普通硬件。不像其他的分布式系统,HDFS是高度容错以及使用低成本的硬件设计。 HDFS拥有超大型的数据量,并提供更 阅读全文
posted @ 2018-08-02 19:22 waker_wang 阅读(157) 评论(0) 推荐(0)
 
 

2018年7月30日

spark和MR比较
摘要: MapReduce: 分布式的计算框架 缺点:执行速度慢 IO瓶颈 ==> 磁盘IO 网络IO shuffle机制:数据需要输出到磁盘,而且每次shuffle都需要进行排序操作 框架的机制: 只有Map和Reduce两个算子,对于比较复杂的任务,需要构建多个job来执行 当存在job依赖的时候,jo 阅读全文
posted @ 2018-07-30 15:21 waker_wang 阅读(1864) 评论(0) 推荐(0)
 
 

2018年7月28日

hive调优
摘要: 1、表和sql的优化 -》大表拆分成小表、分区表、外部表、临时表都是属于优化的一块 -》分区表:检索更快速 -》外部表:数据安全性 -》临时表&拆分子表:简化复杂的SQL以及需求 2、SQL可以从join和fliter两方面深入 3、MR优化 -》map和reduce的个数 -》一个分片就是一个块, 阅读全文
posted @ 2018-07-28 15:13 waker_wang 阅读(300) 评论(0) 推荐(0)
 
 

2018年7月27日

hive的常用HQL语句
摘要: 1、过滤条件 where 、limit、 distinct、 between and 、 null、 is not nullselect * from emp where sal > 3000;select * from emp limit 1; select distinct deptno fro 阅读全文
posted @ 2018-07-27 15:49 waker_wang 阅读(432) 评论(0) 推荐(0)
 
hive数据的导入导出方式
摘要: 导入方式 1、load方式 load data local inpath 'local_path' into table tb_name; 从本地复制了文件到表的路径下 应用场景:大部分的使用,文件几乎都是默认现在本地的 2、load方式,HDFS load data inpath 'hdfs_pa 阅读全文
posted @ 2018-07-27 15:35 waker_wang 阅读(528) 评论(0) 推荐(0)
 
 

2018年7月25日

hive新手学习随笔
摘要: 一、回顾 1、hive基于Hadoop的(存储HDFS,计算MR) 2、sql on hadoop概念 -》简化开发的操作 -》提升业务的效率 3、描述表的三种方式 desc tb_name; desc extended tb_name; desc formatted tb_name; 4、hive 阅读全文
posted @ 2018-07-25 13:50 waker_wang 阅读(338) 评论(0) 推荐(0)
 
 
上一页 1 2 3 4 5

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3