Fork me on GitHub

随笔分类 -  09大数据

摘要:大数据特性 HDFS、YARN、MapReduce三者之间的关系 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,主要解决,海量数据的存储和海量数据的分析计算问题。 海量数据的存储和海量数据的分析计算问题 大数据技术生态体系 推荐系统框架 HDFS读写数据流程 HDFS写数据流程 阅读全文
posted @ 2021-07-19 20:55 薄荷加冰2060 阅读(41) 评论(0) 推荐(0)
摘要:关于Hive Hive简介 Hive:由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并 提供类 SQL 查询功能。 Hive 本质:将 HQL 转化成 MapReduce 程序 (1)Hive 阅读全文
posted @ 2021-07-19 20:00 薄荷加冰2060 阅读(273) 评论(0) 推荐(0)
摘要:一般大数据处理流程 阅读全文
posted @ 2021-07-02 08:47 薄荷加冰2060 阅读(41) 评论(0) 推荐(0)
摘要:三大分布式计算系统 Hadoop适合处理离线的静态的大数据; Spark适合处理离线的流式的大数据; Storm/Flink适合处理在线的实时的大数据。 前言 Spark,是分布式计算平台,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎。 Hadoop,是分布式管 阅读全文
posted @ 2021-06-27 11:13 薄荷加冰2060 阅读(2197) 评论(0) 推荐(0)
摘要:PD菜单栏中,依次点击 Tools ->Excute Commands->Edit/Run Script.. 填入 PD会自动打开EXCEL,并导出到EXCEL中 阅读全文
posted @ 2018-04-25 14:35 薄荷加冰2060 阅读(4472) 评论(0) 推荐(0)
摘要:一、HBase简介 1.1简介 hbase是bigtable的开源山寨版本。是建立的hdfs之上,提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间,仅能通过主键(row key)和主键的range来检索数据,仅支持单行事务(可通过hive支持来实现多表jo 阅读全文
posted @ 2018-01-03 12:19 薄荷加冰2060 阅读(300) 评论(0) 推荐(0)
摘要:在学习hadoop之前,我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标,有了大目标之后要分几步走,然后每一步不断细分,采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。 Hadoop学习两步走:linux学习、hadoop学习。 在接触hadoop之前我有 阅读全文
posted @ 2017-08-04 20:17 薄荷加冰2060 阅读(254) 评论(0) 推荐(0)