09大数据 - 随笔分类 - 薄荷加冰2060

重新认知大数据技术

摘要：大数据特性 HDFS、YARN、MapReduce三者之间的关系 Hadoop是一个由Apache基金会所开发的分布式系统基础架构，主要解决，海量数据的存储和海量数据的分析计算问题。海量数据的存储和海量数据的分析计算问题大数据技术生态体系推荐系统框架 HDFS读写数据流程 HDFS写数据流程阅读全文

posted @ 2021-07-19 20:55 薄荷加冰2060 阅读(41) 评论(0) 推荐(0)

用Hive构建数据仓库与业务分析

摘要：关于Hive Hive简介 Hive：由 Facebook 开源用于解决海量结构化日志的数据统计工具。 Hive 是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。 Hive 本质：将 HQL 转化成 MapReduce 程序（1）Hive 阅读全文

posted @ 2021-07-19 20:00 薄荷加冰2060 阅读(273) 评论(0) 推荐(0)

十年技术看大数据

摘要：一般大数据处理流程阅读全文

posted @ 2021-07-02 08:47 薄荷加冰2060 阅读(41) 评论(0) 推荐(0)

Hadoop,Spark,Flink适用场景与依赖关系

摘要：三大分布式计算系统 Hadoop适合处理离线的静态的大数据； Spark适合处理离线的流式的大数据； Storm/Flink适合处理在线的实时的大数据。前言 Spark，是分布式计算平台，是一个用scala语言编写的计算框架，基于内存的快速、通用、可扩展的大数据分析引擎。 Hadoop，是分布式管阅读全文

posted @ 2021-06-27 11:13 薄荷加冰2060 阅读(2197) 评论(0) 推荐(0)

PowerDesigner 表格导出为excel

摘要：PD菜单栏中，依次点击 Tools ->Excute Commands->Edit/Run Script.. 填入 PD会自动打开EXCEL，并导出到EXCEL中阅读全文

posted @ 2018-04-25 14:35 薄荷加冰2060 阅读(4472) 评论(0) 推荐(0)

hbase(二)

摘要：一、HBase简介 1.1简介 hbase是bigtable的开源山寨版本。是建立的hdfs之上，提供高可靠性、高性能、列存储、可伸缩、实时读写的数据库系统。它介于nosql和RDBMS之间，仅能通过主键(row key)和主键的range来检索数据，仅支持单行事务(可通过hive支持来实现多表jo 阅读全文

posted @ 2018-01-03 12:19 薄荷加冰2060 阅读(300) 评论(0) 推荐(0)

初学hadoop的个人历程

摘要：在学习hadoop之前，我就明确了要致力于大数据行业,成为优秀的大数据研发工程师的目标，有了大目标之后要分几步走，然后每一步不断细分，采用大事化小的方法去学习hadoop。下面开始叙述我是如何初学hadoop的。 Hadoop学习两步走:linux学习、hadoop学习。在接触hadoop之前我有阅读全文

posted @ 2017-08-04 20:17 薄荷加冰2060 阅读(254) 评论(0) 推荐(0)

薄荷加冰2060

随笔分类 - 09大数据