上一页 1 ··· 5 6 7 8 9 10 11 下一页
摘要: HBase是目前非常热门的一款分布式KV键值数据库系统,无论是互联网行业还是其他传统 IT 行业都在大量使用。HBase具有高可用、易扩展的特性,目前社区成熟度高,HBase可以作为底层数据存储服务,例如 Kylin、OpenTSDB 等。 一、HBase架构 HBase基于Hadoop。HBase 阅读全文
posted @ 2022-10-11 18:29 梯度科技 阅读(375) 评论(0) 推荐(0)
摘要: 大数据采集可以细分为数据抽取、数据清洗、数据集成、数据转换等过程,将分散、零乱、不统一的数据整合到一起,以一种结构化、可分析的形态加载到数据仓库中,从而为后续的数据使用奠定坚实基础。 数据采集可以分为内部采集与外部采集两个方面。 (1)离线数据采集技术,首先要是基于文件的数据采集系统、日志收集系统等 阅读全文
posted @ 2022-10-10 17:44 梯度科技 阅读(937) 评论(0) 推荐(0)
摘要: 相对于传统的离线计算会存在数据反馈不及时的问题,很难满足急需实时数据做决策的场景Flink是对有界数据和无界数据进行有状态计算的分布式引擎,它是纯流式处理模式。纯流式模式保证了Flink的低延迟,使其在诸多的实时计算引擎竞争中具有优势。 Apache Flink 是一个开源的、分布式、高性能、高可用 阅读全文
posted @ 2022-10-09 17:51 梯度科技 阅读(571) 评论(0) 推荐(0)
摘要: 传统的离线计算常见问题是数据反馈慢,无法满足客户进行实时数据做决策的需求。如果说MapReduce计算框架的出现是为了解决离线计算问题,那么Spark计算框架的出现则解决了实时计算问题,接下来先初步认识Spark内存计算框架。2009年加州大学伯克利分校AMP实验室提出one stack to ru 阅读全文
posted @ 2022-10-08 16:47 梯度科技 阅读(236) 评论(0) 推荐(0)
摘要: Hadoop是一个由 Apache 基金会开发的分布式系统基础架构。可以快速实现大规模数据的分布式存储开发,以及分布式程序的快速开发,利用集群的威力进行大数据的高速存储和运算。其中 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)起到非常重要的作 阅读全文
posted @ 2022-09-30 17:00 梯度科技 阅读(384) 评论(0) 推荐(0)
摘要: Hadoop 的初始设计是运行在信任的环境下,它假设所有的集群用户都是可信任的,他们能够正确地表明自己的身份并且不会尝试获取更多的权限。由此实现了简单的安全模式,它是 Hadoop 中默认的验证系统。在简单安全模式下,Hadoop 信任操作系统所提供的用户身份。和大部分关系数据库不同,Hadoop 阅读全文
posted @ 2022-09-29 09:35 梯度科技 阅读(262) 评论(0) 推荐(0)
摘要: MapReduce是一个可用于大规模数据处理的分布式计算框架,它借助函数式编程及分而治之的设计思想,使编程人员在即使不会分布式编程的情况下,也能够轻松地编写分布式应用程序并运行在分布式系统之上。 一、MapReduce 是什么 MapReduce 最早是由 Google 公司研究提出的一种面向大规模 阅读全文
posted @ 2022-09-28 09:53 梯度科技 阅读(665) 评论(0) 推荐(0)
摘要: 大数据项目最终需要运行在大数据平台之上,而构建Hadoop 集群是构建整个大数据平台的核心。Hadoop 集群包含 HDFS 集群和YARN 集群,想要构建高可用的 Hadoop 集群又依赖Zookeeper 集群提供协调服务,所以需要在hadoop01、hadoop02和hadoop03节点上依次 阅读全文
posted @ 2022-09-27 16:27 梯度科技 阅读(80) 评论(0) 推荐(0)
摘要: 以大数据项目为主线,技术理论与项目实践相结合,按照大数据项目的开发流程逐步推进,本文主要讲解项目的需求分析、架构设计以及离线和实时数据流程设计,然后提前规划好大数据项目需要的集群,按照项目的实现逻辑,结合具体的技术组件详细讲解整个大数据项目的开发流程。 一、项目需求分析 需求分析是基础,需求分析贯穿 阅读全文
posted @ 2022-09-26 16:13 梯度科技 阅读(285) 评论(0) 推荐(0)
摘要: 为了满足企业对于数据的各种需求,需要基于大数据技术构建大数据平台。结合大数据在企业的实际应用场景,如下图所示的大数据平台架构所示: 最上层为应用提供数据服务与可视化,解决企业实际问题。第2层是大数据处理核心,包含数据离线处理和实时处理、数据交互式分析以及机器学习与数据挖掘。第3 层是资源管理,为了支 阅读全文
posted @ 2022-09-24 10:00 梯度科技 阅读(389) 评论(0) 推荐(0)
上一页 1 ··· 5 6 7 8 9 10 11 下一页