09 2022 档案
摘要:Hadoop是一个由 Apache 基金会开发的分布式系统基础架构。可以快速实现大规模数据的分布式存储开发,以及分布式程序的快速开发,利用集群的威力进行大数据的高速存储和运算。其中 Hadoop 分布式文件系统(Hadoop Distributed File System,HDFS)起到非常重要的作
阅读全文
摘要:Hadoop 的初始设计是运行在信任的环境下,它假设所有的集群用户都是可信任的,他们能够正确地表明自己的身份并且不会尝试获取更多的权限。由此实现了简单的安全模式,它是 Hadoop 中默认的验证系统。在简单安全模式下,Hadoop 信任操作系统所提供的用户身份。和大部分关系数据库不同,Hadoop
阅读全文
摘要:MapReduce是一个可用于大规模数据处理的分布式计算框架,它借助函数式编程及分而治之的设计思想,使编程人员在即使不会分布式编程的情况下,也能够轻松地编写分布式应用程序并运行在分布式系统之上。 一、MapReduce 是什么 MapReduce 最早是由 Google 公司研究提出的一种面向大规模
阅读全文
摘要:大数据项目最终需要运行在大数据平台之上,而构建Hadoop 集群是构建整个大数据平台的核心。Hadoop 集群包含 HDFS 集群和YARN 集群,想要构建高可用的 Hadoop 集群又依赖Zookeeper 集群提供协调服务,所以需要在hadoop01、hadoop02和hadoop03节点上依次
阅读全文
摘要:以大数据项目为主线,技术理论与项目实践相结合,按照大数据项目的开发流程逐步推进,本文主要讲解项目的需求分析、架构设计以及离线和实时数据流程设计,然后提前规划好大数据项目需要的集群,按照项目的实现逻辑,结合具体的技术组件详细讲解整个大数据项目的开发流程。 一、项目需求分析 需求分析是基础,需求分析贯穿
阅读全文
摘要:为了满足企业对于数据的各种需求,需要基于大数据技术构建大数据平台。结合大数据在企业的实际应用场景,如下图所示的大数据平台架构所示: 最上层为应用提供数据服务与可视化,解决企业实际问题。第2层是大数据处理核心,包含数据离线处理和实时处理、数据交互式分析以及机器学习与数据挖掘。第3 层是资源管理,为了支
阅读全文
摘要:大数据工程师是以大数据平台构建以及海量数据采集、存储、计算等工作的技术人员,工作中的典型应用包含离线计算、实时计算、即时查询、数仓构建、用户画像、个性化推荐、反欺诈等。 大数据平台的技术分层,理清了大数据技术架构逻辑。本文结合大数据技术架构与企业实际应用,梳理出大数据工程师需要掌握的技能,包括大数据
阅读全文
摘要:搭建或使用云平台的一个主要目的是在企业内部提供PaaS功能,由PaaS 平台来支撑应用从开发、发布到运维的过程(应用全生命周期)中需要的存储、负载均衡、容错等通用功能,很多PaaS平台是基于Mesos和Kubernetes这样的分布式平台搭建的,下表1以 Mesos 和 Kubernetes 为基础
阅读全文
摘要:无服务器架构Serverless让开发者专注于代码的开发和运行,不需要管理任何基础设施,从而摆脱后端应用程序所需的服务器设备的设置和管理工作。目前大多数后端基础结构的维护均有云计算厂商提供,以服务的方式为开发者提供所需功如数据库、消息以及身份验证等。简单地说,Serverless 平台自动化了整个过
阅读全文
浙公网安备 33010602011771号