04 2019 档案

摘要:Hive是一个基于HDFS的数据仓库软件,可理解为数据库管理工具;Hive的功能主要有: 1. 支持使用SQL对分布式存储的大型数据集进行读、写、管理,将SQL转化成MapReduce任务执行; 2. 将数据结构映射到已存储的数据中,即将存储在HDFS上结构化的文件内容定义成Hive的外部表。 3. 阅读全文
posted @ 2019-04-28 00:54 北辰Root 阅读(849) 评论(0) 推荐(0)
摘要:本文主要围绕以下三方面来讨论HBase:是什么、为什么、怎样做。 1. 什么是HBase HBase是一个开源的、分布式的、非关系型数据库,其设计思想来源于Google的Big Table。通过集群管理大表(十亿行百万列),提供随机、实时的读写能力。 两个问题需要解释: 1.1 什么是非关系型数据库 阅读全文
posted @ 2019-04-28 00:46 北辰Root 阅读(1859) 评论(0) 推荐(0)
摘要:Hadoop MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。早期的MapReduce(MR)框架简单明了,JobTracker作为MR框架的集中处理点,随着分布式系统集群的规模和其工作负荷的增长,显得力不从心: 1. JobTracker 存在单点故障。 2. JobT 阅读全文
posted @ 2019-04-27 13:22 北辰Root 阅读(443) 评论(0) 推荐(0)
摘要:RPC(Remote Procedure Call, 远程过程调用)是一种通过网络从远程计算机上请求服务来得到计算服务或者数据服务,且不需要了解底层网络技术的协议和框架。 RPC远程调用是构建在语言级别的,必须使用Socket通信完成,将现有的本地方法调用和Socket网络通信技术结合起来实现透明的 阅读全文
posted @ 2019-04-27 13:20 北辰Root 阅读(325) 评论(0) 推荐(0)
摘要:近些年,由于智能手机的迅速普及推动移动互联网技术的蓬勃发展,全球数据呈现爆发式的增长。2018年5月企鹅号的统计结果:互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。随着5G技术的商用,未来连接万物的物联网设备必将带来更大量级的数据。大胆预期,我们即将 阅读全文
posted @ 2019-04-20 10:11 北辰Root 阅读(560) 评论(0) 推荐(0)
摘要:IBM提出大数据的五个特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据主要解决两个问题:大数据的计算 & 大数据的存储。随着大数据相关技术的不断成熟,大数据已经广泛应用于各大行业,典型应用如电商网站商品推荐,天气预报 阅读全文
posted @ 2019-04-13 16:40 北辰Root 阅读(1588) 评论(0) 推荐(1)