随笔分类 - 大数据
大数据框架相关技术介绍,欢迎讨论。
摘要:ElasticSearch简介 ES是基于Lucene构建的开源、分布式、RESTful接口全文搜索引擎。同时它还是一个分布式文档数据库,其中每个字段均是被索引的数据且可被搜索,便于扩展,能在短时间内搜索和分析大量数据。 Lucene Lucene是一个Java全文搜索引擎;仅是一个框架,提供代码库
阅读全文
摘要:0. Shuffle概述 要理解什么是Shuffle,首先介绍大数据与分布式。我们知道大数据的存储是分布式存储,大数据的计算框架是分布式的计算框架。分布式必然存在数据的交互传输,简言之Shuffle就是分布式中数据交互传输的过程。 如下图所示,Stage 0的输出数据需要经过shuffle Writ
阅读全文
摘要:在介绍Spark中的任务和资源之前先解释几个名词: Dirver Program:运行Application的main函数(用户提交的jar包中的main函数)并新建SparkContext实例的程序,称为驱动程序,通常用SparkContext代表驱动程序(任务的驱动程序)。 Cluster Ma
阅读全文
摘要:Spark的应用程序是通过spark-submit提交到Spark集群上运行的,那么spark-submit到底提交了什么,集群是怎样调度运行的,下面一一详解。 0. spark-submit提交任务 0.1 启动脚本解析 分析spark-submit脚本源码可知最终该命令执行./bin/spark
阅读全文
摘要:1. Scala中的函数 在Scala中,函数是“头等公民”,就和数字一样。可以在变量中存放函数,即:将函数作为变量的值(值函数)。 2. scala中的匿名函数,即没有函数名称的函数,匿名函数常作为高阶函数的参数使用 (x: Int) => x*3 =>使用场景小结: a. 用于匿名函数中连接函数
阅读全文
摘要:apply1. 面向对象的基本概念: 把数据及对数据的操作方法放在一起,作为一个相互依存的整体 对象,面向对象的三大特征:封装、多态、继承 2. scala类的定义 · class Emploee(name: String, age: Int) *scala中定义类时无访问限制符public | p
阅读全文
摘要:1. Scala语言的特点 a. 多范式编程语言,面向对象(抽象、封装)和函数式(过程、结果)编程 b. 代码简洁 ==>可读性较差 c. 代码会被变异成Java字节码,运行在JVM上 2. Scala语言基础 a. 变量修饰符 var :修饰的变量在整个生命周期内可被重新赋值 val :类似于ja
阅读全文
摘要:复杂的软件集群系统从来绕不开高可用、负载均衡等问题,大数据系统更是如此。 高可用:计算机系统的可用性定义为系统保持正常运行时间的百分比,具体手段有自动检测,自动切换,自动恢复等。 负载均衡:主要解决单节点数据流量过大、网络负荷过重,一是为了防止单节点负载过大压垮节点导致系统瘫痪,二是益于分摊负载充分
阅读全文
摘要:Hive是一个基于HDFS的数据仓库软件,可理解为数据库管理工具;Hive的功能主要有: 1. 支持使用SQL对分布式存储的大型数据集进行读、写、管理,将SQL转化成MapReduce任务执行; 2. 将数据结构映射到已存储的数据中,即将存储在HDFS上结构化的文件内容定义成Hive的外部表。 3.
阅读全文
摘要:本文主要围绕以下三方面来讨论HBase:是什么、为什么、怎样做。 1. 什么是HBase HBase是一个开源的、分布式的、非关系型数据库,其设计思想来源于Google的Big Table。通过集群管理大表(十亿行百万列),提供随机、实时的读写能力。 两个问题需要解释: 1.1 什么是非关系型数据库
阅读全文
摘要:Hadoop MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。早期的MapReduce(MR)框架简单明了,JobTracker作为MR框架的集中处理点,随着分布式系统集群的规模和其工作负荷的增长,显得力不从心: 1. JobTracker 存在单点故障。 2. JobT
阅读全文
摘要:RPC(Remote Procedure Call, 远程过程调用)是一种通过网络从远程计算机上请求服务来得到计算服务或者数据服务,且不需要了解底层网络技术的协议和框架。 RPC远程调用是构建在语言级别的,必须使用Socket通信完成,将现有的本地方法调用和Socket网络通信技术结合起来实现透明的
阅读全文
摘要:近些年,由于智能手机的迅速普及推动移动互联网技术的蓬勃发展,全球数据呈现爆发式的增长。2018年5月企鹅号的统计结果:互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。随着5G技术的商用,未来连接万物的物联网设备必将带来更大量级的数据。大胆预期,我们即将
阅读全文
摘要:IBM提出大数据的五个特征:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)、Veracity(真实性)。大数据主要解决两个问题:大数据的计算 & 大数据的存储。随着大数据相关技术的不断成熟,大数据已经广泛应用于各大行业,典型应用如电商网站商品推荐,天气预报
阅读全文

浙公网安备 33010602011771号