04 2018 档案
摘要:数据导入有如下几种方式: 1.利用HBase提供的ImportTsv将csv文件导入到HBase (舍弃) 2.利用HBase提供的completebulkload将数据导入到HBase 3.利用HBase提供的Import将数据导入到HBase(舍弃) 实际生产环境上很难使用命令行的方式。毕竟源数
阅读全文
摘要:spark源码系列03-任务提交01:https://blog.csdn.net/qq_19968255/article/details/82803794 12. DAGScheduler getShuffleMapStage 创建父Stage val stage =newOrUsedStage(…
阅读全文
摘要:url: spark源码系列03-任务提交01 12. DAGScheduler getShuffleMapStage 创建父Stage val stage =newOrUsedStage(…… 13. DAGScheduler newOrUsedStage 递归 val stage = newSt
阅读全文
摘要:用spark版本1.3+ val conf=new SparkConf().setAppName("WordCount") val sc=new SparkContext(conf) //构建RDD并调用Transformation //textFile创建一个hadoopRdd,产生一个MapPa
阅读全文
摘要:用的spark版本1.3+ 1.SparkSubmit bin/spark-submit --class xx.WordCount --master spark://ip:7077 --executor-memory 2g --total-executor-cores 4 2.WordCount n
阅读全文
摘要:用的spark版本1.3+ 1.SparkSubmit bin/spark-submit --class xx.WordCount --master spark://ip:7077 --executor-memory 2g --total-executor-cores 4 2.WordCount n
阅读全文
摘要:spark版本是1.3+ Woker启动Executor过程并向Driver注册时序图: 1.launchExecutor Master发送消息让Worker启动Executor 2.Worker new() Master 发送给Worker的消息,让Worker启动Execitor,LaunchE
阅读全文
摘要:spark版本是1.3+ Woker启动Executor过程并向Driver注册时序图: 1.launchExecutor Master发送消息让Worker启动Executor 2.Worker new() Master 发送给Worker的消息,让Worker启动Execitor,LaunchE
阅读全文
摘要:承接SparkSql系列--需求01 点击打开链接 import java.text.SimpleDateFormat import java.util import java.util.{Calendar, Date, Properties} import org.apache.spark.{Sp
阅读全文
摘要:一.需求介绍 前些天碰见个需求,摘取其中一小部分,有用户表,医院表,地区表,以医院和日期(天)的维度下,获取总数。 在数据仓库没有搭建好的情况下,从mysql库ode(源数据),处理完成导入到另一个库中,下面看图示意。 用户与医院是一对多的关系,这个是2B项目,医院分割用户,医院与地区是多对一的关系
阅读全文
摘要:一.简介 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型, 星型架构是一种非正规
阅读全文
摘要:一.简介 在多维分析的商业智能解决方案中,根据事实表和维度表的关系,又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候,就应考虑数据是按照星型模型还是雪花型模型进行组织。 当所有维表都直接连接到“ 事实表”上时,整个图解就像星星一样,故将该模型称为星型模型, 星型架构是一种非正规
阅读全文
摘要:一.数据仓库的数据模型 1.系统记录域(System of Record):这部分是主要的数据仓库业务数据存储区,数据模型在这里保证了数据的一致性。 2.内部管理域(Housekeeping):这部分主要存储数据仓库用于内部管理的元数据,数据模型在这里能够帮助进行统一的元数据的管理。 3.汇总域(S
阅读全文
摘要:一.数据仓库的数据模型 1.系统记录域(System of Record):这部分是主要的数据仓库业务数据存储区,数据模型在这里保证了数据的一致性。 2.内部管理域(Housekeeping):这部分主要存储数据仓库用于内部管理的元数据,数据模型在这里能够帮助进行统一的元数据的管理。 3.汇总域(S
阅读全文
摘要:一.元数据 一.元数据的定义 数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。 元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓
阅读全文
摘要:一.元数据 一.元数据的定义 数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典,保存了逻辑数据结构、文件、地址和索引等信息。广义上讲,在数据仓库中,元数据描述了数据仓库内数据的结构和建立方法的数据。 元数据是数据仓库管理系统的重要组成部分,元数据管理器是企业级数据仓
阅读全文
摘要:数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。 DWBI常见体系架构 ODS层: 为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数
阅读全文
摘要:数据仓库标准上可以分为四层:ODS(临时存储层)、PDW(数据仓库层)、DM(数据集市层)、APP(应用层)。 DWBI常见体系架构 ODS层: 为临时存储层,是接口数据的临时存储区域,为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的,主要目的是简化后续数据加工处理的工作。从数
阅读全文
摘要:打算做数据仓库系列,可能会时间上跨度很大,毕竟现在项目比较繁忙。 一.数据仓库定义 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导
阅读全文
摘要:打算做数据仓库系列,可能会时间上跨度很大,毕竟现在项目比较繁忙。 一.数据仓库定义 数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导
阅读全文
摘要:后面还有一部分,管理方面的我就不总结了,有兴趣的可以找这本书看。 这本书案例特别丰富,有100多个,结构清晰,如果从事或者想从事大数据行业的人,看完这个肯定能获得收获,记住里面某些内容。 比如我是干大数据开发,这个分好多流派,我主要bi方向的,最吸引我的点是在大数据思维部分: 1.数据多,样本=全体
阅读全文
摘要:后面还有一部分,管理方面的我就不总结了,有兴趣的可以找这本书看。 这本书案例特别丰富,有100多个,结构清晰,如果从事或者想从事大数据行业的人,看完这个肯定能获得收获,记住里面某些内容。 比如我是干大数据开发,这个分好多流派,我主要bi方向的,最吸引我的点是在大数据思维部分: 1.数据多,样本=全体
阅读全文
摘要:在大数据背景下,商业的变革。 一.一切皆可"量化" 1.数据的各种提取: 从最不可能的地方提取 2.数据化,不是数字化 3.量化一切,是数据化的核心,各种指标数据化 二.数据创新 1.数据再利用 2.重组数据: 随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在 一起时,重组
阅读全文
摘要:在大数据背景下,商业的变革。 一.一切皆可"量化" 1.数据的各种提取: 从最不可能的地方提取 2.数据化,不是数字化 3.量化一切,是数据化的核心,各种指标数据化 二.数据创新 1.数据再利用 2.重组数据: 随着大数据的出现,数据的总和比部分更有价值。当我们将多个数据集的总和重组在 一起时,重组
阅读全文
摘要:大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。 一.思维 1.不是随机样本,全体数据 小数据时代的主要方式随机采样: 采样分析的精确性随
阅读全文
摘要:大数据的核心就是预测。它通常被视为人工智能的一部分,或者更确切地说,被视为一种 机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反,它是把数学算法运用到海量的数据上来预测事情发生的可能性。 一.思维 1.不是随机样本,全体数据 小数据时代的主要方式随机采样: 采样分析的精确性随
阅读全文
摘要:一.简介 Zookeeper 是Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 为什么使用Zookeeper: 大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程
阅读全文
摘要:一.简介 Zookeeper 是Google 的 Chubby一个开源的实现,是 Hadoop 的分布式协调服务。 它包含一个简单的原语集,分布式应用程序可以基于它实现同步服务,配置维护和命名服务等。 为什么使用Zookeeper: 大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程
阅读全文
摘要:一.死锁发生的条件 在分布式计算系统中,有两个以上的进程在并发执行,每个进程都在等待被其它的进程所占用的系统资源而不能继续运行,即导致系统中任何一个进程都无法运行下去(死循环),这就产生了死锁。 当且仅当以下四个条件同时成立时,死锁才会发生: 1) 互斥。同一个资源在同一时刻最多只能被一个进程占用。
阅读全文
摘要:一.死锁发生的条件 在分布式计算系统中,有两个以上的进程在并发执行,每个进程都在等待被其它的进程所占用的系统资源而不能继续运行,即导致系统中任何一个进程都无法运行下去(死循环),这就产生了死锁。 当且仅当以下四个条件同时成立时,死锁才会发生: 1) 互斥。同一个资源在同一时刻最多只能被一个进程占用。
阅读全文
摘要:一.FLP 不可能性原理 FLP 不可能原理:在网络可靠,存在节点失效(即便只有一个)的最小化异步模型系统中,不存在一个可以解决一致性问题的确定性算法。 提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表,该论文后来获得了 Dijkstra(就是
阅读全文
摘要:一.FLP 不可能性原理 FLP 不可能原理:在网络可靠,存在节点失效(即便只有一个)的最小化异步模型系统中,不存在一个可以解决一致性问题的确定性算法。 提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表,该论文后来获得了 Dijkstra(就是
阅读全文
摘要:/** * 判断Str是否是选择题选择项 * @param str 内容 * @return */ public static boolean isSelecteTitele(String str) { Pattern pattern = Pattern.compile("^([a-zA-Z]+[\
阅读全文
摘要:url:Spark介绍系列04--RDD 一.Lineage RDD只支持粗粒度转换,即在大量记录上执行的单个操作。将创建RDD的一系列Lineage(即血统)记录下来,以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为,当该RDD的部分分区数据丢失时,它可以根据这些信息来
阅读全文
摘要:url:Spark介绍系列03--RDD 一.RDD的依赖关系 RDD和它依赖的父RDD(s)的关系有两种不同的类型,即窄依赖(narrow dependency)和宽依赖(wide dependency)。 1.窄依赖 上图左侧是父级 窄依赖指的是每一个父RDD的Partition最多被子RDD的
阅读全文
摘要:有些基础用法就不详细介绍,有疑问的伙伴互相交流。 一.RDD的介绍 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩
阅读全文
摘要:有些基础用法就不详细介绍,有疑问的伙伴互相交流。 一.RDD的介绍 RDD(Resilient Distributed Dataset)叫做分布式数据集,是Spark中最基本的数据抽象,它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点:自动容错、位置感知性调度和可伸缩
阅读全文