2018 年 4月随笔档案 - Dlimeng

导入hbase01

摘要：数据导入有如下几种方式： 1．利用HBase提供的ImportTsv将csv文件导入到HBase （舍弃） 2．利用HBase提供的completebulkload将数据导入到HBase 3．利用HBase提供的Import将数据导入到HBase（舍弃）实际生产环境上很难使用命令行的方式。毕竟源数阅读全文

posted @ 2018-04-30 18:50 Dlimeng 阅读(12) 评论(0) 推荐(0)

spark源码系列03-任务提交02_李孟_新浪博客

摘要：url: spark源码系列03-任务提交01 12. DAGScheduler getShuffleMapStage 创建父Stage val stage =newOrUsedStage(…… 13. DAGScheduler newOrUsedStage 递归 val stage = newSt 阅读全文

posted @ 2018-04-30 18:08 Dlimeng 阅读(9) 评论(0) 推荐(0)

Spark源码系列03-任务提交02

摘要：spark源码系列03-任务提交01：https://blog.csdn.net/qq_19968255/article/details/82803794 12. DAGScheduler getShuffleMapStage 创建父Stage val stage =newOrUsedStage(… 阅读全文

posted @ 2018-04-30 18:08 Dlimeng 阅读(8) 评论(0) 推荐(0)

spark源码系列03-任务提交01

摘要：用spark版本1.3+ val conf=new SparkConf().setAppName("WordCount") val sc=new SparkContext(conf) //构建RDD并调用Transformation //textFile创建一个hadoopRdd，产生一个MapPa 阅读全文

posted @ 2018-04-30 17:46 Dlimeng 阅读(11) 评论(0) 推荐(0)

Spark源码系列02-SparkContext

摘要：用的spark版本1.3+ 1.SparkSubmit bin/spark-submit --class xx.WordCount --master spark://ip:7077 --executor-memory 2g --total-executor-cores 4 2.WordCount n 阅读全文

posted @ 2018-04-26 22:53 Dlimeng 阅读(6) 评论(0) 推荐(0)

spark源码系列02-sparkcontext_李孟_新浪博客

摘要：用的spark版本1.3+ 1.SparkSubmit bin/spark-submit --class xx.WordCount --master spark://ip:7077 --executor-memory 2g --total-executor-cores 4 2.WordCount n 阅读全文

posted @ 2018-04-26 22:53 Dlimeng 阅读(17) 评论(0) 推荐(0)

spark源码系列01-Woker启动Executor过程并向Driver注册_李孟_新浪博客

摘要：spark版本是1.3+ Woker启动Executor过程并向Driver注册时序图： 1.launchExecutor Master发送消息让Worker启动Executor 2.Worker new() Master 发送给Worker的消息，让Worker启动Execitor,LaunchE 阅读全文

posted @ 2018-04-26 12:28 Dlimeng 阅读(15) 评论(0) 推荐(0)

spark源码系列01-Woker启动Executor过程并向Driver注册

摘要：spark版本是1.3+ Woker启动Executor过程并向Driver注册时序图： 1.launchExecutor Master发送消息让Worker启动Executor 2.Worker new() Master 发送给Worker的消息，让Worker启动Execitor,LaunchE 阅读全文

posted @ 2018-04-26 12:28 Dlimeng 阅读(11) 评论(0) 推荐(0)

SparkSql系列--需求02

摘要：承接SparkSql系列--需求01 点击打开链接 import java.text.SimpleDateFormat import java.util import java.util.{Calendar, Date, Properties} import org.apache.spark.{Sp 阅读全文

posted @ 2018-04-23 01:03 Dlimeng 阅读(9) 评论(0) 推荐(0)

SparkSql系列--需求01

摘要：一.需求介绍前些天碰见个需求，摘取其中一小部分，有用户表，医院表，地区表，以医院和日期（天）的维度下，获取总数。在数据仓库没有搭建好的情况下，从mysql库ode(源数据)，处理完成导入到另一个库中，下面看图示意。用户与医院是一对多的关系，这个是2B项目，医院分割用户，医院与地区是多对一的关系阅读全文

posted @ 2018-04-23 00:51 Dlimeng 阅读(8) 评论(0) 推荐(0)

数据仓库系列--维度

摘要：一.简介在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型，星型架构是一种非正规阅读全文

posted @ 2018-04-22 18:00 Dlimeng 阅读(16) 评论(0) 推荐(0)

数据仓库系列--维度_李孟_新浪博客

摘要：一.简介在多维分析的商业智能解决方案中，根据事实表和维度表的关系，又可将常见的模型分为星型模型和雪花型模型。在设计逻辑型数据的模型的时候，就应考虑数据是按照星型模型还是雪花型模型进行组织。当所有维表都直接连接到“ 事实表”上时，整个图解就像星星一样，故将该模型称为星型模型，星型架构是一种非正规阅读全文

posted @ 2018-04-22 18:00 Dlimeng 阅读(9) 评论(0) 推荐(0)

数据仓库系列--建模

摘要：一.数据仓库的数据模型 1.系统记录域（System of Record）：这部分是主要的数据仓库业务数据存储区，数据模型在这里保证了数据的一致性。 2.内部管理域（Housekeeping）：这部分主要存储数据仓库用于内部管理的元数据，数据模型在这里能够帮助进行统一的元数据的管理。 3.汇总域（S 阅读全文

posted @ 2018-04-17 10:43 Dlimeng 阅读(16) 评论(0) 推荐(0)

数据仓库系列--建模_李孟_新浪博客

摘要：一.数据仓库的数据模型 1.系统记录域（System of Record）：这部分是主要的数据仓库业务数据存储区，数据模型在这里保证了数据的一致性。 2.内部管理域（Housekeeping）：这部分主要存储数据仓库用于内部管理的元数据，数据模型在这里能够帮助进行统一的元数据的管理。 3.汇总域（S 阅读全文

posted @ 2018-04-17 10:43 Dlimeng 阅读(15) 评论(0) 推荐(0)

数据仓库系列--元数据

摘要：一.元数据一．元数据的定义数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典，保存了逻辑数据结构、文件、地址和索引等信息。广义上讲，在数据仓库中，元数据描述了数据仓库内数据的结构和建立方法的数据。元数据是数据仓库管理系统的重要组成部分，元数据管理器是企业级数据仓阅读全文

posted @ 2018-04-15 20:35 Dlimeng 阅读(47) 评论(0) 推荐(0)

数据仓库系列--元数据_李孟_新浪博客

摘要：一.元数据一．元数据的定义数据仓库的元数据是关于数据仓库中数据的数据。它的作用类似于数据库管理系统的数据字典，保存了逻辑数据结构、文件、地址和索引等信息。广义上讲，在数据仓库中，元数据描述了数据仓库内数据的结构和建立方法的数据。元数据是数据仓库管理系统的重要组成部分，元数据管理器是企业级数据仓阅读全文

posted @ 2018-04-15 20:35 Dlimeng 阅读(19) 评论(0) 推荐(0)

数据仓库系列--架构

摘要：数据仓库标准上可以分为四层：ODS（临时存储层）、PDW（数据仓库层）、DM（数据集市层）、APP（应用层）。 DWBI常见体系架构 ODS层：为临时存储层，是接口数据的临时存储区域，为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的，主要目的是简化后续数据加工处理的工作。从数阅读全文

posted @ 2018-04-15 19:48 Dlimeng 阅读(31) 评论(0) 推荐(0)

数据仓库系列--架构_李孟_新浪博客

摘要：数据仓库标准上可以分为四层：ODS（临时存储层）、PDW（数据仓库层）、DM（数据集市层）、APP（应用层）。 DWBI常见体系架构 ODS层：为临时存储层，是接口数据的临时存储区域，为后一步的数据处理做准备。一般来说ODS层的数据和源系统的数据是同构的，主要目的是简化后续数据加工处理的工作。从数阅读全文

posted @ 2018-04-15 19:48 Dlimeng 阅读(14) 评论(0) 推荐(0)

数据仓库系列--简介

摘要：打算做数据仓库系列，可能会时间上跨度很大，毕竟现在项目比较繁忙。一.数据仓库定义数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导阅读全文

posted @ 2018-04-15 19:29 Dlimeng 阅读(12) 评论(0) 推荐(0)

数据仓库系列--简介_李孟_新浪博客

摘要：打算做数据仓库系列，可能会时间上跨度很大，毕竟现在项目比较繁忙。一.数据仓库定义数据仓库，英文名称为Data Warehouse，可简写为DW或DWH。数据仓库，是为企业所有级别的决策制定过程，提供所有类型数据支持的战略集合。它出于分析性报告和决策支持目的而创建。为需要业务智能的企业，提供指导阅读全文

posted @ 2018-04-15 19:29 Dlimeng 阅读(12) 评论(0) 推荐(0)

《大数据时代》观后感

摘要：后面还有一部分，管理方面的我就不总结了，有兴趣的可以找这本书看。这本书案例特别丰富，有100多个，结构清晰，如果从事或者想从事大数据行业的人，看完这个肯定能获得收获，记住里面某些内容。比如我是干大数据开发，这个分好多流派，我主要bi方向的，最吸引我的点是在大数据思维部分： 1.数据多，样本=全体阅读全文

posted @ 2018-04-14 13:21 Dlimeng 阅读(11) 评论(0) 推荐(0)

大数据时代观后感_李孟_新浪博客

摘要：后面还有一部分，管理方面的我就不总结了，有兴趣的可以找这本书看。这本书案例特别丰富，有100多个，结构清晰，如果从事或者想从事大数据行业的人，看完这个肯定能获得收获，记住里面某些内容。比如我是干大数据开发，这个分好多流派，我主要bi方向的，最吸引我的点是在大数据思维部分： 1.数据多，样本=全体阅读全文

posted @ 2018-04-14 13:21 Dlimeng 阅读(4) 评论(0) 推荐(0)

大话数据--商业

摘要：在大数据背景下，商业的变革。一.一切皆可"量化" 1.数据的各种提取：从最不可能的地方提取 2.数据化，不是数字化 3.量化一切，是数据化的核心，各种指标数据化二.数据创新 1.数据再利用 2.重组数据: 随着大数据的出现，数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时，重组阅读全文

posted @ 2018-04-13 18:26 Dlimeng 阅读(6) 评论(0) 推荐(0)

大话数据--商业_李孟_新浪博客

摘要：在大数据背景下，商业的变革。一.一切皆可"量化" 1.数据的各种提取：从最不可能的地方提取 2.数据化，不是数字化 3.量化一切，是数据化的核心，各种指标数据化二.数据创新 1.数据再利用 2.重组数据: 随着大数据的出现，数据的总和比部分更有价值。当我们将多个数据集的总和重组在一起时，重组阅读全文

posted @ 2018-04-13 18:26 Dlimeng 阅读(7) 评论(0) 推荐(0)

大话数据--思维

摘要：大数据的核心就是预测。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反，它是把数学算法运用到海量的数据上来预测事情发生的可能性。一.思维 1.不是随机样本,全体数据小数据时代的主要方式随机采样：采样分析的精确性随阅读全文

posted @ 2018-04-09 12:20 Dlimeng 阅读(22) 评论(0) 推荐(0)

大话数据--思维_李孟_新浪博客

摘要：大数据的核心就是预测。它通常被视为人工智能的一部分，或者更确切地说，被视为一种机器学习。但是这种定义是有误导性的。大数据不是要教机器像人一样思考。相反，它是把数学算法运用到海量的数据上来预测事情发生的可能性。一.思维 1.不是随机样本,全体数据小数据时代的主要方式随机采样：采样分析的精确性随阅读全文

posted @ 2018-04-09 12:20 Dlimeng 阅读(14) 评论(0) 推荐(0)

分布式锁02--zookeeper

摘要：一.简介 Zookeeper 是Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务。它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。为什么使用Zookeeper：大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程阅读全文

posted @ 2018-04-03 10:47 Dlimeng 阅读(11) 评论(0) 推荐(0)

分布式锁02--zookeeper_李孟_新浪博客

摘要：一.简介 Zookeeper 是Google 的 Chubby一个开源的实现，是 Hadoop 的分布式协调服务。它包含一个简单的原语集，分布式应用程序可以基于它实现同步服务，配置维护和命名服务等。为什么使用Zookeeper：大部分分布式应用需要一个主控、协调器或控制器来管理物理分布的子进程阅读全文

posted @ 2018-04-03 10:47 Dlimeng 阅读(9) 评论(0) 推荐(0)

分布式锁01--介绍

摘要：一.死锁发生的条件在分布式计算系统中，有两个以上的进程在并发执行，每个进程都在等待被其它的进程所占用的系统资源而不能继续运行，即导致系统中任何一个进程都无法运行下去（死循环），这就产生了死锁。当且仅当以下四个条件同时成立时，死锁才会发生： 1) 互斥。同一个资源在同一时刻最多只能被一个进程占用。阅读全文

posted @ 2018-04-03 10:30 Dlimeng 阅读(18) 评论(0) 推荐(0)

分布式锁01--介绍_李孟_新浪博客

摘要：一.死锁发生的条件在分布式计算系统中，有两个以上的进程在并发执行，每个进程都在等待被其它的进程所占用的系统资源而不能继续运行，即导致系统中任何一个进程都无法运行下去（死循环），这就产生了死锁。当且仅当以下四个条件同时成立时，死锁才会发生： 1) 互斥。同一个资源在同一时刻最多只能被一个进程占用。阅读全文

posted @ 2018-04-03 10:30 Dlimeng 阅读(10) 评论(0) 推荐(0)

分布式领域重要原理

摘要：一.FLP 不可能性原理 FLP 不可能原理：在网络可靠，存在节点失效（即便只有一个）的最小化异步模型系统中，不存在一个可以解决一致性问题的确定性算法。提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表，该论文后来获得了 Dijkstra（就是阅读全文

posted @ 2018-04-02 12:01 Dlimeng 阅读(22) 评论(0) 推荐(0)

分布式领域重要原理_李孟_新浪博客

摘要：一.FLP 不可能性原理 FLP 不可能原理：在网络可靠，存在节点失效（即便只有一个）的最小化异步模型系统中，不存在一个可以解决一致性问题的确定性算法。提出该定理的论文是由 Fischer, Lynch 和 Patterson 三位作者于 1985 年发表，该论文后来获得了 Dijkstra（就是阅读全文

posted @ 2018-04-02 12:01 Dlimeng 阅读(7) 评论(0) 推荐(0)

poi读取word--空格

摘要：/** * 判断Str是否是选择题选择项 * @param str 内容 * @return */ public static boolean isSelecteTitele(String str) { Pattern pattern = Pattern.compile("^([a-zA-Z]+[\ 阅读全文

posted @ 2018-04-01 15:47 Dlimeng 阅读(18) 评论(0) 推荐(0)

Spark介绍系列05--RDD

摘要：url:Spark介绍系列04--RDD 一.Lineage RDD只支持粗粒度转换，即在大量记录上执行的单个操作。将创建RDD的一系列Lineage（即血统）记录下来，以便恢复丢失的分区。RDD的Lineage会记录RDD的元数据信息和转换行为，当该RDD的部分分区数据丢失时，它可以根据这些信息来阅读全文

posted @ 2018-04-01 12:11 Dlimeng 阅读(13) 评论(0) 推荐(0)

Spark介绍系列04--RDD

摘要：url:Spark介绍系列03--RDD 一.RDD的依赖关系 RDD和它依赖的父RDD（s）的关系有两种不同的类型，即窄依赖（narrow dependency）和宽依赖（wide dependency）。 1.窄依赖上图左侧是父级窄依赖指的是每一个父RDD的Partition最多被子RDD的阅读全文

posted @ 2018-04-01 11:26 Dlimeng 阅读(16) 评论(0) 推荐(0)

Spark介绍系列03--RDD

摘要：有些基础用法就不详细介绍，有疑问的伙伴互相交流。一.RDD的介绍 RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩阅读全文

posted @ 2018-04-01 10:56 Dlimeng 阅读(10) 评论(0) 推荐(0)

Spark介绍系列03--RDD_李孟_新浪博客

摘要：有些基础用法就不详细介绍，有疑问的伙伴互相交流。一.RDD的介绍 RDD（Resilient Distributed Dataset）叫做分布式数据集，是Spark中最基本的数据抽象，它代表一个不可变、可分区、里面的元素可并行计算的集合。RDD具有数据流模型的特点：自动容错、位置感知性调度和可伸缩阅读全文

posted @ 2018-04-01 10:56 Dlimeng 阅读(8) 评论(0) 推荐(0)

dlimeng

04 2018 档案

公告