10 2016 档案

摘要:package com.ibm.enums;public class TestEnum { public enum ColorEnums{ red ,green ,yellow,blue; } public enum Male{ ForMale("gi... 阅读全文
posted @ 2016-10-21 10:13 yuerspring 阅读(105) 评论(0) 推荐(0)
摘要:package com.ibm.dg;public class Main { public static void main(String[] args) { // TODO Auto-generated method stub ... 阅读全文
posted @ 2016-10-20 17:58 yuerspring 阅读(341) 评论(0) 推荐(0)
摘要:这2个概念很容易混淆,需要写一遍文章梳理spark的 DAGschedule & task schedule 区别以及相互联系在我们的应用程序的mian 方法中我们定义了sparkcontext ,sparcontext 会帮我们生成这两个调度器 DAGschedul... 阅读全文
posted @ 2016-10-16 20:38 yuerspring 阅读(367) 评论(0) 推荐(0)
摘要:这几个概念很容易混淆,需要写一遍文章梳理Spark的stage & job & task 到底是什么 ,以及划分原理Stage 是spark 中一个非常重要的概念 ,在一个job 中划分stage 的一个重要依据是否有shuflle 发生 ,也就是是否会发生数据的重组... 阅读全文
posted @ 2016-10-16 20:36 yuerspring 阅读(787) 评论(0) 推荐(0)
摘要:java 基本数据类型Java基本类型共有八种,基本类型可以分为三类,字符类型char,布尔类型boolean以及数值类型byte、short、int、long、float、double。数值类型又可以分为整数类型byte、short、int、long和浮点数类型fl... 阅读全文
posted @ 2016-10-15 22:01 yuerspring 阅读(204) 评论(0) 推荐(0)
摘要:算子优化 MapPartitionsspark中,最基本的原则,就是每个task处理一个RDD的partition。MapPartitions操作的优点:如果是普通的map,比如一个partition中有1万条数据;ok,那么你的function要执行和计算1万次。但... 阅读全文
posted @ 2016-10-15 19:37 yuerspring 阅读(150) 评论(0) 推荐(0)
摘要:1.列举spark 比hadoop 快的原 因 ,以及现在存在的主要问题2.描述下使用spark streaming 和 GraphX实现实时计算的可行性,以及可能会遇到的问题3.GraphX的Pregel API 只支持有向图遍历 ,如何实现无xiang 遍历,描... 阅读全文
posted @ 2016-10-15 13:37 yuerspring 阅读(136) 评论(0) 推荐(0)
摘要:数据仓库工程师-战略(J11666)工作地点:北京市 职位类别:技术类 招聘人数:若干 职位描述:1. 负责业务相关数据指标的计算挖掘;2. 负责数据建模以及数据仓库应用产品的设计和开发;3. 负责数据仓库ETL流程的优化及解决ETL相关技术问题。任职要求:1、本科及... 阅读全文
posted @ 2016-10-14 23:06 yuerspring 阅读(127) 评论(0) 推荐(0)
摘要:1 hive表关联查询,如何解决数据倾斜的问题?倾斜原因:map输出数据按key Hash的分配到reduce中,由于key分布不均匀、业务数据本身的特、建表时考虑不周、等原因造成的reduce 上的数据量差异过大。1)、key分布不均匀;2)、业务数据本身的特性;... 阅读全文
posted @ 2016-10-14 22:35 yuerspring 阅读(211) 评论(0) 推荐(0)
摘要:hbase 的特点是什么 (1) Hbase一个分布式的基于列式存储的数据库,基于Hadoop的hdfs存储,zookeeper进行管理。(2) Hbase适合存储半结构化或非结构化数据,对于数据结构字段不够确定或者杂乱无章很难按一个概念去抽取的数据。(3) Hba... 阅读全文
posted @ 2016-10-14 22:33 yuerspring 阅读(292) 评论(0) 推荐(0)
摘要:(1) storm是一个进程常驻内存的、分布式的,对数据实时流式处理框架,不同于MR的批处理和spark streaming的微批处理,storm实现了对数据处理的毫秒级延迟。它的数据源被称为SPOUT,数据处理流程被称为BOLT(2)storm一般应用于对数据的处理... 阅读全文
posted @ 2016-10-14 22:30 yuerspring 阅读(1299) 评论(0) 推荐(0)
摘要:GC机制:分配对象使用new关键字;释放对象时,只要将对象所有引用赋值为null,让程序不能够再访问到这个对象,我们称该对象为"不可达的".GC 将负责回收所有"不可达"对象的内存空间。jvm 调优方法:1.最基本的建议就是尽早释放无用对象的引用。大多数程序员在使用临... 阅读全文
posted @ 2016-10-14 22:23 yuerspring 阅读(272) 评论(0) 推荐(0)
摘要:1.在Hadoop中定义的主要公用InputFormat中,默认是哪一个?(A) A、 TextInputFormatB、 KeyValueInputFormatC、 SequenceFileInputFormat 1. 下面哪个程序负责 HDFS 数据存储?(C)... 阅读全文
posted @ 2016-10-14 22:19 yuerspring 阅读(290) 评论(0) 推荐(0)
摘要:Redis 个人理解和常用命令以及应用场景redis ,启动服务器端 :redis-server.exe redis.confRedis 启动客户端redis-cli.exe -h 127.0.0.1 -p 6379Redis 下载 :https://github.c... 阅读全文
posted @ 2016-10-14 15:16 yuerspring 阅读(128) 评论(0) 推荐(0)
摘要:各软件版本:Java : 1.7.0_79Hadoop : hadoop-2.6.5-src.tar.gzmaven:3.3.9protocbuf:2.5解压缩 tar -zxvf 1 配置maven 环境变量 export MAVEN_HOME=/root/com... 阅读全文
posted @ 2016-10-12 22:18 yuerspring 阅读(254) 评论(0) 推荐(0)
摘要:Openstack 的介绍 ,安装以及简单应用 阅读全文
posted @ 2016-10-12 08:35 yuerspring 阅读(113) 评论(0) 推荐(0)
摘要:Docker 的介绍 ,安装以及简单应用docker 在centos 中的安装 docker 工具docker-composeyum install epel-release 软件源yum install -y dockersystemctl start dock... 阅读全文
posted @ 2016-10-12 08:35 yuerspring 阅读(100) 评论(0) 推荐(0)
摘要:星型模型和雪花模型的应用场景从现在项目中看 大部分 Fact 和 Dimnsn 的关联关系都是 星型的 ,有很少量的是采用了雪花型的 。至于什么模式适用什么场景很难有一个可靠的规则去决定,主要裁决与模型的运行效率 和 BA 的经验 ,以及现行的趋势 ... 阅读全文
posted @ 2016-10-11 11:38 yuerspring 阅读(1077) 评论(0) 推荐(0)
摘要:数据文件来自 :http://archive.ics.uci.edu/ml/datasets/Wholesale+customers?cm_mc_uid=21918109261714715776095&cm_mc_sid_50200000=1476090999impo... 阅读全文
posted @ 2016-10-10 17:34 yuerspring 阅读(227) 评论(0) 推荐(0)
摘要:import org.apache.spark.sql.SQLContextimport org.apache.spark.storage.StorageLevelimport org.apache.spark.{SparkContext, SparkConf}//d... 阅读全文
posted @ 2016-10-10 16:18 yuerspring 阅读(1457) 评论(0) 推荐(0)
摘要:import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.sql.SQLContextimport org.apache.spark.sql... 阅读全文
posted @ 2016-10-10 16:13 yuerspring 阅读(130) 评论(0) 推荐(0)
摘要:Spark SQL 程序开发过程中,我们有两种方式确定 schema,第一种是反射推断 schema,这种方式下,需要定义样本类 (case class) 来对应数据的列;第二种方式是通过编程方式来确定 schema,这种方式主要是通过 Spark SQL 提... 阅读全文
posted @ 2016-10-10 15:23 yuerspring 阅读(196) 评论(0) 推荐(0)
摘要:案例介绍与编程实现1. 案例介绍该案例中,我们假设某论坛需要根据用户对站内网页的点击量,停留时间,以及是否点赞,来近实时的计算网页热度,进而动态的更新网站的今日热点模块,把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户,我们需要对他的行为数据做一个抽象... 阅读全文
posted @ 2016-10-10 13:45 yuerspring 阅读(230) 评论(0) 推荐(0)
摘要:案例介绍与编程实现1. 案例介绍该案例中,我们假设某论坛需要根据用户对站内网页的点击量,停留时间,以及是否点赞,来近实时的计算网页热度,进而动态的更新网站的今日热点模块,把最热话题的链接显示其中。2. 案例分析对于某一个访问论坛的用户,我们需要对他的行为数据做一个抽象... 阅读全文
posted @ 2016-10-10 13:45 yuerspring 阅读(368) 评论(0) 推荐(0)
摘要:利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项 需要合理的设置数据处理的间隔,即需要保证每一批数据的处理时间必须小于处理间隔,保证在处理下一批数据的时候,前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input... 阅读全文
posted @ 2016-10-10 13:25 yuerspring 阅读(166) 评论(0) 推荐(0)
摘要:利用 Spark Streaming 构建高效健壮的流数据计算系统注意事项 需要合理的设置数据处理的间隔,即需要保证每一批数据的处理时间必须小于处理间隔,保证在处理下一批数据的时候,前一批已经处理完毕。显然这需要由您的 Spark 集群的计算能力还有 input... 阅读全文
posted @ 2016-10-10 13:25 yuerspring 阅读(272) 评论(0) 推荐(0)
摘要:Kafka 集群搭建步骤1. 机器准备本文中,我们将准备三台机器搭建 Kafka 集群,IP 地址分别是 192.168.1.1,192.168.1.2,192.168.1.3,并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: h... 阅读全文
posted @ 2016-10-10 12:58 yuerspring 阅读(282) 评论(0) 推荐(0)
摘要:Kafka 集群搭建步骤1. 机器准备本文中,我们将准备三台机器搭建 Kafka 集群,IP 地址分别是 192.168.1.1,192.168.1.2,192.168.1.3,并且三台机器网络互通。2. 下载并安装 kafka_2.10-0.8.2.1下载地址: h... 阅读全文
posted @ 2016-10-10 12:58 yuerspring 阅读(203) 评论(0) 推荐(0)
摘要:Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文
posted @ 2016-10-10 12:51 yuerspring 阅读(105) 评论(0) 推荐(0)
摘要:Spark Streaming 模块是对于 Spark Core 的一个扩展,目的是为了以高吞吐量,并且容错的方式处理持续性的数据流。目前 Spark Streaming 支持的外部数据源有 Flume、 Kafka、Twitter、ZeroMQ、TCP Socket... 阅读全文
posted @ 2016-10-10 12:51 yuerspring 阅读(142) 评论(0) 推荐(0)
摘要:Kafka 是一个分布式的,高吞吐量,易于扩展地基于主题发布/订阅的消息系统,最早是由 Linkedin 开发,并于 2011 年开源并贡献给 Apache 软件基金会。一般来说,Kafka 有以下几个典型的应用场景: 作为消息队列。由于 Kafka 拥有高吞吐... 阅读全文
posted @ 2016-10-10 12:49 yuerspring 阅读(132) 评论(0) 推荐(0)
摘要:Spark 应用程序在提交执行后,控制台会打印很多日志信息,这些信息看起来是杂乱无章的,但是却在一定程度上体现了一个被提交的 Spark job 在集群中是如何被调度执行的,这里将会向大家介绍一个典型的 Spark job 是如何被调度执行的。我们先来了解以下几个概念... 阅读全文
posted @ 2016-10-10 12:39 yuerspring 阅读(398) 评论(0) 推荐(0)
摘要:SparkWordCount 类源码 standalong 模式import org.apache.spark.SparkConfimport org.apache.spark.SparkContextimport org.apache.spark.SparkCont... 阅读全文
posted @ 2016-10-10 12:38 yuerspring 阅读(290) 评论(0) 推荐(0)
摘要:本节内容简单介绍怎么在集群上运行spark 应用程序 1.spark 运行时架构在集群模式下 ,spark 是采用的主从结构,一个中央协调节点被称为驱动器driver ,多个工作节点被成为执行器 executor 。分别对应多个java 进程,,driver & e... 阅读全文
posted @ 2016-10-08 11:21 yuerspring 阅读(289) 评论(0) 推荐(0)