03 2017 档案
摘要:一、Kafaka 介绍 Apache Kafka 是分布式发布-订阅消息系统。 它最初由 LinkedIn 公司开发, 之后成为 Apache 项目的一部分。 Kafka 是一种快速、 可扩展的、 设计内在就是 分布式的, 分区的和可复制的提交日志服务 Kafka 是一个消息系统, 原本开发自 Li
阅读全文
摘要:一、Flume概述 Flume是一个分布式的数据收集系统, 具有高可靠、 高可用、 事务管理、 失 败重启等功能。 数据处理速度快, 完全可以用于生产环境。 Flume的核心是agent。 agent是一个java进程, 运行在日志收集端, 通过agent 接收日志, 然后暂存起来, 再发送到目的地
阅读全文
摘要:一、基础核心概念 1、StreamingContext详解 (一) 有两种创建StreamingContext的方式: val conf = new SparkConf().setAppName(appName).setMaster(master); val ssc = new StreamingC
阅读全文
摘要:实时计算介绍 Spark Streaming, 其实就是一种Spark提供的, 对于大数据, 进行实时计算的一种框架。 它的底层, 其实, 也是基于我们之前讲解的Spark Core的。 基本的计算模型, 还是基于内存的大数据实时计算模型。 而且, 它的底层的组件或者叫做概念, 其实还是最核心的RD
阅读全文
摘要:yarn模式分为两种模式: 一、Yarn-cluster模式 1、通过spark-submit提交spark jar包(Application),与RM进行通信请求启动AM 2、RM接收到请求之后,会在一个相对空闲的nodemanager中分配Container,然后再此Container中启动AM
阅读全文
摘要:面试问的比较多的 JAVA:进程、线程、多线程、反射、IO、集合、网络编程、接口、类与对象 Linux:shell脚本、AWK与sed指令,其他常用指令 hadoop:HDFS读写机制、mapreduce的执行流程、shuffle的执行流程、yarn平台的执行流程、hive的架构、hive中的各种j
阅读全文
摘要:一、Spark集群基础概念 将DAG划分为多个stage阶段,遵循以下原则: 1、将尽可能多的窄依赖关系的RDD划为同一个stage阶段。 2、当遇到shuffle操作,就意味着上一个stage阶段结束,下一个stage阶段开始 关于RDD中的分区,在默认情况下(也就是未指明分区数的情况) 1、如果
阅读全文
摘要:一、RDD算子补充 1、mapPartitions mapPartitions的输入函数作用于每个分区, 也就是把每个分区中的内容作为整体来处理。 (map是把每一行) mapPartitions一次处理一个分区的所有数据,而map算子一次处理分区中的一条数据,所以mapPartitions处理数据
阅读全文
摘要:一、常用Actoin算子 (reduce 、collect 、count 、take 、saveAsTextFile 、 countByKey 、foreach ) collect:从集群中将所有的计算结果获取到本地内存,然后展示 take:从集群中将一部分的计算结果获取到本地内存,然后展示 rdd
阅读全文
摘要:map 产生的键值对是tupple, split分隔出来的是数组 一、常用Transformation算子 (map 、flatMap 、filter 、groupByKey 、reduceByKey 、sortByKey 、join 、cogroup ) JAVA: scala: 2、join()
阅读全文
摘要:一、Spark-Shell交互式工具 1、Spark-Shell交互式工具 Spark-Shell提供了一种学习API的简单方式, 以及一个能够交互式分析数据的强大工具。 在Scala语言环境下或Python语言环境下均可使用。 启动Spark-Shell ./bin/spark-shell 本
阅读全文
摘要:安装在集群上的spark版本:spark-1.6.3-bin-hadoop2.6.tgz scala版本:scala-2.10.4.tgz 1、spark是什么 Spark, 是一种通用的大数据计算框架, 正如传统大数据技术Hadoop的MapReduce、 Hive引擎, 以及Storm流式实时计
阅读全文
摘要:1、计算机网络计算机网络,是指将地理位置不同的具有独立功能的多台计算 机及其外部设备,通过通信线路连接起来,从而实现信息与资 源共享的计算机系统。 2、网络七成结构 3、网络通信协议 网络通讯协议计算机网络中的计算机可以相互间进行信息交流。而要进行交 流,就需要具有一定的规则,我们称之为通讯协议。可
阅读全文
摘要:1、线程的概念 多线程,就类似与操作系统中的多进程。简单的讲,就是可 以同时并发执行多个任务,处理多件事情。这与我们经常所 谓的边唱边跳,边说边做事一个道理。 线程是一个轻量级的进程,一个进程中可以分为多个线程。 比起进程,线程所耗费的系统资源更少,切换更加容易 2、Thread类 Threa
阅读全文
摘要:1、反射机制 在Java中,反射指的是在运行时动态的获取一个类的信息,创 建该类的对象,或者访问该对象的成员(成员变量,方法等)。 2、运行的过程当我们通过java命令来运行某个类时,会经历如下的过程: 类的加载 由类加载器将指定的class文件载入。载入仅执行一 次。类加载后,就会创建一个对应类
阅读全文
摘要:1、File类 File这个类,在命名上多少有些误导。实际上, File不只可以 表示一个文件,还可以表示一个路径(可以理解为文件夹)。通过建立File对象,我们就可以操作具体的某个(些)文件 (文件夹)。 2、File类构造器 public File(String path)如果path是实际
阅读全文
摘要:1、Queue接口Queue接口是Collection接口的子接口。Queue接口表示一个队列,分为队头与队尾。通常实现先进 先出的原则( FIFO),但这不是必须的。例如,PriorityQueue是根据优先级来进行排序的。队列会根据具体的实现来组织与管理新加入元素的位置。无论 哪种实现方式,删除
阅读全文
摘要:1、数据,指能够输入计算机中,由计算机所处理的元素。结构, 指数据之间的关系。数据结构是指相互之间存在一种或多种特定关系的数据元素的集合。 常用的数据结构有: 链表 堆栈 队列 树 哈希表说明:堆栈、队列、链表为线性存储结构(线性表),即多个元素的有序序列。堆栈,队列为操作受限的线性表。
阅读全文
摘要:1、 2、泛型设计 3、原生类型 4、类型推断 5、参数化类型的继承 6、类型通配符? 7、自定义泛型类 8、 9、泛型方法 10、泛型构造器 11、泛型擦除 12、泛型方法的重载 13、泛型方法的重写 14、对象的比较 Comparable Comparator
阅读全文
摘要:1、 2、 异常可以分成以下三种: 受检异常 运行时异常 错误 说明:运行时异常与错误统称为非受检异常。 当异常发生时,我可以采用两种方式进行处理: 捕获异常 抛出异常 说明:受检异常要求程序员在编译时显式处理,而非受检异常则不需要。 3、异常处理 4、finally 5、 6、多重捕获异常
阅读全文
摘要:1、 2、switch对枚举类型的支持。 3、枚举类型 4、包装类 5、包装类型 6、String 的方法 7、 8、String常量池 9、equals与== 10、StringBuilder与StringBuffer 11、 12、Math类中声明的成员都是静态的。 13、Date 14、Cal
阅读全文
摘要:1、内部类 2、静态成员类 3、实例成员类 4、案例 5、局部类 6、局部类 7、匿名类 8、 内部类的字节码文件命名 * 与顶层类一样,在编译过后,内部类也会生成字节码文件(.class)。 * 对于成员类(静态成员类与实例成员类),生成的class文件名 * 为--外围类$成员类.class *
阅读全文
摘要:1、final 2、抽象类与抽象方法 3、接口类型 4、接口的成员 5、接口的继承 6、接口的实现 7、求周长案例 8、子接口与默认方法 9、面向接口编程案例 方案1: 方案2: 方案3: 方案4:
阅读全文
摘要:1、成员的继承 2、继承的关键字 3、构造器的继承 4、super关键字的使用 5、 6、方法的重写 7、成员变量的隐藏 8、父类引用与子类引用(对象) 9、 10、多态 11、重写与隐藏 12、
阅读全文
摘要:一、包 1、包的作用与声明 2、静态导入 3、 4、访问修饰符 5、static 关键字 6、 7、 8、final 关键字 9、 10、private
阅读全文
摘要:1、方法重载 2、重载方法 3、构造器 4、构造器重载 5、构造器调用的原则 6、this的使用 7、成员变量的初始化 8、可变参数 9、可变参数的重载
阅读全文
摘要:1、类的声明 2、成员变量 3、方法 4、变量的默认值 5、NULL值 6、创建对象 7、参数传递
阅读全文
摘要:1、数组声明 2、数组初始化 3、变量内存分配情况 4、增强型for循环 5、多维数组 6、对数组进行复制 7、Arrays类的使用 8、命令行参数
阅读全文
摘要:一、条件判断语句 1、if-else语句 if (条件表达式) if语句体; 如果条件表达式为true,执行if语句体, 否则不执行。 当if只有一条语句体时,可以省略{},但是,强烈建议, 不管if有几条语句体,都不要省略{}。 2、switch case 3、while 4、dowhile 5、
阅读全文
摘要:一、函数式编程 Scala中的函数可以独立存在, 不需要依赖任 何类和对象 def 放在类中就是方法;放在外边就是函数 1、将函数赋值给变量 Scala中的函数是一等公民, 可以独立定义, 独立存在, 而且可以直接将函数作为 值赋值给变量 Scala的语法规定, 将函数赋值给变量时, 必须在函数后面
阅读全文
摘要:1、何为Java Java通常狭义的被理解为是一种计算机程序语言。实际上, 从广义上讲, Java是一种技术,包括Java语言与Java平台。 2、Java语言具有如下特征: 简单性 面向对象 动态与安全 多线程 跨平台 3、Java虚拟机 可运行Java字节码的虚拟计算机系统 它有一个解释器组件,
阅读全文
摘要:一、映射 1、Scala映射就是键值对的集合Map。默认情况下,Scala中使用不可变的映射。 如果想使用可变集合Map,必须导入scala.collection.mutable.Map (导包时scala.collection.mutable._ 为可变;scala.collection.immu
阅读全文
摘要:一、Scala 简介 1、Scala语言既可用于大规模应用程序开发,也可以用于脚本编程,2001年由Martin Odersk 开发,主要优势 速度和它的表达性。一门函数式编程语言,既有面向对象的特点,又有面向过程的特点。 2、Scala与Java关系:Scala代码需要经过编译为字节码,然后交由J
阅读全文
摘要:一、面向对象编程——类 1、定义一个简单的类 创建类的对象, 并调用其方法 调用类中的方法时,也可以不加括号, 如果定义方法时不带括号, 则调用方法时也 不能带括号 2、getter与setter 假设一个类中有 声明一个字段 val age=0,则在scala中getter 和setter分别叫做
阅读全文

浙公网安备 33010602011771号