asura7969

2018年2月28日

摘要： (一)、Spark读取HBase中的数据 hbase中的数据 (二)、Spark写HBase 1.第一种方式： 2.第二种方式：阅读全文

posted @ 2018-02-28 15:34 asura7969 阅读(3793) 评论(0) 推荐(1)

2018年2月11日

摘要：一、Spark on Standalone 1.spark集群启动后，Worker向Master注册信息 2.spark-submit命令提交程序后，driver和application也会向Master注册信息 3.创建SparkContext对象：主要的对象包含DAGScheduler和Task 阅读全文

posted @ 2018-02-11 15:00 asura7969 阅读(3933) 评论(0) 推荐(1)

2018年1月22日

Spark Streaming与Storm

摘要： Spark Streaming处于Spark生态技术栈中，可以和Spark Core和Spark SQL无缝整合；而Storm相对来说比较单一；（一）概述 Spark Streaming Spark Streaming是Spark的核心API的一个扩展，可以实现高吞吐量、具有容错机制的实时流数据的阅读全文

posted @ 2018-01-22 22:18 asura7969 阅读(320) 评论(0) 推荐(0)

2018年1月21日

hadoop核心组件（三）

摘要： HBase简介： HBase Hadoop DataBase，是一个高可靠、高性能、面向列、可存储、实时读写的分布式数据库利用HBase HDFS作为其文件存储系统 HBase数据模型：（1）RowKey：决定一行数据，按照字典顺序排序，RowKey只能存储64K字节数据（2）Column 阅读全文

posted @ 2018-01-21 11:50 asura7969 阅读(560) 评论(0) 推荐(0)

2018年1月20日

hadoop核心组件（二）

摘要： 1、Hive概念： hive是数据仓库，由解释器、优化器和编译器组成；运行时，元数据存储在关系型数据库中。 2、Hive的架构：（1）用户接口主要有三个：CLi、Client和WUI。其中最常用的是CLi，CLi启动时候，会启动一个Hive副本。Client是hive的客户端，用户连接至Hive 阅读全文

posted @ 2018-01-20 14:53 asura7969 阅读(295) 评论(0) 推荐(0)

java并发与GC

摘要： 1、synchronized 所重入场景：继承关系的类，子类调用父类的方法线程安全带有synchronized关键字的方法互相调用线程安全 2、volatile 作用：是变量在多个线程中可见，当改变变量值时（注意，改变的是主内存的值），每个线程的工作内存还是原先的值；强制线程到主内存（共享阅读全文

posted @ 2018-01-20 13:01 asura7969 阅读(373) 评论(0) 推荐(0)

2018年1月19日

hadoop核心组件（一）

摘要： hadoop的核心组件：hdfs（分布式文件系统）、mapreduce（分布式计算框架）、Hive（基于hadoop的数据仓库）、HBase（分布式列存数据库）、Zookeeper（分布式协作服务）、Sqoop（数据同步工具）和Flume（日志手机工具） hdfs（分布式文件系统）：由client 阅读全文

posted @ 2018-01-19 22:44 asura7969 阅读(2414) 评论(0) 推荐(0)

storm搭建

摘要： Storm安装 1、启动zookeeper集群 2、上传解压storm包 3、进入解压包，配置conf目录下的storm.yaml文件 a) 这里配置zookeeper节点，可以用ip或者域名 b) 配置nimbus.host作为主节点名 1、将解压的storm包分发到各个节点 2、scp -r a 阅读全文

posted @ 2018-01-19 21:53 asura7969 阅读(220) 评论(0) 推荐(0)

公告