瞌睡中的葡萄虎

博客园 首页 新随笔 联系 订阅 管理

08 2014 档案

摘要:创建表create 'test1', 'lf', 'sf'lf: column family of LONG values (binary value) -- sf: column family of STRING values导入数据put 'test1', ... 阅读全文
posted @ 2014-08-27 16:14 瞌睡中的葡萄虎 阅读(21252) 评论(0) 推荐(5)

摘要:一般操作查看服务器状态status查看hbase版本versionDDL操作创建表create 'member','member_id','address','info'创建了3个列族,分别是member_id, address, info知识点回顾:cf是schema的一部分,而column不是。... 阅读全文
posted @ 2014-08-27 15:50 瞌睡中的葡萄虎 阅读(1108) 评论(0) 推荐(0)

摘要:在Spark中,每一个RDD是对于数据集在某一状态下的表现形式,比如说:map、filter、group by等都算一次操作,这个状态有可能是从前一状态转换而来的;因此换句话说一个RDD可能与之前的RDD(s)有依赖关系;RDD之间存在依赖关系;根据依赖关系的不同,可以将RDD分成两种不同的类型:宽... 阅读全文
posted @ 2014-08-21 15:57 瞌睡中的葡萄虎 阅读(1338) 评论(0) 推荐(1)

摘要:记录下提交过程,易忘供查询用。内容源自田总的分享。1)在github上fork一份最新的master代码2)用社区代码库创建本地仓库git clone https://github.com/apache/spark test-spark3)加入自己的github代码库cd test-sparkgit... 阅读全文
posted @ 2014-08-21 15:38 瞌睡中的葡萄虎 阅读(1023) 评论(0) 推荐(0)

摘要:private case class MemoryEntry(value: Any, size: Long, deserialized: Boolean)class MemoryStore(blockManager: BlockManager, maxMemory: Long)extends Blo... 阅读全文
posted @ 2014-08-20 16:31 瞌睡中的葡萄虎 阅读(936) 评论(0) 推荐(0)

摘要:BlockManager中存储block的流程: doPut()方法 入参:blockId, data, level, tellMaster1)为block创建BlockInfo并加锁使其不能被其他线程访问;2)按照block的存储级别:useMemory, useOffHeap, useDisk进... 阅读全文
posted @ 2014-08-20 16:27 瞌睡中的葡萄虎 阅读(1222) 评论(0) 推荐(0)

摘要:查看: date -R+0800修改:sudo rm -rf /etc/localtimesudo cp /usr/share/zoneinfo/America/Los_Angeles /etc/localtimesudo cp /usr/share/zoneinfo/Asia/Hong_Kong ... 阅读全文
posted @ 2014-08-15 15:34 瞌睡中的葡萄虎 阅读(570) 评论(0) 推荐(0)

摘要:一、集群启动过程--启动Master$SPARK_HOME/sbin/start-master.shstart-master.sh脚本关键内容:spark-daemon.sh start org.apache.spark.deploy.master.Master 1 --ip $SPARK_MAST... 阅读全文
posted @ 2014-08-14 16:54 瞌睡中的葡萄虎 阅读(1143) 评论(0) 推荐(0)

摘要:ARRAY一组有序字段,字段的类型必须相同。Array(1,2)create table hive_array(ip string, uid array)row format delimited fields terminated by ','collection items terminated ... 阅读全文
posted @ 2014-08-14 13:55 瞌睡中的葡萄虎 阅读(555) 评论(0) 推荐(0)

摘要:Hive常用的存储类型有:1、TextFile: Hive默认的存储类型;文件大占用空间大,未压缩,查询慢;2、Sequence File:将属于以的形式序列化到文件中;该类型的文件存储略大于TEXTFILE类型;3、RCFile:面向列的文件格式。遵循“先按列划分再按行划分”的理念。在查询过程中,... 阅读全文
posted @ 2014-08-14 13:33 瞌睡中的葡萄虎 阅读(2855) 评论(0) 推荐(0)

摘要:order by1、order by会对输入按照指定字段做全局排序,输出结果有序,因此只有一个reducer(多个reducer无法保证全局排序,手工设定reduce数量无效); 只有一个reducer会导致当输入规模较大时,需要较长的计算时间,速度很非常慢;在数据量大的情况下慎用order by... 阅读全文
posted @ 2014-08-13 18:11 瞌睡中的葡萄虎 阅读(2269) 评论(0) 推荐(0)

摘要:本案例使用的数据均来源于Oracle自带的emp和dept表创建表语法:CREATE [EXTERNAL] TABLE [IF NOT EXISTS] [db_name.]table_name [(col_name data_type [COMMENT col_comment], ...)] [... 阅读全文
posted @ 2014-08-13 16:17 瞌睡中的葡萄虎 阅读(1070) 评论(0) 推荐(0)

摘要:Build/Rebuild Project之后 阅读全文
posted @ 2014-08-11 17:01 瞌睡中的葡萄虎 阅读(862) 评论(0) 推荐(0)

摘要:Hive架构1)用户接口: CLI(hive shell):命令行工具;启动方式:hive 或者 hive --service cli ThriftServer:通过Thrift对外提供服务,默认端口是10000;启动方式:hive --service hiveserver WEBUI(浏览器... 阅读全文
posted @ 2014-08-09 22:59 瞌睡中的葡萄虎 阅读(1454) 评论(0) 推荐(0)

摘要:Hive默认元数据信息存储在Derby里,Derby内置的关系型数据库、单Session的(只支持单客户端连接,两个客户端连接过去会报错);Hive支持将元数据存储在关系型数据库中,比如:Mysql/Oracle;本案例采用的是将hive的元数据存储在MySQL中,故需要先安装MySQL数据库,使用... 阅读全文
posted @ 2014-08-09 22:38 瞌睡中的葡萄虎 阅读(970) 评论(0) 推荐(0)

摘要:Hive是什么1)Hive由facebook开源,构建在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库;2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;4)... 阅读全文
posted @ 2014-08-09 22:08 瞌睡中的葡萄虎 阅读(1420) 评论(0) 推荐(0)

摘要:测试数据位于:/home/hadoop/luogankun/workspace/sync_data/pigdept和emp表来源自oracle数据库自带的表dept.txt10 ACCOUNTING NEW YORK20 RESEARCH DALLAS30... 阅读全文
posted @ 2014-08-07 14:55 瞌睡中的葡萄虎 阅读(451) 评论(0) 推荐(0)

摘要:测试数据位于:/home/hadoop/luogankun/workspace/sync_data/pigperson.txt中的数据以逗号分隔1,zhangsan,1122,lisi,1133,wangwu,1144,zhaoliu,115score.txt中的数据以制表符分隔1 20... 阅读全文
posted @ 2014-08-07 14:41 瞌睡中的葡萄虎 阅读(534) 评论(0) 推荐(0)

摘要:pig概述pig是一个用于并行计算的高级数据流语言和执行框架;类sql、文件处理框架;有一套和sql类似的执行语句,处理的对象是HDFS上文件。Pig的数据处理语言是数据流方式的,一步一步的进行处理;Pig基本数据类型:int、long、float、double、chararry、bytearray... 阅读全文
posted @ 2014-08-07 14:30 瞌睡中的葡萄虎 阅读(768) 评论(0) 推荐(0)

摘要:Extraction-Transformation-Loading的缩写,中文名称为数据提取、转换和加载。将数据从ORACLE中抽取数据,经过hive进行分析转换,最后存放到ORACLE中去。本案例是纯demo级别,练手使用一、需求将emp和dept表的数据分析最后存放到result表。emp和de... 阅读全文
posted @ 2014-08-06 18:01 瞌睡中的葡萄虎 阅读(2764) 评论(0) 推荐(0)

摘要:示例数据准备hive中创建dept表create table dept(deptno int,dname string,loc string)row format delimited fields terminated by '\t' lines terminated by '\n' stored ... 阅读全文
posted @ 2014-08-06 17:35 瞌睡中的葡萄虎 阅读(3242) 评论(0) 推荐(0)

摘要:导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.107:1521:ORCL \--username SCOTT --password tiger \--table EMP \--hive-import --create-hive... 阅读全文
posted @ 2014-08-06 17:23 瞌睡中的葡萄虎 阅读(1977) 评论(0) 推荐(0)

摘要:注意:在导出前需要先创建待导出的表结构。如果导出的表在数据库中不存在则会报错;如果重复导出多次,表中的数据会重复;create table EMP_DEMO as select * from EMP where 1=2;create table SALGRADE_DEMO as select * f... 阅读全文
posted @ 2014-08-06 16:30 瞌睡中的葡萄虎 阅读(4640) 评论(0) 推荐(0)

摘要:导入表的所有字段sqoop import --connect jdbc:oracle:thin:@192.168.1.100:1521:ORCL \--username SCOTT --password tiger \--table EMP -m 1;查看执行结果:hadoop fs -cat /u... 阅读全文
posted @ 2014-08-06 15:57 瞌睡中的葡萄虎 阅读(5739) 评论(0) 推荐(0)

摘要:sqoop产生背景多数是用Hadoop技术处理大数据业务的企业有大量的数据存储在传统的关系型数据库(RDBMS)中;由于缺乏工具的支持、对Hadoop和传统数据库系统中的数据进行相互传输是一件十分困难的事情;Sqoop就是一个在RDBMS和Hadoop之间进行数据传输的项目;sqoop概述sqoop... 阅读全文
posted @ 2014-08-06 15:34 瞌睡中的葡萄虎 阅读(625) 评论(0) 推荐(0)

摘要:为什么要使用YARN?数据共享、资源利用率、更方便的管理集群等。详情参见:http://www.cnblogs.com/luogankun/p/3887019.htmlSpark YARN版本编译编译hadoop对应的支持YARN的Spark版本export MAVEN_OPTS="-Xmx2g -... 阅读全文
posted @ 2014-08-03 16:04 瞌睡中的葡萄虎 阅读(1637) 评论(0) 推荐(0)

摘要:MapReduce计算框架将计算过程分为两个阶段:Map和Reduce Map阶段并行处理输入数据; Reduce阶段对Map结果进行汇总Shuffle连接Map和Reduce两个阶段 Map Task将数据写到本地磁盘; Reduce Task从每个Map Task上读取一份数据;仅适合离... 阅读全文
posted @ 2014-08-03 14:41 瞌睡中的葡萄虎 阅读(1627) 评论(1) 推荐(2)

摘要:YARN产生背景Hadoop1.x中的MapReduce构成图如下:在Hadoop1.x中MapReduce是Master/Slave结构,在集群中的表现形式为:1个JobTracker带多个TaskTracker;JobTracker:负责资源管理和作业调度;TaskTracker:定期向JobT... 阅读全文
posted @ 2014-08-02 15:08 瞌睡中的葡萄虎 阅读(1222) 评论(0) 推荐(1)

摘要:HDFS2.0之HA主备NameNode: 1、主NameNode对外提供服务,备NameNode同步主NameNode元数据,以待切换; 2、主NameNode的信息发生变化后,会将信息写到共享数据存储系统中让备NameNode合并到自己的内存中; 3、所有DataNode同时向两个Name... 阅读全文
posted @ 2014-08-02 15:01 瞌睡中的葡萄虎 阅读(653) 评论(0) 推荐(0)

摘要:Hadoop1.x和Hadoop2.0构成图对比Hadoop1.x构成: HDFS、MapReduce(资源管理和任务调度);运行时环境为JobTracker和TaskTracker;Hadoop2.0构成:HDFS、MapReduce/其他计算框架、YARN; 运行时环境为YARN 1、HDFS... 阅读全文
posted @ 2014-08-02 14:52 瞌睡中的葡萄虎 阅读(1887) 评论(0) 推荐(1)

摘要:Hadoop与Hadoop生态系统的区别Hadoop:是一个适合大数据分布式存储和分布式计算的平台,在Hadoop1.x中对应于HDFS和MapReduce;Hadoop生态系统:是一个很庞大的概念,Hadoop是其中最重要最基础的一个部分;生态系统中的每个子系统只负责解决某一个特定的问题域(甚至可... 阅读全文
posted @ 2014-08-02 14:28 瞌睡中的葡萄虎 阅读(355) 评论(0) 推荐(0)

摘要:经过前面文章的SparkContext、DAGScheduler、TaskScheduler分析,再从总体上了解Spark Job的调度流程1、SparkContext将job的RDD DAG图提交给DAGScheduler;2、DAGScheduler将job分解成Stage DAG,将每个Sta... 阅读全文
posted @ 2014-08-02 02:04 瞌睡中的葡萄虎 阅读(643) 评论(0) 推荐(0)

摘要:TaskScheduler概述:TaskScheduler是一个可插拔任务调度接口,通过不同的SchedulerBackend进行任务的调度。主要功能如下:1、一个TaskScheduler只为一个SparkContext服务,接收DAGScheduler提交过来的一组组的TaskSet;2、Tas... 阅读全文
posted @ 2014-08-02 00:59 瞌睡中的葡萄虎 阅读(1400) 评论(2) 推荐(0)

摘要:1、文件系统本地性 第一次运行时数据不在内存中,需要从HDFS上取,任务最好运行在数据所在的节点上;2、内存本地性 第二次运行,数据已经在内存中,所有任务最好运行在该数据所在内存的节点上;3、LRU置换 如果数据只缓存在内存中而并没有缓存到磁盘上,此时数据被置换出内存,则从HDFS上读取; ... 阅读全文
posted @ 2014-08-02 00:57 瞌睡中的葡萄虎 阅读(747) 评论(0) 推荐(0)

摘要: 阅读全文
posted @ 2014-08-01 23:59 瞌睡中的葡萄虎 阅读(250) 评论(0) 推荐(0)

摘要:1、构建Spark Application运行环境;在Driver Program中新建SparkContext(包含sparkcontext的程序称为Driver Program);Spark Application运行的表现方式为:在集群上运行着一组独立的executor进程,这些进程由spar... 阅读全文
posted @ 2014-08-01 23:57 瞌睡中的葡萄虎 阅读(663) 评论(0) 推荐(0)