Riordon

  博客园 :: 首页 :: 新随笔 :: :: :: 管理 ::

随笔分类 -  000 大数据成长记

学习,总结,分享
摘要:经常要对数据库中的数据进行去重,有时还需要使用外部表填冲数据,本文档记录数据去重与外表填充数据。 date:2016/8/17 author:wangxl 1 需求 对user_info1表去重,并添加age项。 2 表数据 user_info1: + + + + + | id | name | s 阅读全文
posted @ 2016-08-17 23:03 Riordon 阅读(308) 评论(0) 推荐(0)

摘要:本文档基于hbase 0.96.1.1 cdh5.0.2,对HBase配置&启动脚本进行分析 date:2016/8/4 author:wangxl HBase配置&启动脚本分析 剔除window相关脚本,我们主要分析配置文件与.sh文件 1 文件概览 conf ├── hadoop metrics 阅读全文
posted @ 2016-08-05 09:26 Riordon 阅读(4553) 评论(0) 推荐(0)

摘要:本文档是学习RDD经典论文《Resilient Distributed Datasets: A Fault Tolerant Abstraction for In Memory Cluster Computing》的学习笔记。 date:2016/8/3 author:wangxl 1 引言 一种分 阅读全文
posted @ 2016-08-03 18:30 Riordon 阅读(637) 评论(0) 推荐(0)

摘要:本文档主要收集大数据技术相关经典文章(译文),经典读10遍胜于普通文章读千万篇。 "1.RDD:基于内存的集群计算容错抽象" "2.大型集群上的快速和通用数据处理架构" 阅读全文
posted @ 2016-08-03 15:30 Riordon 阅读(202) 评论(0) 推荐(0)

摘要:本文档基于Spark2.0,对spark启动脚本进行分析。 date:2016/8/3 author:wangxl Spark配置&启动脚本分析 我们主要关注3类文件,配置文件,启动脚本文件以及自带shell。 1 文件概览 conf/ ├── docker.properties.template 阅读全文
posted @ 2016-08-03 11:39 Riordon 阅读(8482) 评论(0) 推荐(0)

摘要:本文档基于IEDA构建spark maven应用。 date: 2016/8/1 author: wangxl 1.下载IDEA https://www.jetbrains.com/idea/ 2.安装Scala插件 Plugins Scala Install Plugin 3.生成骨架 3.1 m 阅读全文
posted @ 2016-08-01 12:32 Riordon 阅读(590) 评论(0) 推荐(1)

摘要:本文档综合现在市面上的各类spark书籍,概括spark技术核心,“要事第一”原则,只抓核心,才能领悟实质。 spark核心分类: 1.环境配置相关(编译、搭建、配置、启动脚本) 1.1 源码编译 1.2 集群搭建 1.3 集群配置,脚本分析 1.4 IDE环境构建 2.Spark基础 2.1 RD 阅读全文
posted @ 2016-07-31 14:11 Riordon 阅读(470) 评论(0) 推荐(0)

摘要:Spark2.0编译 1 前言 Spark2.0正式版于今天正式发布,本文基于CDH5.0.2的Spark编译。 2 编译步骤 2.1 下载源码 wget https://github.com/apache/spark/archive/v2.0.0.tar.gz 2.2 解压配置 基于CDH5.0. 阅读全文
posted @ 2016-07-27 18:48 Riordon 阅读(721) 评论(0) 推荐(0)

摘要:老司机的spark maven pom文件 pom文件一: 4.0.0 com.glsx spark demo 1.0 SNAPSHOT jar spark demo http://maven.apache.org UTF 8 1.7 2.10.5 ${artifactId} <! 构建JDK ma 阅读全文
posted @ 2016-07-27 18:36 Riordon 阅读(794) 评论(0) 推荐(0)

摘要:有时linux系统中装了很多应用,我们又不能覆盖系统中设置的版本,此时我们就需要在脚本文件中设置特定版本。 export JAVA_HOME= export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar export PATH= 阅读全文
posted @ 2016-07-27 10:55 Riordon 阅读(1385) 评论(0) 推荐(0)

摘要:国内连接maven官方的仓库更新依赖库,网速一般很慢,收集一些国内快速的maven仓库镜像以备用。 ====================国内OSChina提供的镜像,非常不错=================== CN OSChina Central http://maven.oschina.n 阅读全文
posted @ 2016-07-26 20:40 Riordon 阅读(317) 评论(0) 推荐(0)

摘要:Spark集群搭建 1 Spark编译 1.1 下载源代码 git clone git://github.com/apache/spark.git b branch 1.6 1.2 修改pom文件 增加cdh5.0.2相关profile,如下: cdh5.0.2 2.3.0 cdh5.0.2 0.9 阅读全文
posted @ 2016-07-14 13:54 Riordon 阅读(1135) 评论(0) 推荐(0)

摘要:[1] hadoop源码编译 [2] hadoop压缩配置 [3] hbase性能调优之压缩测试 阅读全文
posted @ 2015-11-06 18:03 Riordon 阅读(143) 评论(0) 推荐(0)

摘要:文章概述:1、顺序写2、顺序读3、随机写4、随机读5、SCAN数据0 性能测试工具hbase org.apache.hadoop.hbase.PerformanceEvaluationUsage: java org.apache.hadoop.hbase.PerformanceEvaluation ... 阅读全文
posted @ 2015-11-06 17:55 Riordon 阅读(1720) 评论(0) 推荐(0)

摘要:为何要使用压缩,压缩可以是文件的大小减小很多,节省空间;另外压缩后的文件在传输时更节省带宽。所需软件:1)lzo2)hadoop-lzo3)maven安装编译:1)lzowgethttp://www.oberhumer.com/opensource/lzo/download/lzo-2.06.tar... 阅读全文
posted @ 2015-11-06 11:40 Riordon 阅读(2025) 评论(0) 推荐(0)

摘要:为何要自行编译hadoop源码,往往是由于官方提供的hadoop发行版都是基于32位操作系统,在操作hadoop时会发生warn。准备软件:1)JDK2)Hadoop源码3)Maven4)Protobuf编译小结:1)JDK安装(略)2)必要依赖安装 sudo yum install -y g++... 阅读全文
posted @ 2015-11-05 16:33 Riordon 阅读(389) 评论(0) 推荐(0)

摘要:文章概览:1、前言2、Eclipse查看远程hadoop集群文件3、Eclipse提交远程hadoop集群任务4、小结1 前言 Hadoop高可用品台搭建完备后,参见《Hadoop高可用平台搭建》,下一步是在集群上跑任务,本文主要讲述Eclipse远程提交hadoop集群任务。2Eclipse查看... 阅读全文
posted @ 2015-08-10 11:48 Riordon 阅读(7518) 评论(0) 推荐(1)

摘要:hadoop.tmp.dir:A base for other temporary directories.集群运行后,修改该配置项后,发现类似错误:2012-10-12 10:06:54,804 INFO org.apache.hadoop.hdfs.server.common.Storage: ... 阅读全文
posted @ 2015-08-08 08:49 Riordon 阅读(1845) 评论(0) 推荐(0)

摘要:文章概览:1、机器规划和预配置2、软件安装3、集群文件配置4、启动集群5、HA验证6、注意事项7、小结机器规划和预配置主机/进程NNDNRMNMZK(QP)ZKFCJNnna√√√√nns√√√√dn1√√√√dn2√√√dn3√√√软件安装所需工具:虚拟机CentOS-6.5,JDK-1.8,Ha... 阅读全文
posted @ 2015-08-05 12:36 Riordon 阅读(3146) 评论(0) 推荐(3)