大数据 - 随笔分类 - ciade

安装Impala

摘要：1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0.5.el6.noarch.rpm impala-kudu-2.7.0+cdh5.9.0+0-1.cd 阅读全文

posted @ 2016-12-26 10:15 ciade 阅读(4041) 评论(1) 推荐(0)

安装Kudu

摘要：1.默认安装好yum2.需以root身份安装3.安装ntp yum install ntp -y4.启动ntp /etc/init.d/ntpd start|stop|restart5.添加安装包yum源 [cloudera-kudu] # Packages for Cloudera's Distr 阅读全文

posted @ 2016-12-26 10:11 ciade 阅读(2449) 评论(1) 推荐(0)

flume+kafka+spark streaming整合

摘要：1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录阅读全文

posted @ 2016-12-26 10:10 ciade 阅读(2727) 评论(0) 推荐(0)

安装Kafka

摘要：1.默认安装好zookeeper和scala2.下载安装包,解压 tar -zxvf kafka_2.11-0.9.0.1.tgz kafka_2.11-0.9.0.13.配置环境变量 vim /etc/profile #kafka export KAFKA_HOME=/opt/kafka_2.11 阅读全文

posted @ 2016-12-26 10:07 ciade 阅读(305) 评论(0) 推荐(0)

DataFrame格式化

摘要：1.如果是格式化成Json的話直接 val rdd = df.toJSON.rdd 2.如果要指定格式需要自定义函数如下: //格式化具体字段条目 def formatItem(p:(StructField,Any)):String={ p match { case (sf,a) => sf.dat 阅读全文

posted @ 2016-12-14 16:59 ciade 阅读(1603) 评论(0) 推荐(0)

RDD/Dataset/DataFrame互转

摘要：1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Dataset -> RDD val rdd = ds.rdd 4.Dataset -> DataFrame val df 阅读全文

posted @ 2016-12-14 15:12 ciade 阅读(7464) 评论(0) 推荐(0)

flume使用示例

摘要：flume的特点： flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方，用于收集数据;同时，Flume提供对数据进行简单处理，并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力。 flume的数据流由事件(Event)贯穿始终。事阅读全文

posted @ 2016-05-15 14:44 ciade 阅读(23486) 评论(0) 推荐(2)

ecplise + hadoop 调试环境搭建

摘要：1.需要安装包 1.1 hadoop源码包(hadoop-2.5.2-src.tar.gz) 1.2 hadoop 2X插件(hadoop2x-eclipse-plugin-master.zip) 1.3 hadoop windows 工具(hadoop-common-2.2.0-bin-master.zip) 1.4 ANT编译工具(apache-ant-1.9.6.t... 阅读全文

posted @ 2016-04-11 20:36 ciade 阅读(559) 评论(0) 推荐(0)

安装zeppelin

摘要：安装zeppelin 1.默认安装好spark集群 2.安装zeppelin 1.解压安装包 tar zxvf zeppelin-0.5.5-incubating-bin-all.tgz 2.配置环境变量 vim /etc/profile #zeppelin export ZEPPELIN_HOME 阅读全文

posted @ 2016-02-25 09:03 ciade 阅读(642) 评论(0) 推荐(0)

安装spark ha集群

摘要：安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/profile #scala export SCALA_HOME=/opt/scala-2.11.7 阅读全文

posted @ 2016-02-01 10:37 ciade 阅读(541) 评论(0) 推荐(0)

安装ganglia

摘要：安装ganglia1.默认已经配置好相关的主机名和Ip地址映射关系2.默认已经安装好ssh密码登陆3.默认已经配置好yum源和相关网络配置(如hosts 可在墙外)4.服务器端安装(除了yum安装以外其他操作均需以hadoop或者普通用户权限操作) 1.安装相关依赖包 yum -y... 阅读全文

posted @ 2016-01-27 09:35 ciade 阅读(833) 评论(0) 推荐(0)

安装maven编译环境

摘要：安装maven编译环境1.默认已经装好yum并配置好yum源(推荐使用163yum源)2.安装JDK3.安装相关依赖环境(root用户登陆) yum install -y cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libt... 阅读全文

posted @ 2016-01-20 10:15 ciade 阅读(888) 评论(0) 推荐(0)

安装HBase

摘要：安装HBase1.默认已经安装好java+hadoop+zookeeper2.下载对应版本的HBase3.解压安装包 tar zxvf hbase-1.0.2-bin.tar.gz4.配置环境变量(/etc/profile) #hbase export HBASE_HOME=/opt/h... 阅读全文

posted @ 2016-01-19 10:01 ciade 阅读(225) 评论(0) 推荐(0)

安装sqoop

摘要：安装sqoop1.默认已经安装好java+hadoop2.下载对应hadoop版本的sqoop版本3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz4.配置环境变量(/etc/profile) #sqoop exp... 阅读全文

posted @ 2016-01-19 09:58 ciade 阅读(159) 评论(0) 推荐(0)

安装Hive(独立模式使用mysql连接)

摘要：安装Hive(独立模式使用mysql连接)1.默认安装了java+hadoop2.下载对应hadoop版本的安装包3.解压安装包 tar zxvf apache-hive-1.2.1-bin.tar.gz4.安装mysql yum -y install mysql-server mysql mys... 阅读全文

posted @ 2016-01-19 09:57 ciade 阅读(659) 评论(0) 推荐(0)

安装hadoop+zookeeper ha

摘要：安装hadoop+zookeeper ha前期工作配置好网络和主机名和关闭防火墙chkconfig iptables off //关闭防火墙1.安装好java并配置好相关变量 (/etc/profile)#javaexport JAVA_HOME=/usr/java/jdk1.8.0_65expor... 阅读全文

posted @ 2016-01-19 09:56 ciade 阅读(614) 评论(0) 推荐(0)

HBase JavaAPI操作示例

摘要：package testHBase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumn... 阅读全文

posted @ 2015-12-20 20:27 ciade 阅读(248) 评论(0) 推荐(0)

MongoDB

摘要：大数据第四天1.mongoDB数据库(NoSQL数据库) 1.1 安装(windows版本) a.下载链接 www.mongodb.org b.创建一个目录用于存放安装目录，解压安装包 c.创建一个目录用于存放数据 d.cd到安装目录进入bin 执行 mongod.exe --dbpat... 阅读全文

posted @ 2015-12-05 20:48 ciade 阅读(467) 评论(0) 推荐(0)

大数据第三天

摘要：大数据第三天1.HBase————分布型数据库(NoSQL) 1.表存储管理数据 2.行键类似关系型数据库中的主键 HBase自带一般为查询比较多的列 3.列族列的集合在定义表时指定的 4.时间戳列的一个属性如果不指定时间戳，默认取最新的数据 5.优点 1.海量数据秒级... 阅读全文

posted @ 2015-12-03 21:56 ciade 阅读(326) 评论(0) 推荐(0)

Zookeeper操作

摘要：Zookeeper操作注意搭建： 1.集群规模不小于3个节点 2.服务器之间系统时间要保持一致1.搭建步骤： 1.解压安装包 2.设置zookeeper环境变量 3.修改配置文件————zoo.cfg 修改dataDir=/usr/local/zk/data 新增server.0=hadoop0... 阅读全文

posted @ 2015-12-02 15:44 ciade 阅读(344) 评论(0) 推荐(0)

ciade

随笔分类 - 大数据

公告