摘要:
1.压缩文件zip -r result.zip /data/*.* //将data这个目录下的所有文件进行压缩,并形成result.zip压缩文件2.分卷压缩文件zip -s 1g result.zip --out output //将result.zip这个压缩文件进行分卷,每个分卷大小为1g,最
阅读全文
posted @ 2017-01-06 13:59
ciade
阅读(899)
推荐(0)
摘要:
1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限 注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0.5.el6.noarch.rpm impala-kudu-2.7.0+cdh5.9.0+0-1.cd
阅读全文
posted @ 2016-12-26 10:15
ciade
阅读(4034)
推荐(0)
摘要:
1.默认安装好yum2.需以root身份安装3.安装ntp yum install ntp -y4.启动ntp /etc/init.d/ntpd start|stop|restart5.添加安装包yum源 [cloudera-kudu] # Packages for Cloudera's Distr
阅读全文
posted @ 2016-12-26 10:11
ciade
阅读(2426)
推荐(0)
摘要:
1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录
阅读全文
posted @ 2016-12-26 10:10
ciade
阅读(2724)
推荐(0)
摘要:
1.默认安装好zookeeper和scala2.下载安装包,解压 tar -zxvf kafka_2.11-0.9.0.1.tgz kafka_2.11-0.9.0.13.配置环境变量 vim /etc/profile #kafka export KAFKA_HOME=/opt/kafka_2.11
阅读全文
posted @ 2016-12-26 10:07
ciade
阅读(300)
推荐(0)
摘要:
1.如果是格式化成Json的話直接 val rdd = df.toJSON.rdd 2.如果要指定格式需要自定义函数如下: //格式化具体字段条目 def formatItem(p:(StructField,Any)):String={ p match { case (sf,a) => sf.dat
阅读全文
posted @ 2016-12-14 16:59
ciade
阅读(1592)
推荐(0)
摘要:
1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Dataset -> RDD val rdd = ds.rdd 4.Dataset -> DataFrame val df
阅读全文
posted @ 2016-12-14 15:12
ciade
阅读(7457)
推荐(0)
摘要:
步骤: 1.将多个JAR包使用压缩软件打开,并将全包名的类拷贝到一个临时目录地下. 2.cmd命令到该临时目录下,此时会有很多.class文件,其中需要带完整包路径 3.执行 jar -cvfM test.jar *.class . 其中 test.jar 为生成目标 jar包 *.class 为需
阅读全文
posted @ 2016-06-30 20:13
ciade
阅读(7165)
推荐(2)
摘要:
flume的特点: flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flume的数据流由事件(Event)贯穿始终。事
阅读全文
posted @ 2016-05-15 14:44
ciade
阅读(23471)
推荐(2)
摘要:
1.需要安装包 1.1 hadoop源码包(hadoop-2.5.2-src.tar.gz) 1.2 hadoop 2X插件(hadoop2x-eclipse-plugin-master.zip) 1.3 hadoop windows 工具(hadoop-common-2.2.0-bin-master.zip) 1.4 ANT编译工具(apache-ant-1.9.6.t...
阅读全文
posted @ 2016-04-11 20:36
ciade
阅读(550)
推荐(0)
posted @ 2016-03-14 14:03
ciade
阅读(257)
推荐(0)
摘要:
1 定义头和根元素 部署描述符文件就像所有XML文件一样,必须以一个XML头开始。这个头声明可以使用的XML版本并给出文件的字符编码。DOCYTPE声明必须立即出现在此头之后。这个声明告诉服务器适用的servlet规范的版本(如2.2或2.3)并指定管理此文件其余部分内容的语法的DTD(Document Type Definition,文档类型定义)。所有部署描述符文件的顶层(根)元素为...
阅读全文
posted @ 2016-03-14 10:35
ciade
阅读(1390)
推荐(0)
摘要:
Quartz定时调度框架CronTrigger时间配置格式说明 CronTrigger时间格式配置说明 CronTrigger配置格式: 格式: [秒] [分] [小时] [日] [月] [周] [年] 序号 说明 是否必填 允许填写的值 允许的通配符 1 秒 是 0-59, - * / 2 分 是
阅读全文
posted @ 2016-03-10 10:35
ciade
阅读(511)
推荐(0)
摘要:
Drools 函数学习 函数是定义在规则文件当中一代码块,作用是将在规则文件当中若干个规则都会用到的业务操作封装起来,实现业务代码的复用,减少规则编写的工作量。函数的编写位置可以是规则文件当中 package 声明后的任何地方具体语法如下: function void/Object function
阅读全文
posted @ 2016-03-02 14:17
ciade
阅读(1962)
推荐(0)
摘要:
Drools 查询学习查询以 query 关键字开始,以 end 关键字结束,在 package 当中一个查询要有唯一的名称,查询的内容就是查询的条件部分,条件部分内容的写法与规则的 LHS 部分写法完全相同。 1.无参数查询 代码语法如下: query "query name" #conditio
阅读全文
posted @ 2016-03-02 14:17
ciade
阅读(1554)
推荐(0)
摘要:
Drools 规则学习 在 Drools 当中,一个标准的规则文件就是一个以“.drl”结尾的文本文件,由于它是一个标准的文本文件,所以可以通过一些记事本工具对其进行打开、查看和编辑。规则是放在规则文件当中的,一个规则文件可以存放多个规则,除此之外,在规则文件当中还可以存放用户自定义的函数、数据对象
阅读全文
posted @ 2016-03-02 14:15
ciade
阅读(21106)
推荐(0)
摘要:
Drools API的使用学习在 Drools 当中,规则的编译与运行要通过 Drools 提供的各种 API 来实现,这些 API 总体来讲可以分为三类:规则编译、规则收集和规则的执行。完成这些工作的 API 主要有KnowledgeBuilder、KnowledgeBase、StatefulKn
阅读全文
posted @ 2016-03-02 14:14
ciade
阅读(11900)
推荐(2)
摘要:
1.下载相关安装包和开发插件 网站:http://www.jboss.org/drools/downloads.html 1.1 drools-distribution-6.3.0.Final.zip 1.2 droolsjbpm-tools-distribution-6.3.0.Final.zip
阅读全文
posted @ 2016-03-02 14:13
ciade
阅读(799)
推荐(1)
摘要:
1.尽量不在数据库中做运算 2.控制单表数据量 3.控制表身段苗条(字段数上限控制在20~50之间) 4.平衡范式和冗余 5.拒绝3B(大sql 大事务 大批量) 6.用好数值字段类型 7.尽可能将字符转换为数字 8.避免使用NULL字段 9.少用并拆分TEXT/BLOB 10.不在数据库中存图片
阅读全文
posted @ 2016-02-25 15:26
ciade
阅读(338)
推荐(0)
摘要:
安装zeppelin 1.默认安装好spark集群 2.安装zeppelin 1.解压安装包 tar zxvf zeppelin-0.5.5-incubating-bin-all.tgz 2.配置环境变量 vim /etc/profile #zeppelin export ZEPPELIN_HOME
阅读全文
posted @ 2016-02-25 09:03
ciade
阅读(636)
推荐(0)
摘要:
安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/profile #scala export SCALA_HOME=/opt/scala-2.11.7
阅读全文
posted @ 2016-02-01 10:37
ciade
阅读(535)
推荐(0)
摘要:
安装ganglia1.默认已经配置好相关的主机名和Ip地址映射关系2.默认已经安装好ssh密码登陆3.默认已经配置好yum源和相关网络配置(如hosts 可在墙外)4.服务器端安装(除了yum安装以外 其他操作均需以hadoop或者普通用户权限操作) 1.安装相关依赖包 yum -y...
阅读全文
posted @ 2016-01-27 09:35
ciade
阅读(823)
推荐(0)
摘要:
#放在目录下执行 1.bat 作用:将该目录下所有mp4格式的文件转移至该目录下的target目录下 须保证target目录不存在@echo offmd target\for /f "delims=" %%a in ('dir /a-d/b/s *.mp4') do move %%~fsa ta...
阅读全文
posted @ 2016-01-26 21:44
ciade
阅读(217)
推荐(0)
摘要:
安装maven编译环境1.默认已经装好yum并配置好yum源(推荐使用163yum源)2.安装JDK3.安装相关依赖环境(root用户登陆) yum install -y cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libt...
阅读全文
posted @ 2016-01-20 10:15
ciade
阅读(878)
推荐(0)
摘要:
安装HBase1.默认已经安装好java+hadoop+zookeeper2.下载对应版本的HBase3.解压安装包 tar zxvf hbase-1.0.2-bin.tar.gz4.配置环境变量(/etc/profile) #hbase export HBASE_HOME=/opt/h...
阅读全文
posted @ 2016-01-19 10:01
ciade
阅读(222)
推荐(0)
摘要:
安装sqoop1.默认已经安装好java+hadoop2.下载对应hadoop版本的sqoop版本3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz4.配置环境变量(/etc/profile) #sqoop exp...
阅读全文
posted @ 2016-01-19 09:58
ciade
阅读(157)
推荐(0)
摘要:
安装Hive(独立模式 使用mysql连接)1.默认安装了java+hadoop2.下载对应hadoop版本的安装包3.解压安装包 tar zxvf apache-hive-1.2.1-bin.tar.gz4.安装mysql yum -y install mysql-server mysql mys...
阅读全文
posted @ 2016-01-19 09:57
ciade
阅读(653)
推荐(0)
摘要:
安装hadoop+zookeeper ha前期工作配置好网络和主机名和关闭防火墙chkconfig iptables off //关闭防火墙1.安装好java并配置好相关变量 (/etc/profile)#javaexport JAVA_HOME=/usr/java/jdk1.8.0_65expor...
阅读全文
posted @ 2016-01-19 09:56
ciade
阅读(578)
推荐(0)
摘要:
package Create.e.Prototype;//原型业务类 需要实现克隆接口public class Dog implements Cloneable{ public int legCounts; public Dog(int legCounts){ this.legCounts = ...
阅读全文
posted @ 2016-01-03 14:55
ciade
阅读(196)
推荐(0)
摘要:
单例模式分为两种,懒汉式和饿汉式。区别在于创建实例的时机。饿汉式在该类加载时创建实例,懒汉式则在需要获取时才进行创建。package Create.f.Singleton;public class Singleton { private Singleton(){ } protected stat...
阅读全文
posted @ 2016-01-02 21:32
ciade
阅读(236)
推荐(0)
摘要:
package Create.d.Builder;//业务接口public interface Tax { void calcTax();} package Create.d.Builder;//业务接口public interface Salary { void calcSalary();} ...
阅读全文
posted @ 2016-01-02 21:20
ciade
阅读(212)
推荐(0)
摘要:
package Create.c.AbstractFactory;//业务接口public interface Salary { void calcSalary();} package Create.c.AbstractFactory;//业务接口public interface Tax { vo...
阅读全文
posted @ 2016-01-02 21:12
ciade
阅读(227)
推荐(0)
摘要:
package Create.b.FactoryMethod;//业务接口public interface Salary { void calcSalary();} package Create.b.FactoryMethod;//业务实现类public class HeBeiSalary imp...
阅读全文
posted @ 2016-01-02 20:30
ciade
阅读(196)
推荐(0)
摘要:
package Create.a.SimpleFactory;//业务接口public interface Salary { void calcSalary();} package Create.a.SimpleFactory;//业务实现类public class HeBeiSalary imp...
阅读全文
posted @ 2016-01-02 20:25
ciade
阅读(163)
推荐(0)
摘要:
package testHBase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumn...
阅读全文
posted @ 2015-12-20 20:27
ciade
阅读(241)
推荐(0)
摘要:
大数据第四天1.mongoDB数据库(NoSQL数据库) 1.1 安装(windows版本) a.下载链接 www.mongodb.org b.创建一个目录用于存放安装目录,解压安装包 c.创建一个目录用于存放数据 d.cd到安装目录 进入bin 执行 mongod.exe --dbpat...
阅读全文
posted @ 2015-12-05 20:48
ciade
阅读(463)
推荐(0)
摘要:
大数据第三天1.HBase————分布型数据库(NoSQL) 1.表 存储管理数据 2.行键 类似关系型数据库中的主键 HBase自带 一般为查询比较多的列 3.列族 列的集合 在定义表时指定的 4.时间戳 列的一个属性 如果不指定时间戳,默认取最新的数据 5.优点 1.海量数据秒级...
阅读全文
posted @ 2015-12-03 21:56
ciade
阅读(323)
推荐(0)
摘要:
Zookeeper操作注意搭建: 1.集群规模不小于3个节点 2.服务器之间系统时间要保持一致1.搭建步骤: 1.解压安装包 2.设置zookeeper环境变量 3.修改配置文件————zoo.cfg 修改dataDir=/usr/local/zk/data 新增server.0=hadoop0...
阅读全文
posted @ 2015-12-02 15:44
ciade
阅读(341)
推荐(0)
摘要:
MR操作————Map、Partitioner、Shuffle、Combiners、Reduce1.Map步骤 1.1 读取输入文件,解析成k-v对,其中每个k-v对调用一次map函数 1.2 写自己的逻辑,对输入的k-v进行处理,转换成新的k-v 1.3 对输出的k-v进行分区(Partition...
阅读全文
posted @ 2015-12-01 11:46
ciade
阅读(550)
推荐(0)
摘要:
HDFS操作1.shell 1.1 创建目录 hadoop fs -mkdir 目录名(其中/为根目录) 1.2 遍历目录 hadoop fs -ls 目录名 1.3 删除目录 hadoop fs -rmr 目录名 1.4 修改目录 hadoop fs -mv 原目录 目标目录 1....
阅读全文
posted @ 2015-11-30 13:41
ciade
阅读(314)
推荐(0)