摘要: 1.压缩文件zip -r result.zip /data/*.* //将data这个目录下的所有文件进行压缩,并形成result.zip压缩文件2.分卷压缩文件zip -s 1g result.zip --out output //将result.zip这个压缩文件进行分卷,每个分卷大小为1g,最 阅读全文
posted @ 2017-01-06 13:59 ciade 阅读(862) 评论(0) 推荐(0) 编辑
摘要: 1.默认安装好hadoop并且能正常启动(只需hdfs即可)2.安装如下rpm包(需要root权限 注意顺序) bigtop-utils-0.7.0+cdh5.8.2+0-1.cdh5.8.2.p0.5.el6.noarch.rpm impala-kudu-2.7.0+cdh5.9.0+0-1.cd 阅读全文
posted @ 2016-12-26 10:15 ciade 阅读(3992) 评论(1) 推荐(0) 编辑
摘要: 1.默认安装好yum2.需以root身份安装3.安装ntp yum install ntp -y4.启动ntp /etc/init.d/ntpd start|stop|restart5.添加安装包yum源 [cloudera-kudu] # Packages for Cloudera's Distr 阅读全文
posted @ 2016-12-26 10:11 ciade 阅读(2388) 评论(1) 推荐(0) 编辑
摘要: 1.安装好flume2.安装好kafka3.安装好spark4.流程说明: 日志文件->flume->kafka->spark streaming flume输入:文件 flume输出:kafka的输入 kafka输出:spark 输入5.整合步骤: (1).将插件jar拷贝到flume的lib目录 阅读全文
posted @ 2016-12-26 10:10 ciade 阅读(2703) 评论(0) 推荐(0) 编辑
摘要: 1.默认安装好zookeeper和scala2.下载安装包,解压 tar -zxvf kafka_2.11-0.9.0.1.tgz kafka_2.11-0.9.0.13.配置环境变量 vim /etc/profile #kafka export KAFKA_HOME=/opt/kafka_2.11 阅读全文
posted @ 2016-12-26 10:07 ciade 阅读(294) 评论(0) 推荐(0) 编辑
摘要: 1.如果是格式化成Json的話直接 val rdd = df.toJSON.rdd 2.如果要指定格式需要自定义函数如下: //格式化具体字段条目 def formatItem(p:(StructField,Any)):String={ p match { case (sf,a) => sf.dat 阅读全文
posted @ 2016-12-14 16:59 ciade 阅读(1569) 评论(0) 推荐(0) 编辑
摘要: 1.RDD -> Dataset val ds = rdd.toDS() 2.RDD -> DataFrame val df = spark.read.json(rdd) 3.Dataset -> RDD val rdd = ds.rdd 4.Dataset -> DataFrame val df 阅读全文
posted @ 2016-12-14 15:12 ciade 阅读(7439) 评论(0) 推荐(0) 编辑
摘要: 步骤: 1.将多个JAR包使用压缩软件打开,并将全包名的类拷贝到一个临时目录地下. 2.cmd命令到该临时目录下,此时会有很多.class文件,其中需要带完整包路径 3.执行 jar -cvfM test.jar *.class . 其中 test.jar 为生成目标 jar包 *.class 为需 阅读全文
posted @ 2016-06-30 20:13 ciade 阅读(7046) 评论(0) 推荐(2) 编辑
摘要: flume的特点: flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(比如文本、HDFS、Hbase等)的能力 。 flume的数据流由事件(Event)贯穿始终。事 阅读全文
posted @ 2016-05-15 14:44 ciade 阅读(23319) 评论(0) 推荐(2) 编辑
摘要: 1.需要安装包 1.1 hadoop源码包(hadoop-2.5.2-src.tar.gz) 1.2 hadoop 2X插件(hadoop2x-eclipse-plugin-master.zip) 1.3 hadoop windows 工具(hadoop-common-2.2.0-bin-master.zip) 1.4 ANT编译工具(apache-ant-1.9.6.t... 阅读全文
posted @ 2016-04-11 20:36 ciade 阅读(538) 评论(0) 推荐(0) 编辑
摘要:   阅读全文
posted @ 2016-03-14 14:03 ciade 阅读(248) 评论(0) 推荐(0) 编辑
摘要: 1 定义头和根元素 部署描述符文件就像所有XML文件一样,必须以一个XML头开始。这个头声明可以使用的XML版本并给出文件的字符编码。DOCYTPE声明必须立即出现在此头之后。这个声明告诉服务器适用的servlet规范的版本(如2.2或2.3)并指定管理此文件其余部分内容的语法的DTD(Document Type Definition,文档类型定义)。所有部署描述符文件的顶层(根)元素为... 阅读全文
posted @ 2016-03-14 10:35 ciade 阅读(1353) 评论(0) 推荐(0) 编辑
摘要: Quartz定时调度框架CronTrigger时间配置格式说明 CronTrigger时间格式配置说明 CronTrigger配置格式: 格式: [秒] [分] [小时] [日] [月] [周] [年] 序号 说明 是否必填 允许填写的值 允许的通配符 1 秒 是 0-59, - * / 2 分 是 阅读全文
posted @ 2016-03-10 10:35 ciade 阅读(498) 评论(0) 推荐(0) 编辑
摘要: Drools 函数学习 函数是定义在规则文件当中一代码块,作用是将在规则文件当中若干个规则都会用到的业务操作封装起来,实现业务代码的复用,减少规则编写的工作量。函数的编写位置可以是规则文件当中 package 声明后的任何地方具体语法如下: function void/Object function 阅读全文
posted @ 2016-03-02 14:17 ciade 阅读(1938) 评论(0) 推荐(0) 编辑
摘要: Drools 查询学习查询以 query 关键字开始,以 end 关键字结束,在 package 当中一个查询要有唯一的名称,查询的内容就是查询的条件部分,条件部分内容的写法与规则的 LHS 部分写法完全相同。 1.无参数查询 代码语法如下: query "query name" #conditio 阅读全文
posted @ 2016-03-02 14:17 ciade 阅读(1528) 评论(0) 推荐(0) 编辑
摘要: Drools 规则学习 在 Drools 当中,一个标准的规则文件就是一个以“.drl”结尾的文本文件,由于它是一个标准的文本文件,所以可以通过一些记事本工具对其进行打开、查看和编辑。规则是放在规则文件当中的,一个规则文件可以存放多个规则,除此之外,在规则文件当中还可以存放用户自定义的函数、数据对象 阅读全文
posted @ 2016-03-02 14:15 ciade 阅读(20985) 评论(2) 推荐(0) 编辑
摘要: Drools API的使用学习在 Drools 当中,规则的编译与运行要通过 Drools 提供的各种 API 来实现,这些 API 总体来讲可以分为三类:规则编译、规则收集和规则的执行。完成这些工作的 API 主要有KnowledgeBuilder、KnowledgeBase、StatefulKn 阅读全文
posted @ 2016-03-02 14:14 ciade 阅读(11760) 评论(1) 推荐(2) 编辑
摘要: 1.下载相关安装包和开发插件 网站:http://www.jboss.org/drools/downloads.html 1.1 drools-distribution-6.3.0.Final.zip 1.2 droolsjbpm-tools-distribution-6.3.0.Final.zip 阅读全文
posted @ 2016-03-02 14:13 ciade 阅读(784) 评论(0) 推荐(1) 编辑
摘要: 1.尽量不在数据库中做运算 2.控制单表数据量 3.控制表身段苗条(字段数上限控制在20~50之间) 4.平衡范式和冗余 5.拒绝3B(大sql 大事务 大批量) 6.用好数值字段类型 7.尽可能将字符转换为数字 8.避免使用NULL字段 9.少用并拆分TEXT/BLOB 10.不在数据库中存图片 阅读全文
posted @ 2016-02-25 15:26 ciade 阅读(322) 评论(0) 推荐(0) 编辑
摘要: 安装zeppelin 1.默认安装好spark集群 2.安装zeppelin 1.解压安装包 tar zxvf zeppelin-0.5.5-incubating-bin-all.tgz 2.配置环境变量 vim /etc/profile #zeppelin export ZEPPELIN_HOME 阅读全文
posted @ 2016-02-25 09:03 ciade 阅读(625) 评论(0) 推荐(0) 编辑
摘要: 安装spark ha集群 1.默认安装好hadoop+zookeeper 2.安装scala 1.解压安装包 tar zxvf scala-2.11.7.tgz 2.配置环境变量 vim /etc/profile #scala export SCALA_HOME=/opt/scala-2.11.7 阅读全文
posted @ 2016-02-01 10:37 ciade 阅读(523) 评论(0) 推荐(0) 编辑
摘要: 安装ganglia1.默认已经配置好相关的主机名和Ip地址映射关系2.默认已经安装好ssh密码登陆3.默认已经配置好yum源和相关网络配置(如hosts 可在墙外)4.服务器端安装(除了yum安装以外 其他操作均需以hadoop或者普通用户权限操作) 1.安装相关依赖包 yum -y... 阅读全文
posted @ 2016-01-27 09:35 ciade 阅读(806) 评论(0) 推荐(0) 编辑
摘要: #放在目录下执行 1.bat 作用:将该目录下所有mp4格式的文件转移至该目录下的target目录下 须保证target目录不存在@echo offmd target\for /f "delims=" %%a in ('dir /a-d/b/s *.mp4') do move %%~fsa ta... 阅读全文
posted @ 2016-01-26 21:44 ciade 阅读(198) 评论(0) 推荐(0) 编辑
摘要: 安装maven编译环境1.默认已经装好yum并配置好yum源(推荐使用163yum源)2.安装JDK3.安装相关依赖环境(root用户登陆) yum install -y cmake lzo-devel zlib-devel gcc gcc-c++ autoconf automake libt... 阅读全文
posted @ 2016-01-20 10:15 ciade 阅读(872) 评论(0) 推荐(0) 编辑
摘要: 安装HBase1.默认已经安装好java+hadoop+zookeeper2.下载对应版本的HBase3.解压安装包 tar zxvf hbase-1.0.2-bin.tar.gz4.配置环境变量(/etc/profile) #hbase export HBASE_HOME=/opt/h... 阅读全文
posted @ 2016-01-19 10:01 ciade 阅读(215) 评论(0) 推荐(0) 编辑
摘要: 安装sqoop1.默认已经安装好java+hadoop2.下载对应hadoop版本的sqoop版本3.解压安装包 tar zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz4.配置环境变量(/etc/profile) #sqoop exp... 阅读全文
posted @ 2016-01-19 09:58 ciade 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 安装Hive(独立模式 使用mysql连接)1.默认安装了java+hadoop2.下载对应hadoop版本的安装包3.解压安装包 tar zxvf apache-hive-1.2.1-bin.tar.gz4.安装mysql yum -y install mysql-server mysql mys... 阅读全文
posted @ 2016-01-19 09:57 ciade 阅读(636) 评论(0) 推荐(0) 编辑
摘要: 安装hadoop+zookeeper ha前期工作配置好网络和主机名和关闭防火墙chkconfig iptables off //关闭防火墙1.安装好java并配置好相关变量 (/etc/profile)#javaexport JAVA_HOME=/usr/java/jdk1.8.0_65expor... 阅读全文
posted @ 2016-01-19 09:56 ciade 阅读(567) 评论(0) 推荐(0) 编辑
摘要: package Create.e.Prototype;//原型业务类 需要实现克隆接口public class Dog implements Cloneable{ public int legCounts; public Dog(int legCounts){ this.legCounts = ... 阅读全文
posted @ 2016-01-03 14:55 ciade 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 单例模式分为两种,懒汉式和饿汉式。区别在于创建实例的时机。饿汉式在该类加载时创建实例,懒汉式则在需要获取时才进行创建。package Create.f.Singleton;public class Singleton { private Singleton(){ } protected stat... 阅读全文
posted @ 2016-01-02 21:32 ciade 阅读(227) 评论(0) 推荐(0) 编辑
摘要: package Create.d.Builder;//业务接口public interface Tax { void calcTax();} package Create.d.Builder;//业务接口public interface Salary { void calcSalary();} ... 阅读全文
posted @ 2016-01-02 21:20 ciade 阅读(209) 评论(0) 推荐(0) 编辑
摘要: package Create.c.AbstractFactory;//业务接口public interface Salary { void calcSalary();} package Create.c.AbstractFactory;//业务接口public interface Tax { vo... 阅读全文
posted @ 2016-01-02 21:12 ciade 阅读(219) 评论(0) 推荐(0) 编辑
摘要: package Create.b.FactoryMethod;//业务接口public interface Salary { void calcSalary();} package Create.b.FactoryMethod;//业务实现类public class HeBeiSalary imp... 阅读全文
posted @ 2016-01-02 20:30 ciade 阅读(188) 评论(0) 推荐(0) 编辑
摘要: package Create.a.SimpleFactory;//业务接口public interface Salary { void calcSalary();} package Create.a.SimpleFactory;//业务实现类public class HeBeiSalary imp... 阅读全文
posted @ 2016-01-02 20:25 ciade 阅读(156) 评论(0) 推荐(0) 编辑
摘要: package testHBase;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.HColumn... 阅读全文
posted @ 2015-12-20 20:27 ciade 阅读(236) 评论(0) 推荐(0) 编辑
摘要: 大数据第四天1.mongoDB数据库(NoSQL数据库) 1.1 安装(windows版本) a.下载链接 www.mongodb.org b.创建一个目录用于存放安装目录,解压安装包 c.创建一个目录用于存放数据 d.cd到安装目录 进入bin 执行 mongod.exe --dbpat... 阅读全文
posted @ 2015-12-05 20:48 ciade 阅读(455) 评论(0) 推荐(0) 编辑
摘要: 大数据第三天1.HBase————分布型数据库(NoSQL) 1.表 存储管理数据 2.行键 类似关系型数据库中的主键 HBase自带 一般为查询比较多的列 3.列族 列的集合 在定义表时指定的 4.时间戳 列的一个属性 如果不指定时间戳,默认取最新的数据 5.优点 1.海量数据秒级... 阅读全文
posted @ 2015-12-03 21:56 ciade 阅读(317) 评论(0) 推荐(0) 编辑
摘要: Zookeeper操作注意搭建: 1.集群规模不小于3个节点 2.服务器之间系统时间要保持一致1.搭建步骤: 1.解压安装包 2.设置zookeeper环境变量 3.修改配置文件————zoo.cfg 修改dataDir=/usr/local/zk/data 新增server.0=hadoop0... 阅读全文
posted @ 2015-12-02 15:44 ciade 阅读(327) 评论(0) 推荐(0) 编辑
摘要: MR操作————Map、Partitioner、Shuffle、Combiners、Reduce1.Map步骤 1.1 读取输入文件,解析成k-v对,其中每个k-v对调用一次map函数 1.2 写自己的逻辑,对输入的k-v进行处理,转换成新的k-v 1.3 对输出的k-v进行分区(Partition... 阅读全文
posted @ 2015-12-01 11:46 ciade 阅读(528) 评论(0) 推荐(0) 编辑
摘要: HDFS操作1.shell 1.1 创建目录 hadoop fs -mkdir 目录名(其中/为根目录) 1.2 遍历目录 hadoop fs -ls 目录名 1.3 删除目录 hadoop fs -rmr 目录名 1.4 修改目录 hadoop fs -mv 原目录 目标目录 1.... 阅读全文
posted @ 2015-11-30 13:41 ciade 阅读(304) 评论(0) 推荐(0) 编辑