随笔分类 -  大数据开发

大数据开发中的一些知识点积累
摘要:oozie已经用了一段时间,但是只用到coordinator级别,还没用过bundle,今天研究了一下,也可以参考oozie手册学习一下,地址:http://cs-achelous-client-15793.hadoop.jd.com:11000/oozie/docs/BundleFunctiona 阅读全文
posted @ 2016-06-02 18:54 风儿飞 阅读(1320) 评论(0) 推荐(0)
摘要:HDFS:1、分布式文件系统:管理网络中跨多台计算机存储的文件系统2、hadoop定义了一个抽象文件系统概念,具体就是一个java抽象类:org.apache.hadoop.fs.FileSystm,只要某个文件系统实现了该接口,就可以作为hadoop支持的文件系统3、数据块:hdfs中默认存储是6... 阅读全文
posted @ 2015-10-08 13:29 风儿飞 阅读(162) 评论(0) 推荐(0)
摘要:1、hive数据类型:基本数据类型:tinyint、smallint、int、bigint、float、double、boolean、string复合数据类型:array:一段有序字段,字段的类型必须相同map:一组无序的健/值对,健的类型必须是原子类型struct:一组命名的字段,类型可以不同复杂... 阅读全文
posted @ 2015-10-03 17:29 风儿飞 阅读(648) 评论(0) 推荐(0)
摘要:1、hive:建立在Hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供了简单的类SQL查询语言,称为QL,允许用户开发自定义的mapper、reducer来处理复杂的分析工作,十分适合数据仓库的统计分析。2、Hive架构包括如下组件:CLI、JDBC、Thrift Ser... 阅读全文
posted @ 2015-10-02 19:09 风儿飞 阅读(2414) 评论(0) 推荐(0)
摘要:1、Storm;开源分布式实时处理框架,具有高容错性,保证每个信息都会得到处理,可以使用任何编程语言开发应用。2、Storm集群中真正运行拓扑图的有3个实体:工作进程、线程、任务。每个进程可创建多个线程,每个线程可执行多个任务,任务是真正进行数据处理的实体,spout、bolt就是作为一个或多个任务... 阅读全文
posted @ 2015-09-18 16:03 风儿飞 阅读(259) 评论(0) 推荐(0)