摘要:
配置ntp服务(hadoop搭建可参考) 一:修改选定的服务器的本地时间 date -s '2016-10-07 16:29:30' +'%F %T' //需要设置的时间 二:修改后将时间写入到硬件时钟,确保重启有效 hwclock -w 三:安装并开启ntp服务 四:开启自动开启ntp服务开机启) 阅读全文
posted @ 2016-12-26 19:40
卖臭豆腐喽
阅读(294)
评论(0)
推荐(0)
摘要:
hive提供一种复合类型的数据 struct:可以使用“.”来存取数据 map:可以使用键值对来存取数据 array:array中存取的数据为相同类型,其中的数据可以通过下表获取数据 创建 struct类型 create table student_struct(id INT, info struc 阅读全文
posted @ 2016-12-26 19:09
卖臭豆腐喽
阅读(1758)
评论(0)
推荐(0)
摘要:
索引是hive0.7之后才有的功能,创建索引需要评估其合理性,因为创建索引也是要磁盘空间,维护起来也是需要代价的 创建索引 hive> create index [index_studentid] on table student_3(studentid) > as 'org.apache.hado 阅读全文
posted @ 2016-12-26 19:07
卖臭豆腐喽
阅读(13860)
评论(3)
推荐(2)
摘要:
hive有三种导出数据的方式 》导出数据到本地 》导出数据到hdfs 》导出数据到另一个表 》导出数据到本地 》导出数据到hdfs 》导出数据到另一个表 》导出数据到本地 》导出数据到hdfs 》导出数据到另一个表 》导出数据到本地 》导出数据到hdfs 》导出数据到另一个表 导出数据到本地文件系统 阅读全文
posted @ 2016-12-26 19:06
卖臭豆腐喽
阅读(623)
评论(0)
推荐(0)
摘要:
创建项目,添加jar包,hive的s上,所以也需要hadoop的一些jar 这个图片是从网上找的,我直接使用的以前hadoop的项目 创建测试类,写测试代码 //获取jdbc链接 private static Connection getConnection(){ Connection conn=n 阅读全文
posted @ 2016-12-26 19:03
卖臭豆腐喽
阅读(2580)
评论(0)
推荐(0)
摘要:
1:如果在将文件导入到hive表时,查询结果为null(下图) 这个是因为在创建表的时候没有指定列分隔符,hive的默认分隔符是ctrl+a(/u0001) 2.当我复制好几行sql到hive命令行时,会出现下面情况,导致复制失败 这个是因为我的sql中有tab的缩进,将tab的空格去掉即可 3.当 阅读全文
posted @ 2016-12-26 18:58
卖臭豆腐喽
阅读(6503)
评论(0)
推荐(0)
摘要:
mdl是数据操作类的语言,包括向数据表加载文件,写查询结果等操作 hive有四种导入数据的方式 》从本地加载数据 LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE [tableName]; 》从hdfs上加载 阅读全文
posted @ 2016-12-26 18:54
卖臭豆腐喽
阅读(499)
评论(0)
推荐(0)
摘要:
hive的数据查询一般会扫描整个表,当表数据太大时,就会消耗些时间,有时候我们只需要对部分数据感兴趣,所以hive引入了分区的概念 hive的表分区区别于一般的分布式分区(hash分区,范围分区,一致性分区),hive的分区是比较简单的。他是根据hive的表结构,分区的字段设置将数据按目录存放起来, 阅读全文
posted @ 2016-12-26 18:48
卖臭豆腐喽
阅读(4756)
评论(0)
推荐(0)
摘要:
创建表 CREATE TABLE if not exists student ( student_id int, sex int, address String, email String ) 这里需要注意的是,虽然hiveSL类似sql语言,但是他们有很多需要注意的地方,不能直接使用符号,比如“' 阅读全文
posted @ 2016-12-26 18:43
卖臭豆腐喽
阅读(4652)
评论(0)
推荐(0)
摘要:
这里是使用mysql作为hive的元数据存储所以要先启动mysql的服务,MySQL的安装可以参考下面连接 MySQL安装:http://www.cnblogs.com/zhangXingSheng/p/6941422.html 下载hive(http://mirrors.cnnic.cn/apac 阅读全文
posted @ 2016-12-26 18:36
卖臭豆腐喽
阅读(2740)
评论(0)
推荐(0)
摘要:
Hive是hadoop一个重要的子项目,它利用的是mapreduce的编程技术,实现了部分sql语句,提供类sql的编程接口。 hive是一个基于hadoop文件系统之上的数据仓库架构架构,他为数据仓库的管理提供了很多功能:etl(转换,抽取,加载)工具,数据存储管理和大型数据集的查询和分析功能。他 阅读全文
posted @ 2016-12-26 16:21
卖臭豆腐喽
阅读(266)
评论(0)
推荐(0)
摘要:
mapreduce 2 思想架构 mr2解决了mr1的jobTracker的单点颈瓶问题,这个问题会影响hadoop的扩展性,集群的可靠性,mr1中jobTracker负责集群作业的分发,管理,调度,同时还必须和集群中所有的节点保持通信,了解集群的资源情况和运行的状态,所以jobTracker就负担 阅读全文
posted @ 2016-12-26 15:48
卖臭豆腐喽
阅读(1257)
评论(0)
推荐(1)
摘要:
文件系统的一致性和应用程序的方法有关,如果不调用sync(),就需要做好因为客户端异常或者服务端故障而缺失部分数据。缺失数据这对应用来说是不可接受的。所以需要在合适的地方调用sync(),比如在写入一定量的数据后,尽管sync()用来最大限度的减轻hdfs的负担,但是他仍有不可忽视的开销。所以你需要 阅读全文
posted @ 2016-12-26 15:46
卖臭豆腐喽
阅读(264)
评论(0)
推荐(0)
摘要:
hdfs的读: 首先客户端通过调用fileSystem对象中的open()函数读取他需要的的数据,fileSystem是DistributedFileSystem的一个实例, DistributedFileSystem会通过rpc协议和nameNode通信,来确定请求文件块所在的位置。对于每个返回的 阅读全文
posted @ 2016-12-26 15:45
卖臭豆腐喽
阅读(791)
评论(0)
推荐(0)
摘要:
我们常说的分布式系统,其实就是分布式软件系统,支持分布式处理的软件系统。他是在通信网络互联的多处理机体系结构上执行任务。 hadoop是分布式软件系统中文件系统层的软件,他实现了分布式文件系统和部分分布式数据库系统。hadoop中的分布式文件系统hdfs可以实现数据在计算机集群组成的云上,高效的存储 阅读全文
posted @ 2016-12-26 15:43
卖臭豆腐喽
阅读(268)
评论(0)
推荐(0)
摘要:
一:在官网下载相应的版本http://www.scala-lang.org/download/2.10.6.html 二,在linux中解压下载下来的scala包 三:配置环境变量 export SCALA_HOME=/usr/local/development/scala-2.12.0 expor 阅读全文
posted @ 2016-12-26 15:01
卖臭豆腐喽
阅读(169)
评论(0)
推荐(0)
摘要:
一,在官网下载对应的版本http://spark.apache.org/downloads.html 二在linux中解压下来的spark包 三:配置环境变量 (1)在/etc/profile文件添加如下 export SPARK_HOME=/usr/local/development/spark- 阅读全文
posted @ 2016-12-26 14:44
卖臭豆腐喽
阅读(687)
评论(0)
推荐(0)
摘要:
MyBatis 采用功能强大的基于 OGNL 的表达式来消除其他元素。 if choose(when,otherwise) trim(where,set) foreach 例子(2): <select id=”findActiveBlogLike” parameterType=”Blog” 阅读全文
posted @ 2016-12-26 14:34
卖臭豆腐喽
阅读(263)
评论(0)
推荐(0)
摘要:
<cache/>字面上看就是这样。这个简单语句的效果如下: 映射语句文件中的所有 select 语句将会被缓存。 映射语句文件中的所有 insert, update 和 delete 语句会刷新缓存。 缓存会使用 Least Recently Used( LRU,最近最少使用的)算法来收回。 阅读全文
posted @ 2016-12-26 14:29
卖臭豆腐喽
阅读(1584)
评论(0)
推荐(0)
摘要:
有一个的关系 在嵌套结果映射中 id 元素扮演了非常重要的角色。 应该通常指定一个或多个属性,它们可以用来唯一标识结果。实际上就是如果你不使用它( id 元素),但是会产生一个严重的性能问题, id:来唯一标识结果 column :表中字段的名称 property:bean属性的名称 <result 阅读全文
posted @ 2016-12-26 14:23
卖臭豆腐喽
阅读(394)
评论(0)
推荐(0)

浙公网安备 33010602011771号