摘要: hive基本操作命令: 阅读全文
posted @ 2018-07-03 19:00 半世风流 阅读(287) 评论(0) 推荐(0) 编辑
摘要: 前提:hadoop集群等全部安装配置完毕,该安装都是基于我之前的配置环境。hive只需要在一个节点安装即可。 1、apache-hive-2.1.1-bin.tar.gz扔到虚拟机/data上面,解压,配置环境 HIVE_HOME=/data/apache-hive-2.1.1-bin PATH=“ 阅读全文
posted @ 2018-07-03 13:05 半世风流 阅读(194) 评论(0) 推荐(0) 编辑
摘要: 容器:1.Collection(interface) a.Set((interface)):不允许重复 (1).HashSet:无序不重复 (2).TreeSet:有序不重复 b.List(interface):有序(元素存入顺序),可重复 (1).LinkedList:链表,线程不安全 (2).A 阅读全文
posted @ 2018-06-26 20:59 半世风流 阅读(363) 评论(0) 推荐(0) 编辑
摘要: hbase: 分布式面向列的数据库,构建在hadoop之上,对海量结构化数据的快速随机访问。是hadoop生态系统的一部分,提供随机实时读写。hbase和hadoop的区别: hdfs hbase 1.分布式文件系统,存储大量数据 数据库 2.不支持快读单个记录查找 支持大表的快速查找 3.提供了高 阅读全文
posted @ 2018-06-24 23:15 半世风流 阅读(98) 评论(0) 推荐(0) 编辑
摘要: 连接问题: 内连接:指连接结果仅包含符合连接条件的行,参与连接的两个表都应该符合连接条件。外连接:连接结果不仅包含符合连接条件的行同时也包含自身不符合条件的行。包括左外连接、右外连接和全外连接。左外连接:左边表数据行全部保留,右边表保留符合连接条件的行。右外连接:右边表数据行全部保留,左边表保留符合 阅读全文
posted @ 2018-06-22 09:47 半世风流 阅读(93) 评论(0) 推荐(0) 编辑
摘要: JVM是运行java字节码的虚拟机,包括一套字节码指令集、一组寄存器、一个栈、一个垃圾回收,堆和一个存储方法域。运行: java源文件-->编译器-->字节码文件 字节码文件-->JVM-->机器码 ,当一个程序从开始运行,这时虚拟机就开始实例化了,多个程序启动就会存在多个虚拟机实例。程序退出或者关 阅读全文
posted @ 2018-06-20 19:25 半世风流 阅读(217) 评论(0) 推荐(0) 编辑
摘要: hadoop三大核心技术: 1.HDFS分布式存储系统 2.MR分布式计算框架 3.Yarn资源调度 Hadoop的核心配置: Hadoop的核心配置通过两个xml完成。 hadoop-default.xml和hadoop-site.xml。 Hadoop现在拥有4个配置文件: 1.core-sit 阅读全文
posted @ 2018-06-20 11:36 半世风流 阅读(370) 评论(0) 推荐(0) 编辑
摘要: flume:是分布式、可靠、可用性好服务,用于收集、聚合、移动大量日志数据。是基于流计算的简单灵活框架,用于在线分析stream:动态计算 flume优点:1.可以和任意集中式存储进程集成2.输入的数据速率大于写入存储目的地的速度,flume会进行缓冲3.flume提供上下文路由(数据流路线)4.f 阅读全文
posted @ 2018-06-19 18:38 半世风流 阅读(1111) 评论(0) 推荐(0) 编辑
摘要: 基本组件: Zookeeper: 分布式协作框架 节点数目: 测试集群:3个 生产集群:(7个差不多) 小型集群:3个或者5个 中型集群:5个或者7个 大型集群:更多,奇数个 HDFS: 存储海量数据 YARN: 集群资源管理 资源调度 MapReduce: 并行计算框架 思想: 分而治之 集群大小:... 阅读全文
posted @ 2018-05-20 22:13 半世风流 阅读(2490) 评论(0) 推荐(0) 编辑
摘要: 1.chmod: chmod [who] [opt] [mode] 文件/目录名whou:表示文件所有者 g:表示同组用户 o:表示其它用户 a:表示所有用户 opt则是代表操作,可以为: +:添加某个权限 -:取消某个权限 =:赋予给定的权限,并取消原有的权限 而mode则代表权限: r:可读 w 阅读全文
posted @ 2018-05-20 21:12 半世风流 阅读(335) 评论(0) 推荐(0) 编辑