03 2015 档案

摘要:1.测试Hbase(1)hive导入hbase 阅读全文
posted @ 2015-03-28 22:55 晋心 阅读(193) 评论(0) 推荐(0)
摘要:1.桥接模式2.NAT模式3.Host-Only模式1.桥接模式vim /etc/udev/rules.d/70-persistent-net.rules与/etc/sysconfig/network-scripts/ifcfg-eth0保持一致2.NAT模式3.Host-Only模式 阅读全文
posted @ 2015-03-27 16:27 晋心 阅读(550) 评论(0) 推荐(0)
摘要:问题一:The type java.lang.Object cannot be resolved.解决办法:当你在Eclipse引用不同版本JDK工程时会发生该问题。由于你开发环境中应用了多个版本的JDK 或JRE导致的。Eclipse会按照最初的开发环境默认选择对应的Jre。如Eclipse上有j... 阅读全文
posted @ 2015-03-25 17:25 晋心 阅读(275) 评论(0) 推荐(0)
摘要:1.order by优化2.group by优化3.Dinstinct 优化1.order by优化实现方式:1. 根据索引字段排序,利用索引取出的数据已经是排好序的,直接返回给客户端;2. 没有用到索引,将取出的数据进行一次排序操作后返回给客户端。EXPLAIN SELECT m.id,m.sub... 阅读全文
posted @ 2015-03-22 11:15 晋心 阅读(5083) 评论(0) 推荐(0)
摘要:Dijkstra算法算法思想:设G=(V,E)是一个带权有向图,把图中顶点集合V分成两组,第一组为已求出最短路径的顶点集合(用S表示,初始时S中只有一个源点,以后每求得一条最短路径 , 就将加入到集合S中,直到全部顶点都加入到S中,算法就结束了),第二组为其余未确定最短路径的顶点集合(用U表示),按... 阅读全文
posted @ 2015-03-19 16:34 晋心 阅读(149) 评论(0) 推荐(0)
摘要:一、TCP的流量控制1、利用滑动窗口实现流量控制 如果发送方把数据发送得过快,接收方可能会来不及接收,这就会造成数据的丢失。所谓流量控制就是让发送方的发送速率不要太快,要让接收方来得及接收。 利用滑动窗口机制可以很方便地在TCP连接上实现对发送方的流量控制。 设A向B发送数据。在连接建立时,B... 阅读全文
posted @ 2015-03-19 12:31 晋心 阅读(408) 评论(0) 推荐(0)
摘要:没想到,在我的hadoop2.2.0小集群上上安装传说中的Spark竟然如此顺利,可能是因为和搭建Hadoop时比较像,更多需要学习的地方还是scala编程和RDD机制吧总之,开个好头原来的集群:全源码安装,包括hadoop2.2.0 hive0.13.0 hbase-0.96.2-hadoop2 ... 阅读全文
posted @ 2015-03-17 19:25 晋心 阅读(3720) 评论(0) 推荐(0)
摘要:1.VNC远程连接linux图形化桌面2.SSH Secure Shell Client连接linux终端3.设置FTP与linux传输文件1.VNC远程连接linux图形化桌面在centos下运行:yum -y instll vnc vnc-server运行完后,rpm -q vncserver ... 阅读全文
posted @ 2015-03-17 17:31 晋心 阅读(875) 评论(0) 推荐(0)
摘要:Hama是基于HDFS上的BSP模型实现。Apache Hame是GooglePregel的开源实现 Pregel是Google提出的一个面向大规模图计算的通用编程模型。许多实际应用中都涉及到大型的图算法,典型的如网页链接关系、社交关系、地理位置图、科研论文中的引用关系等,有的图规模可达数十亿的顶... 阅读全文
posted @ 2015-03-12 19:23 晋心 阅读(512) 评论(0) 推荐(0)
摘要:Hbase在生态系统中的位置Hbase存储的逻辑视图Hbase的存储格式Hbase写数据流程Hbase快速响应数据Hbase在生态系统中的位置 HBase位于结构化存储层,Hadoop HDFS为HBase提供了高可靠性的底层存储支持,Hadoop MapReduce为HBase提供了高性能的计算... 阅读全文
posted @ 2015-03-11 20:51 晋心 阅读(8439) 评论(0) 推荐(0)
摘要:Hbase索引表的结构Hbase Rowkey 设计Hbase FilterHbase二级索引Hbase索引表的结构 在HBase中,表格的Rowkey按照字典排序,Region按照RowKey设置split point进行shard,通过这种方式实现的全局、分布式索引,成为了其成功的最大的砝码 ... 阅读全文
posted @ 2015-03-10 22:50 晋心 阅读(48309) 评论(1) 推荐(1)
摘要:索引整合事务整合存储过程整合数据库范式1.什么是事务:事务是一个不可分割的工作逻辑单元,在数据库系统上执行并发操作时事务是做为最小的控制单元来使用的。他包含的所有数据库操作命令作为一个整体一起向系提交或撤消,这一组数据库操作命令要么都执行,要么都不执行。2.事务的语句开始事物:BEGIN TRANS... 阅读全文
posted @ 2015-03-10 11:18 晋心 阅读(492) 评论(0) 推荐(0)
摘要:1. 插入排序 原理:遍历到第N个元素的时候前面的N-1个元素已经是排序好的了,那么就查找前面的N-1个元素把这第N个元素放在合适的位置,如此下去直到遍历完序列的元素为止。 算法的复杂度也是简单的,排序第一个需要1的复杂度,排序第二个需要2的复杂度,因此整个的复杂度就是 1 + 2 + 3 +... 阅读全文
posted @ 2015-03-09 17:33 晋心 阅读(385) 评论(0) 推荐(0)
摘要:为何出现死循环简要说明HashMap闭环的详细原因cocurrentHashMap的底层机制为何出现死循环简要说明 HashMap是非线程安全的,在并发场景中如果不保持足够的同步,就有可能在执行HashMap.get时进入死循环,将CPU的消耗到100%。 HashMap采用链表解决Hash冲突... 阅读全文
posted @ 2015-03-09 16:31 晋心 阅读(14086) 评论(1) 推荐(7)
摘要:1.程序、进程、线程的区别2. 线程的状态与生命周期3.线程的调度与优先级4.实现多线程的两种方法5.如何实现线程同步(同步和互斥的区别)6.如何实现线程之间协作(生产者-消费者模式)7.守护线程8.线程的常用方法9.什么是线程池10.死锁,如何避免11. 高级同步机制(比synchronized更... 阅读全文
posted @ 2015-03-09 14:11 晋心 阅读(1520) 评论(0) 推荐(2)
摘要:1.java的垃圾回收过程2.JAVA垃圾回收机制的特点3.GC是什么? 为什么要有GC?4.垃圾回收的优点和原理。并考虑2种回收机制。5.垃圾回收器的基本原理是什么?垃圾回收器可以马上回收内存吗?有什么办法主动通知虚拟机进行垃圾回收?1.java的垃圾回收过程使用根搜索算法(GC Roots Tr... 阅读全文
posted @ 2015-03-08 23:04 晋心 阅读(1026) 评论(0) 推荐(0)
摘要:/** * 运行shell脚本 * @param shell 需要运行的shell脚本 */ public static void execShell(String shell){ try { Runtime rt = Runtime.getRuntime(); rt.exec(sh... 阅读全文
posted @ 2015-03-06 21:57 晋心 阅读(5234) 评论(0) 推荐(1)
摘要:#创建表人信息表person(String name,int age)hive> create table person(name STRING,age INT)ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ESCAPED BY '\\' STORED... 阅读全文
posted @ 2015-03-06 21:03 晋心 阅读(7857) 评论(0) 推荐(0)
摘要:生产者消费者问题,也称有限缓冲问题,是一个多线程同步问题的经典案例。 该问题描述了两个共享固定大小缓冲区的线程——即所谓的“生产者”和“消费者”——在实际运行时会发生的问题。生产者的主要作用是生成一定量的数据放到缓冲区中,然后重复此过程。 与此同时,消费者也在缓冲区消耗这些数据。该问题的关键就是... 阅读全文
posted @ 2015-03-06 18:26 晋心 阅读(368) 评论(0) 推荐(0)
摘要:1. getClass() 返回此 Object 的运行时类。2. hashCode() 返回该对象的哈希码值。 3. equals() 指示其他某个对象是否与此对象“相等”。4. toString() 返回该对象的字符串表示。 5. clone() 创建并返回此对象的一个副本。6. wa... 阅读全文
posted @ 2015-03-06 14:21 晋心 阅读(223) 评论(0) 推荐(0)
摘要:1、Collection 和 Map 的区别容器内每个为之所存储的元素个数不同。Collection类型者,每个位置只有一个元素。List,SetMap类型者,持有 key-value pair,像个小型数据库。2、各自旗下的子类关系Collection --List: 将以特定次序存储元素。所以取... 阅读全文
posted @ 2015-03-06 14:07 晋心 阅读(240) 评论(0) 推荐(0)
摘要:设计模式(Design Patterns) ——可复用面向对象软件的基础设计模式(Design pattern)是一套被反复使用、多数人知晓的、经过分类编目的、代码设计经验的总结。使用设计模式是为了可重用代码、让代码更容易被他人理解、保证代码可靠性。 毫无疑问,设计模式于己于他人于系统都是多赢的,... 阅读全文
posted @ 2015-03-06 13:47 晋心 阅读(294) 评论(0) 推荐(0)
摘要:第一:GC是什么? 为什么要有GC?第二:垃圾回收的优点和原理。并考虑2种回收机制。第三:垃圾回收器的基本原理是什么?垃圾回收器可以马上回收内存吗?有什么办法主动通知虚拟机进行垃圾回收?第四:JAVA语言如何进行异常处理第五:java中会存在内存泄漏吗?请简单描述。第六:java中实现多态的机制第七... 阅读全文
posted @ 2015-03-05 22:29 晋心 阅读(394) 评论(0) 推荐(0)
摘要:1.为什么在数据库中要用B树索引而不是Hash索引? MysqlHash索引结构的特殊性,其检索效率非常高,索引的检索可以一次定位,不像B-Tree 索引需要从根节点到枝节点,最后才能访问到页节点这样多次的IO访问,所以 Hash 索引的查询效率要远高于 B-Tree 索引。 但 Hash 索引... 阅读全文
posted @ 2015-03-05 21:41 晋心 阅读(702) 评论(0) 推荐(0)
摘要:将这种单机的工作进行分拆,变成协同工作的集群,这就是分布式计算框架设计。使得计算机硬件类似于应用程序中资源池的资源,使用者无需关心资源的分配情况,从而最大化了硬件资源的使用价值。分布式计算也是如此,具体的计算任务交由哪一台机器执行,执行后由谁来汇总,这都由分布式框架的Master来抉择,而使用者... 阅读全文
posted @ 2015-03-05 21:14 晋心 阅读(292) 评论(0) 推荐(0)
摘要:为什幺要压缩?压缩会提高计算速度?这是因为mapreduce计算会将数据文件分散拷贝到所有datanode上,压缩可以减少数据浪费在带宽上的时间,当这些时间大于压缩/解压缩本身的时间时,计算速度就会提高了。 hadoop的压缩除了将输入文件进行压缩外,hadoop本身还可以在计算过程中将map输出以... 阅读全文
posted @ 2015-03-05 21:01 晋心 阅读(146) 评论(0) 推荐(0)
摘要:倾斜的原因: 使map的输出数据更均匀的分布到reduce中去,是我们的最终目标。由于Hash算法的局限性,按key Hash会或多或少的造成数据倾斜。大量经验表明数据倾斜的原因是人为的建表疏忽或业务逻辑可以规避的。解决思路: Hive的执行是分阶段的,map处理数据量的差异取决于上一个stag... 阅读全文
posted @ 2015-03-05 19:25 晋心 阅读(1911) 评论(0) 推荐(0)
摘要:二. SQL语言的分类SQL语言共分为四大类:数据查询语言DQL,数据操纵语言DML,数据定义语言DDL,数据控制语言DCL。1. 数据查询语言DQL数据查询语言DQL基本结构是由SELECT子句,FROM子句,WHERE子句组成的查询块:SELECT FROM WHERE 2 .数据操纵语言DML... 阅读全文
posted @ 2015-03-05 18:58 晋心 阅读(712) 评论(0) 推荐(0)
摘要:hash code、equals和“==”三者的关系 1) 对象相等则hashCode一定相等; 2) hashCode相等对象未必相等。== 是比较地址是否相等,JAVA中声明变量都是引用嘛,不同的引用,可能指向同一个地址。equals 是比较值是否相等。1.如果是基本变量,没有hashcod... 阅读全文
posted @ 2015-03-05 17:21 晋心 阅读(1545) 评论(0) 推荐(0)
摘要:HashMap 和 HashSet 是 Java Collection Framework 的两个重要成员,其中 HashMap 是 Map 接口的常用实现类,HashSet 是 Set 接口的常用实现类。虽然 HashMap 和 HashSet 实现的接口规范不同,但它们底层的 Hash 存储机制... 阅读全文
posted @ 2015-03-05 17:20 晋心 阅读(312) 评论(0) 推荐(0)
摘要:SMB 存在的目的主要是为了解决大表与大表间的 Join 问题,分桶其实就是把大表化成了“小表”,然后 Map-Side Join 解决之,这是典型的分而治之的思想。在聊 SMB Join 之前,我们还是先复习下相关的基础概念。1、Hive 分区表在Hive Select查询中一般会扫描整个表内容,... 阅读全文
posted @ 2015-03-05 16:05 晋心 阅读(1769) 评论(0) 推荐(0)
摘要:String是一个类,也可以表示字符串数据类型String:是对象不是原始类型.为不可变对象,一旦被创建,就不能修改它的值.对于已经存在的String对象的修改都是重新创建一个新的对象,然后把新的值保存进去.String 是final类,即不能被继承.作为参数传递时,只是复制了一份引用string ... 阅读全文
posted @ 2015-03-05 11:09 晋心 阅读(2742) 评论(0) 推荐(0)
摘要:ava的线程机制,有两类线程:User Thread(用户线程)、Daemon Thread(守护线程) 。 操作系统里面是没有守护线程的概念,只有守护进程,但是Java语言机制是构建在JVM的基础之上的,意思是Java平台把操作系统的底层给屏蔽起来,而守护线程机制又是对JVM这样的平台凑合,于... 阅读全文
posted @ 2015-03-05 10:41 晋心 阅读(3661) 评论(0) 推荐(0)
摘要:在Ambari配置过程中,组件的定制与分配很重要 阅读全文
posted @ 2015-03-04 17:39 晋心 阅读(169) 评论(0) 推荐(0)