咖啡猫1292 - 博客园

堆排序

摘要：定义n个关键字序列Kl，K2，…，Kn称为（Heap），当且仅当该序列满足如下性质（简称为堆性质）：(1)ki=号。//k(i）相当于二叉树的非叶子结点，K(2i）则是左子节点，k(2i+1）是右子节点若将此序列所存储的向量R[1..n]看做是一棵完全二叉树的存储结构，则堆实质上是满足如下性质的完全... 阅读全文

posted @ 2015-03-28 11:13 咖啡猫1292 阅读(188) 评论(0) 推荐(0)

各种排序算法的稳定性和时间复杂度小结

摘要：选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法，冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。冒泡法：这是最原始，也是众所周知的最慢的算法了。他的名字的由来因为它的工作看来象是冒泡：复杂度为O(n*n)。当数据为正序，将不会有交换。复杂度为O(0)。直接插入排序：O(n*n)选择... 阅读全文

posted @ 2015-03-28 10:10 咖啡猫1292 阅读(221) 评论(0) 推荐(0)

2路归并排序

摘要： import java.util.Arrays;public class Merge_sort {public static void main(String[] args){ int[] nums={ 2, 7, 8, 3, 1, 6, 9, 0, 5, 4 }; sort(nums,0,nums... 阅读全文

posted @ 2015-03-27 21:09 咖啡猫1292 阅读(142) 评论(0) 推荐(0)

Hadoop数据类型介绍

摘要：我们知道hadoop是由Java 编程写的。因此我们使用Java开发环境来操作HDFS,编写mapreduce也是很自然的事情。但是这里面hadoop却对Java数据类型进行了包装，那么hadoop的数据类型与Java那些数据类型对应。下面做一些对比：一、 Hadoop数据类型介绍：(1)在hado... 阅读全文

posted @ 2015-03-25 23:43 咖啡猫1292 阅读(1767) 评论(0) 推荐(0)

浅析Hadoop文件格式

摘要： Hadoop 作为MR 的开源实现，一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过，MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建，因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式，分析其特点、开销及使用场景。希望加... 阅读全文

posted @ 2015-03-25 23:40 咖啡猫1292 阅读(575) 评论(0) 推荐(0)

Hadoop中Combiner的使用

摘要：在MapReduce中，当map生成的数据过大时，带宽就成了瓶颈，怎样精简压缩传给Reduce的数据，有不影响最终的结果呢。有一种方法就是使用Combiner，Combiner号称本地的Reduce，Reduce最终的输入，是Combiner的输出。下面以《Hadoop in action》中的专利... 阅读全文

posted @ 2015-03-25 23:28 咖啡猫1292 阅读(277) 评论(0) 推荐(0)

Pig与Hive的区别

摘要： Language在Hive中可以执行插入/删除等操作，但是Pig中我没有发现有可以插入数据的方法，请允许我暂且认为这是最大的不同点吧。SchemasHive中至少还有一个“表”的概念，但是Pig中我认为是基本没有表的概念，所谓的表建立在Pig Latin脚本中，对与Pig更不要提metadat... 阅读全文

posted @ 2015-03-25 23:16 咖啡猫1292 阅读(398) 评论(0) 推荐(0)

HiveQL(HiveSQL)跟普通SQL最大区别一直使用PIG，而今也需要兼顾HIVE

摘要： HiveQL(Hive SQL)跟普通SQL最大区别一直使用PIG，而今也需要兼顾HIVE。网上搜了点资料，感觉挺有用，这里翻译过来。翻译估计不太准确，待自己熟悉HIVE后再慢慢总结。 * No true date/time data types, no interval types, and... 阅读全文

posted @ 2015-03-25 23:14 咖啡猫1292 阅读(771) 评论(0) 推荐(0)

Hadoop生态上几个技术的关系与区别：hive、pig、hbase 关系与区别

摘要：初接触Hadoop技术的朋友肯定会对它体系下寄生的个个开源项目糊涂了，我敢保证Hive,Pig,HBase这些开源技术会把你搞的有些糊涂，不要紧糊涂的不止你一个，如某个菜鸟的帖子的疑问，when to use Hbase and when to use Hive？....请教了^_^没关系这里我帮大... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(222) 评论(0) 推荐(0)

pig hive 区别

摘要： Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。 Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结... 阅读全文

posted @ 2015-03-25 23:13 咖啡猫1292 阅读(236) 评论(0) 推荐(0)

导航