文章分类 -  hadoop

摘要:一个MapFile可以通过SequenceFile的地址,进行分类查找的格式。 使用这个格式的优点在于: 首先会将SequenceFile中的地址都加载入内存,并且进行了key值排序,从而提供更快的数据查找。 与SequenceFile只生成一个文件不同,MapFile生成一个文件夹。 索引模型按1 阅读全文
posted @ 2020-01-16 11:28 Allen101 阅读(164) 评论(0) 推荐(0)
摘要:(1)如何中止一个hadoop任务?当你在命令行下提交了一个hadoop job后,就算你按Ctrl+C,也不能中止掉那个job,因为它已经被Jobtracker接管了。这时,你要用如下命令中止它: hadoop job -kill Job_ID 其中,Job_ID就是你提交的job的ID,可以在J 阅读全文
posted @ 2019-12-25 13:49 Allen101
摘要:Netflix的推荐和个性化功能向来精准,前不久,他们公布了自己在这方面的系统架构。 3月27日,Netflix的工程师Xavier Amatrain和Justin Basilico在官方博客发布文章,介绍了自己的个性化和推荐系统架构。文章开头,他们指出: 接下来,文章贴出了他们的系统框架图,其中的 阅读全文
posted @ 2017-10-17 20:20 Allen101 阅读(376) 评论(0) 推荐(0)
摘要:一、神马是高大上的MapReduce MapReduce是Google的一项重要技术,它首先是一个编程模型,用以进行大数据量的计算。对于大 数据量的计算,通常采用的处理手法就是并行计算。但对许多开发者来说,自己完完全全实现一个并行计算程序难度太大,而MapReduce就是一种简化并行 计算的编程模型 阅读全文
posted @ 2017-09-05 20:07 Allen101 阅读(114) 评论(0) 推荐(0)
摘要:hive中创建分区表没有什么复杂的分区类型(范围分区、列表分区、hash分区、混合分区等)。分区列也不是表中的一个实际的字段,而是一个或者多个伪列。意思是说在表的数据文件中实际上并不保存分区列的信息与数据。 下面的语句创建了一个简单的分区表: create table partition_test 阅读全文
posted @ 2017-09-05 16:14 Allen101 阅读(378) 评论(0) 推荐(0)
摘要:[申明:资料来源于互联网] 本文链接:http://blog.csdn.net/sdksdk0/article/details/51695341 编辑:朱培 以下资料来源于互联网,很多都是面试者们去面试的时候遇到的问题,我对其中有的问题做了稍许的修改了回答了部分空白的问题,其中里面有些考题出的的确不 阅读全文
posted @ 2017-07-15 21:14 Allen101 阅读(261) 评论(0) 推荐(1)