会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
cxzdy
博客园
首页
新随笔
联系
管理
订阅
上一页
1
···
19
20
21
22
23
24
25
26
27
···
31
下一页
2015年11月29日
大数据和Hadoop生态圈
摘要: 转自:http://www.cnblogs.com/hadoopdev/p/3528616.html一、前言: 非常感谢Hadoop专业解决方案群:313702010,兄弟们的大力支持,在此说一声辛苦了,经过两周的努力,已经有啦初步的成果,目前第1章 大数据和Hadoop生态圈小组已经翻译完成,在...
阅读全文
posted @ 2015-11-29 00:58 五三中
阅读(850)
评论(0)
推荐(0)
2015年11月25日
5G的7位电话号码,去重,内存20mb,代码实现。
摘要: 转自:http://www.aboutyun.com/thread-11139-1-1.html答案:首先,这个题考的不是分布式7位数,至少要用int来保存,那么int为4字节,20MB内存 10^7*4/1024*1024=38.14697265625至少需要38MB,显然7位的数字不能全部保存保...
阅读全文
posted @ 2015-11-25 23:58 五三中
阅读(1002)
评论(0)
推荐(0)
怎样从10亿查询词找出出现频率最高的10个
摘要: 转自:http://dongxicheng.org/big-data/select-ten-from-billions/1. 问题描述在大规模数据处理中,常遇到的一类问题是,在海量数据中找出出现频率最高的前K个数,或者从海量数据中找出最大的前K个数,这类问题通常称为“top K”问题,如:在搜索引擎...
阅读全文
posted @ 2015-11-25 23:57 五三中
阅读(3001)
评论(0)
推荐(0)
十道海量数据处理面试题与十个方法大总结
摘要: 转自:http://blog.csdn.net/v_JULY_v/article/details/6279498海量数据处理:十道面试题与十个海量数据处理方法总结作者:July、youwang、yanxionglu。时间:二零一一年三月二十六日本文之总结:教你如何迅速秒杀掉:99%的海量数据处理面试...
阅读全文
posted @ 2015-11-25 23:51 五三中
阅读(264)
评论(0)
推荐(0)
TopK的一个简单实现
摘要: 转自:http://rangerwolf.iteye.com/blog/2119096题外话:《Hadoop in Action》 是一本非常不错的交Hadoop的入门书,而且建议看英文版。此书作者的英文表达非常简单易懂。相信有一定英文阅读能力的同学直接用英文版就能非常容易的上手~进入正题。 这个题...
阅读全文
posted @ 2015-11-25 22:55 五三中
阅读(430)
评论(0)
推荐(0)
Spark1.0.0 学习路线指导
摘要: 转自:http://www.aboutyun.com/thread-8421-1-1.html问题导读1.什么是spark?2.spark编程模型是什么?3.spark运维需要具有什么知识?4.spark如何监控?5.如何搭建开发spark?2014-05-30 Spark1.0.0 Relaeas...
阅读全文
posted @ 2015-11-25 15:00 五三中
阅读(248)
评论(0)
推荐(0)
Apache Spark源码走读之1 -- Spark论文阅读笔记
摘要: 转自:http://www.cnblogs.com/hseagle/p/3664933.html楔子源码阅读是一件非常容易的事,也是一件非常难的事。容易的是代码就在那里,一打开就可以看到。难的是要通过代码明白作者当初为什么要这样设计,设计之初要解决的主要问题是什么。在对Spark的源码进行具体的走读...
阅读全文
posted @ 2015-11-25 09:45 五三中
阅读(408)
评论(0)
推荐(0)
2015年11月24日
倾情大奉送--Spark入门实战系列
摘要: 转自:http://www.cnblogs.com/shishanyuan/p/4699644.html这一两年Spark技术很火,自己也凑热闹,反复的试验、研究,有痛苦万分也有欣喜若狂,抽空把这些整理成文章共享给大家。这个系列基本上围绕了Spark生态圈进行介绍,从Spark的简介、编译、部署,再...
阅读全文
posted @ 2015-11-24 23:33 五三中
阅读(249)
评论(0)
推荐(0)
2015年11月20日
分布式发布订阅消息系统 Kafka 架构设计
摘要: 转自:http://blog.csdn.net/zhongwen7710/article/details/41251779我们为什么要搭建该系统Kafka是一个消息系统,原本开发自LinkedIn,用作LinkedIn的活动流(activity stream)和运营数据处理管道(pipeline)的...
阅读全文
posted @ 2015-11-20 12:15 五三中
阅读(2778)
评论(0)
推荐(0)
2015年11月19日
hive入门学习线路指导
摘要: 转自:http://www.aboutyun.com/thread-7598-1-1.htmlhive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。此篇内容较多:看完之后需要达到的目标1.hive是什么2....
阅读全文
posted @ 2015-11-19 01:18 五三中
阅读(510)
评论(0)
推荐(0)
上一页
1
···
19
20
21
22
23
24
25
26
27
···
31
下一页
公告