摘要: 最近一段时间,经常看到有人在微博上说,“很多公司暂时用不到YARN,因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台,甚至将来几万台”。这完全是一种错误的观念,在Hadoop高速发展的时代,必须更正。实际上,上述观念只看到了YARN的扩展性(Scalability),扩展性是可用可不用的特性,中小型公司将YARN部署到小集群(按照IBM观点,集群规模小于200台的称为中小规模集群,这样的公司找到90%以上)上,可能享受不到扩展性带来的优势,但至少可以获取以下几个收益:(1)更快地MapReduce计算MapReduce仍是当前使用最广泛的计算框架。YARN利用异步模型对M 阅读全文
posted @ 2013-06-09 18:52 爱开卷360 阅读(849) 评论(0) 推荐(0) 编辑
摘要: 淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置,而且由于电子商务领域独特的应用场景,淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先,因此积累了很多的实践的经验和产品。TimeTunnel基于Hbase打造的消息中间件,具有高可靠、消息顺序、事务等传统特性,还能按时间维度反复订阅最近历史的任意数据高性能的broker,单节点达2万TPS,实际支持上千长链接并发承载海量的数据传输,日同步数据达10TB,并且包含淘宝主营收入等关键性数据在各IDC内,部署了超过2000个客户端,覆盖全网日志传输Scribe、flume、activemq、ZeroMQ?我们可以做得更强.. 阅读全文
posted @ 2013-06-09 18:46 爱开卷360 阅读(867) 评论(0) 推荐(0) 编辑
摘要: 对SQL支持并不是Hadoop最核心的技术理念,但这一特性确实能帮助很多传统企业,尤其是已经明白下一代分析的重要性但又不想迈向MapReduce的企业,迅速走向大数据分析。为此,本文特别列举了13种从Hadoop内部可以运行SQL查询的,高水平、可用性程度很高的工具。 阅读全文
posted @ 2013-06-09 18:35 爱开卷360 阅读(733) 评论(0) 推荐(0) 编辑