随笔列表第4页 - 爱开卷360

2013年6月9日

摘要：最近一段时间，经常看到有人在微博上说，“很多公司暂时用不到YARN，因为一般公司的集群规模并未像Yahoo、Facebook那样达到几千台，甚至将来几万台”。这完全是一种错误的观念，在Hadoop高速发展的时代，必须更正。实际上，上述观念只看到了YARN的扩展性（Scalability），扩展性是可用可不用的特性，中小型公司将YARN部署到小集群（按照IBM观点，集群规模小于200台的称为中小规模集群，这样的公司找到90%以上）上，可能享受不到扩展性带来的优势，但至少可以获取以下几个收益：（1）更快地MapReduce计算MapReduce仍是当前使用最广泛的计算框架。YARN利用异步模型对M 阅读全文

posted @ 2013-06-09 18:52 爱开卷360 阅读(849) 评论(0) 推荐(0) 编辑

淘宝在数据处理领域的项目及开源产品介绍

摘要：淘宝在数据存储和处理领域在国内互联网公司中一直保持比较靠前的位置，而且由于电子商务领域独特的应用场景，淘宝在数据实时性和大规模计算及挖掘方面一直在国内保持着领先，因此积累了很多的实践的经验和产品。TimeTunnel基于Hbase打造的消息中间件，具有高可靠、消息顺序、事务等传统特性，还能按时间维度反复订阅最近历史的任意数据高性能的broker，单节点达2万TPS，实际支持上千长链接并发承载海量的数据传输，日同步数据达10TB，并且包含淘宝主营收入等关键性数据在各IDC内，部署了超过2000个客户端，覆盖全网日志传输Scribe、flume、activemq、ZeroMQ？我们可以做得更强.. 阅读全文

posted @ 2013-06-09 18:46 爱开卷360 阅读(868) 评论(0) 推荐(0) 编辑

在Hadoop上运行SQL：程序员需知晓的13种数据工具

摘要：对SQL支持并不是Hadoop最核心的技术理念，但这一特性确实能帮助很多传统企业，尤其是已经明白下一代分析的重要性但又不想迈向MapReduce的企业，迅速走向大数据分析。为此，本文特别列举了13种从Hadoop内部可以运行SQL查询的，高水平、可用性程度很高的工具。阅读全文

posted @ 2013-06-09 18:35 爱开卷360 阅读(734) 评论(0) 推荐(0) 编辑

2013年6月6日

Apache Tajo：一个运行在YARN上支持SQL的分布式数据仓库

摘要： Apache Tajo是一个基于hadoop的关系型且分布式的数据库仓库系统，Tajo设计之初就是通过先进的数据库技术做到能够低延迟,可扩展，即时查询，可聚合的数据库仓库系统，以弥补hadoop等目前在实时,关系事务方面的短板。同时Tajo还支持SQL标准，所以你可以通过SQL来操作它。HDFS为Tajo的主要存储层,并且有自己的查询引擎(代码结构看下来貌似很多代码都是自己写的)所以可以直接控制各种分布式执行(如查询)和数据流。如此Tajo有许多查询控制策略，以及对查询可以做很多优化。功能: 1.快速且低延迟的查询，支持各种SQL操作,如条件查询，GROUP BY,SORT,JOIN等 ... 阅读全文

posted @ 2013-06-06 16:01 爱开卷360 阅读(528) 评论(0) 推荐(0) 编辑

盘点2012：云计算的春天

摘要：摘要：2012并非世界末日，而是云计算的春天。Google、AWS、Facebook、微软、Cloudrea，甚至已经渐渐落寞的Yahoo！都在通过云计算发力，国内如阿里、百度、腾讯、新浪这些互联网的排头兵正在全力赶上，甚至有机会重新排定座序。CSDN将从技术度角度对过去一年中云计算发生的重点事件做出点评。阅读全文

posted @ 2013-06-06 15:47 爱开卷360 阅读(334) 评论(0) 推荐(0) 编辑

从问题域出发认识Hadoop生态系统

摘要：近些年来Hadoop生态系统发展迅猛，它本身包含的软件越来越多，同时带动了周边系统的繁荣发展。尤其是在分布式计算这一领域，系统繁多纷杂，时不时冒出一个系统，号称自己比MapReduce或者Hive高效几十倍，几百倍。有一些无知的人，总是跟着瞎起哄，说Impala将取代Hive，Spark将取代Hadoop MapReduce等。本文则从问题域触发，解释说明Hadoop中每个系统独特的作用/魅力以及它们的不可替代性。 Hadoop作为一个生态系统，每个系统只解决某一个特定的问题域（甚至可能很窄），这也是Hadoop的魅力所在：不搞统一型的一个全能系统，而是小而精的多个小系统。本文重点讨论分... 阅读全文

posted @ 2013-06-06 15:33 爱开卷360 阅读(360) 评论(0) 推荐(0) 编辑

2013年6月5日

实现多个jetty实例开机后自动启动

摘要： jetty开机后自动启动，这个问题困扰我有一阵子了，最后摸索出来一个行至有效的办法和大家分享下。直接看rc.local代码，系统启动的时候会自动运行此脚本：#系统环境是必备的export LANG="zh_CN.UTF-8"export LC_ALL="zh_CN.UTF-8"PATH=/data/app/java/bin:/data/shells:$PATHJAVA_HOME=/data/app/javaCLASSPATH=/data/app/java/lib/dt.jar:/data/app/java/lib/tools.jarexport JAVA 阅读全文

posted @ 2013-06-05 18:32 爱开卷360 阅读(756) 评论(0) 推荐(1) 编辑

2013年3月28日

常用Maven插件介绍（全）

摘要：我们都知道Maven本质上是一个插件框架，它的核心并不执行任何具体的构建任务，所有这些任务都交给插件来完成，例如编译源代码是由maven-compiler-plugin完成的。进一步说，每个任务对应了一个插件目标（goal），每个插件会有一个或者多个目标，例如maven-compiler-plugin的compile目标用来编译位于src/main/java/目录下的主源码，testCompile目标用来编译位于src/test/java/目录下的测试源码。用户可以通过两种方式调用Maven插件目标。第一种方式是将插件目标与生命周期阶段（lifecycle phase）绑定，这样用户在命令.. 阅读全文

posted @ 2013-03-28 10:02 爱开卷360 阅读(411) 评论(0) 推荐(0) 编辑

2013年3月22日

SenseiDB架构设计分析

摘要： 1. Sensei介绍Sensei是Linkin公司开发的一个开源分布式实时半结构化数据库，他主要支持以下功能（根据官网翻译）：全文检索实时更新faceted searchkey-value查询在高并发更新与查询性能高支持与Hadoop集成初步的调研了以下该项目，发现他其实主要是在全文索引的基础封装了Browse Query Language (BQL，类似SQL)的查询语法，个人感觉该项目的优势主要是在以下几点：支持BQL语法相对与lucene的语法跟容易让人理解，而且对熟悉SQL的开发人员更友好。集群维护简单新加节点只要设置好节点本身的配置，启动后进程会自动加入集群，不需要修改其他服务器的阅读全文

posted @ 2013-03-22 13:49 爱开卷360 阅读(711) 评论(0) 推荐(1) 编辑

Sensei:分布式, 实时, 半结构化数据库

摘要：在未出现开源搜索引擎以前, Doug Cutting整了个Lucene, 随后Yonik Seeley写了一个Solr, 在2010年 Shay Banon发布了ElasticSearch, 大概在两年前, 我们迎来了Sensei, 最近他们发布了1.0版本, 下面通过@sematext对LinkedIn的搜索架构师John Wang的一个采访. 来大致了解一下Sensei. Sensei是什么?开源, 灵活, 实时, 分布式数据库, 原生支持搜索, 能操作非结构化文本和结构化数据. 它主要用户处理海量复杂半结构化查询和经常变化的数据结构. 它广泛用于支持LinkedIn.com的搜索功能.为阅读全文

posted @ 2013-03-22 13:26 爱开卷360 阅读(822) 评论(0) 推荐(1) 编辑

爱开卷360

好文章 • 爱开卷 • 360Tech

公告