Hadoop十周年 专访创始人Doug Cutting

Hadoop之父Doug Cutting

问:在大数据领域,最近热门的话题似乎都围绕著即时分析平台Spark,甚至有人认为Spark取代了Hadoop,你如何看待Spark与Hadoop的竞争?

答:Spark确实可以取代Hadoop的部分功能,但我不认为Spark可以完全取代Hadoop。Spark在许多应用情境上的表现确实比MapReduce好,但是Spark缺乏Hadoop所提供的HDFS(Hadoop Distributed File System)、YARN(Yet Another Resource Negotiator),以及排程等功能。事实上Hadoop与Spark并非竞争对手,它们是相辅相成的互补关系。

在批次运算(Batch Processing)与串流运算(Stream Processing)的表现上,Spark的确比MapReduce优秀,但是在SQL互动查询方面Spark则不如Impela,而在搜索的表现上也不如Solr。就我的观点而言,Spark确实是一个很好的元件,它比Hadoop生态系中一些既存的元件来得好,但它并非完全取代Hadoop,而是让整个Hadoop生态系更加完美。

现在我们会鼓励大家趁著打造新的应用时,以Spark做为批次与串流的运算引擎,当然我们仍旧继续支持MapReduce,然而不可否认Spark代表下一代的技术。

其实Cloudera是第一个宣布支持Spark的大数据公司,我们的客户采用Spark的比例比起其他公司多,所以我们在Spark领域也算是领导厂商之一。过去大家以为Cloudera是Hadoop公司,但现在Cloudera其实是Hadoop与Spark的公司,如同我之前所说的,我们公司的存在是支持对客户而言最好的大数据技术,所以我们当然会鼓励客户采用Spark,因为它确实是一个更好的工具。

问:Hadoop的安全性是企业采纳大数据平台的顾虑之一,尤其对于金融业而言,Hadoop的安全性更是关键,Hadoop在安全上有哪些强化?

答:十年前我们刚创造Hadoop时,确实缺乏安全机制,任何人只要能接触到Hadoop系统,都可以任意读取或写入信息。但后来我们不断强化安全,投入诸多安全功能研发,已经陆续为Hadoop增加许多安全机制。

强化信息安全要从几个层面着手。首先是存取控制,我们已经为Hadoop开发了存取控制清单(Access Control List)的功能,可以提供用户安全认证,确保登录与信息存取的安全性。

在存取控制方面,一开始我们虽然只提供文件层级的保护,但在我们持续强化Hadoop安全功能之下,Hadoop的保护机制一直持续优化,从允许特定人员读取特定的栏位、信息表,到现在我们更进一步开发出能够针对列(Raw)或信息格(Cell)的存取控制功能,如此就可以保护特定的信息,甚至是特定范围里的信息。在这样持续开发的流程之下,Hadoop的安全保护层级会越来越精细,让用户拥有越来越多的管控机制。

信息安全防护的另一个重要机制是信息加密,Cloudera在这方面也已经与英特尔共同研发,在信息的储存、删除,甚至是信息通过网络传输的过程,都可以采取加密保护,现在Clouder提供的产品都已经有这方面的安全保护机制。

其实,大多数新技术问世时都缺乏安全设计,当Cloudera决定采纳一项新技术之后,第一年的首要任务就是强化安全功能。例如在两年前开始流行的Spark,一开始也是缺乏安全保护,不过这两年我们不断努力补强Spark架构各个层面的安全,现在几乎已经快要完成Spark整个架构的安全机制。

强化安全其实是一个很辛苦的过程,但面对每个新技术我们都必须如此。最近,我们在世界各地已经有不少金融业者开始采用Hadoop,他们甚至还通过了法规验证。以信用卡业为例,在支付产业有一个重要的安全规范——PCI DSS(Payment Card Industry Data Security Standard),目前Cloudera的Hadoop平台已经通过MasterCard的PCI标准验证,而MasterCard也正在推动金融业采用经PCI认证的Hadoop平台。

问:所以你认为银行可以放心采用Hadoop。

答:没错,今天你绝对可以用Hadoop打造非常安全的系统。

我最在意的是技术必须持续进步,让人们可以拥有最好的技术,只要是人们认为最好的技术,我们就会支持。而有了开源软件,让我们可以做到这一点。

问:如SMACK这类的新兴大数据技术框架,近年来在硅谷的网络公司大受欢迎。SMACK架构是由Spark、Mesos、Akka、Cassandra及Kafka所组成,其中完全没有Hadoop,你如何看待这类技术的发展?

答:我认为这是很好的现象,任何人都可以组合一些技术而成为一套技术框架,可见这些开源技术的独立性,而这也代表著我们真的拥有更为进化的技术开发模式,因为任何人都可以更换不同的组件,尝试各种组合,找到最合适、最成功的模式。

这也是开源技术不会被特定厂商绑死的最佳保证,同时显示开源软件的优势,如果整个生态系的每个技术都有极佳的可替换性,那么用户就可以拥有最好的架构。

以Hadoop来说,Hadoop的核心主要就是三个部分:HDFS、MapReduce及YARN,HDFS提供信息储存、MapReduce提供批次运算、YARN负责排程。虽然从定义上来说Hadoop的核心就只有这三大技术,但实际上有许多开源专案围绕著Hadoop核心,例如搜索的Solr、串流运算的Spark等等,这些都是开源技术专案,彼此之间没有相互竞争的必要,所以就可以合起来形成广大的Hadoop生态系,相互证明Hadoop平台更好用。

虽然目前就我所知,大多数人仍认为HDFS非常好用,而YARN也是排程与资源分配的最佳选择,但长远来说,像是Mesos这样的技术,如果在未来能受到更多人的青睐,Cloudera就一定会支持Mesos。

就我而言,我最在意的是技术必须持续进步,让人们可以拥有最好的技术,而只要是人们认为最好的技术,我们就会支持。现在我们大多数的客户认为Hadoop系统是最好用的,那么我们就会继续支持。然而这并不代表Cloudera一成不变,未来若有更好的技术出现,我们也一定会支持,而这就是开源技术的优势,让我们不会故步自封。

相反的,站在源软件对立面的传统软件世界,软件公司一定会捍卫自家的技术,至死方休,即便竞争对手提出更新更好的技术,他们也不可能采用。而在今天的开源软件世界,我们就可以摆脱这样的困境,一旦有人提出了更新的技术,而且事实证明这项技术更好,那么我们就会采纳,以协助客户使用更好的技术。我们的终极目标就是支持客户采用最佳技术。

问:很多企业都想要采纳大数据技术,但听说Hadoop是进入门槛很高的技术而却步,Hadoop是否真是难以入门?

答:我们发现几乎所有Cloudera的客户在尚未成为客户之前,都已经采用免费的开源版本Hadoop,这就表示Hadoop的进入门槛并不高,因为企业可以自己先尝试使用,例如中国联通,早在他们成为Cloudera的客户之前,他们已经自己采用Cloudera的Hadoop版本,因为他们可以免费取得,而且又容易安装执行,就这样一用就好几年,直到最近他们的架构变大了,才开始寻求Cloudera的支持。

问:近年来开源软件的成功有目共睹,但是开源软件的商业模式却仍是个大问题。过去十多年来,开源软件最成功的模式是Red Hat(红帽),然而现在开源软件可谓百家争鸣,开源软件的环境、企业对于开源软件的需求,远不同于当年的Linux时代,许多技术开发人员纷纷投入开源软件,也积极寻找成功的商业模式,对于接下来十年开源软件的商业发展,你有什么建议?

答:这是一个棘手的问题,但很显然,我们需要一个答案。人们喜欢开源软件,而开源也是软件技术开发的一个美好方法,但人们同时需要厂商协助导入技术。对厂商而言,要能在市场上生存就必须要有商业模式。然而是否有一个能让所有开源软件公司一体适用的商业模式,现在言之过早,不过我们都明白身为软件产业的一员,你必须尝试,试著找出这个答案。

开源软件目前有几种不同的商业模式,其中一种是提供代管服务,代表公司如Amazon,通过提供云端服务来收费;另一种则是将软件以开源方式免费供应,再由提供支持服务来收取费用。我认为,软件公司的生计若只维系在客户需要的支持服务,只靠支持服务的收入来支撑一家软件公司永续发展,颇为困难;而云端服务的模式,也无法满足所有人的需求,毕竟有些企业会想要在自己的信息中心拥有如同公众云一样的云端服务,或是多种型式的混合云。

Cloudera目前的商业模式则是核心平台开源,管理软件收费。我们认为负责储存与处理信息的核心平台必须开源,程式码必须公开才能够让人信任,而且也不用担心日后被厂商垄断绑死。至于协助管理丛集系统、软件设定、系统监控与优化的管理软件,则是我们可以销售的。这些收费的管理软件是独立于Hadoop核心软件之外,所以企业仍然可以免费使用Hadoop,而IT人员则借助管理软件的优势,让Hadoop软件有效率地运作。这是目前我们选择的商业模式,目前运作良好,但同时我们也继续寻找其他的可能性。

这个商业模式对Cloudera而言之所以是最佳模式,主要是因为我们打造一个广大的平台;但对其他开源软件公司而言就未必是最好的商业模式。对其他开源软件公司而言什么才是最佳商业模式,这个答案我恐怕无法提供,毕竟我们的业务型式不尽相同,说不定有别的模式更适合其他的开源软件公司。不过可以肯定的是,观察未来10年成功的开源软件商业模式,将会是一件很有意思的事。

posted @ 2016-11-01 00:18  wangq17  阅读(84)  评论(0)    收藏  举报