干货|盘点国内真正的大数据分析产品

本文来自网易云社区

下面简单介绍几款比较有代表性的大数据分析平台:

 

1、 Cloudera

作为全球认知度最高的大数据平台公司,国内90%的版本基本都是在CDH的基础上封装的,对社区的掌控力最大。与国际软件供应商联手,产品涵盖大数据平台、ETL、高级分析、数据可视化等各个方面。Cloudera提供一个可扩展、灵活、集成的平台,可用来方便的管理您的企业中快速增长的多种多样的数据,从而部署和管理Hadoop和相关项目、操作和分析您的数据以及保护数据的安全。Cloudera Manager是一个复杂的应用程序,用于部署、管理、监控CDH部署并诊断问题,Cloudera Manager提供Admin Console,这是一种基于Web的用户界面,是您的企业数据管理简单而直接,它还包括Cloudera Manager API,可用来获取集群运行状况信息和度量以及配置Cloudera Manager。

还有比如像Statistica,一个整合数据分析、图表绘制、数据库管理与自订应用发展系统环境的专业软件,不仅提供使用者统计、绘图与数据管理程序等一般目的的需求,更提供特定需求所需的数据分析方法;Actian分析平台具备高可用性能,可自由部署在私有云或者混合云平台,授权模式灵活、即席查询分析等特定,特别大大的扩展了hadoop的性能限制,帮助企业将大数据转换为商业价值;Informatics平台是一套完善的技术,可支持多项复杂的企业级数据集成计划,包括企业数据集成、大数据、数据质量控制、主数据管理、B2B Data Exchange、应用程序信息生命周期管理、复杂事件处理、超级消息和云数据集成等。

 

2、 星环Transwarp

基于hadoop生态系统的大数据平台公司,国内唯一入选过Gartner魔力象限的大数据平台公司,对hadoop不稳定的部分进行了优化,功能上进行了细化,为企业提供hadoop大数据引擎及数据库工具。底层基于spark,支持sql on hadoop,支持sql2003标准语法,支持oracle,DB2,Teradata的存储过程,支持ACID分布式事务处理,支持高效内存、SSD计算,以及支持可视化权限管理,计算资源配置,用户安全授权管理以及行级安全控制。放上一张Transwarp Data Hub的架构图:

 

 

3、 阿里数加

阿里云发布的一站式大数据平台,覆盖了企业数仓、商业智能、机器学习、数据可视化等领域,可以提供数据采集、数据深度融合、计算和挖掘服务,将计算的几个通过可视化工具进行个性化的数据分析和展现,图形展示和客户感知良好,但是需要捆绑阿里云才能使用,部分体验功能一般,需要有一定的知识基础。maxcompute(原名ODPS)是数加底层的计算引擎,有两个维度可以看这个计算引擎的性能,一个是6小时处理100PB的数据,相当于1亿部高清电影,另外一个是单集群规模过万台,并支持多集群联合计算。

数加平台由三部分组成,开发套件、解决方案以及数据市场。开发套件包括数据开发套件和应用开发套件。在数据开发套件中,主要包含,大数据开发:集成可视化开发环境,可实现数据开发、调度、部署、运维及数仓设计、数据质量管理等功能;BI报表工具:海量数据的实时在线分析、丰富的可视化效果;机器学习工具:集数据处理、特征工程、建模、离线预测为一体的机器学习平台。解决方案:数加针对不同的业务场景,基于平台提供的开发套件与行业服务商的能力,将多方产品串联,提供行业解决方案。放上一张基于MaxCompute的生态系统图:

 

4、 华为FusionInsight

基于Apache进行功能增强的企业级大数据存储、查询和分析的统一平台。完全开放的大数据平台,可运行在开放的x86架构服务器上,它以海量数据处理引擎和实时数据处理引擎为核心,针对金融、运营商等数据密集型行业的运行维护、应用开发等需求,打造了敏捷、智慧、可信的平台软件。

包含了开放社区的主要软件及其生态圈中的主流组件,并进行了大量优化,FusionInsight Stream是FusionInsight大数据分析平台中的实时数据处理引擎,以实践驱动模式处理实时数据的大数据技术,解决高速事件流的实时计算问题,可以在金融、通信、交通、公共安全等领域发挥流式事件实时处理优势,提供实时分析、实时决策能力。附上一张该平台的架构图:

其一大特点是智慧,具备百万的建模框架,精准洞察用户行为与特征,支持用户数据进行超百万维度的数据建模,深刻洞察用户的行为和特征,为企业的商业决策,以及新业务商机的挖掘,提供更加科学、全面的业务支持。

 

5、网易猛犸

网易猛犸大数据平台是一站式的大数据应用开发和数据管理平台,包括大数据开发套件和hadoop发行版两部分。大数据开发套件主要包含数据开发、任务运维、自助分析、数据管理、项目管理及多租户管理等。大数据开发套件将数据开发、数据分析、数据ETL等数据科学工作通过工作流的方式有效地串联起来,提高了数据开发工程师和数据分析工程师的工作效率。Hadoop发行版涵盖了网易大数据所有底层平台组件,包括自研组件、基于开源改造的组件。丰富而全面的组件,提供完善的平台能力,使其能轻易地构建不同领域的解决方案,满足不同类型的业务需求。

附上该平台架构图:

猛犸平台提供多租户支持,不同租户之间相互隔离。底层使用Kerberos认证,实现了数据的安全性和隔离性。除了认证系统,利用Ranger实现了细粒度权限控制,保证了各个租户只能查看授权访问的库、表或字段。此外,平台提供审计功能,通过对用户平台行为的记录、分析和汇报,用来帮助事后生成合规报告、事故追根溯源,提高平台安全性。

平台基于业务场景设计的用户操作面提高了系统的易用性,结束了平台命令行运维的繁琐状态。数据开发工程师和数据分析师通过简单拖拽和表单填写即可完成数据科学相关工作。

在大数据开发套件的数据开发模块,提供数据库传输、SQL、Spark、OLAP Cube、MapReduce及Script各种类型任务的敏捷开发界面,任务开发者通过拖拽创建任务,方便地进行数据集成、数据ETL、数据分析等数据科学工作。以数据库传输为例,用户只需将“数据库传输”组件拖拽到画布上并双击,通过下拉框选择和手动输入填写表单,快速完成数据传输的任务开发。

此外,企业还能根据自身业务场景按需进行任务调度管理,用户可以设置任务的执行顺序、优先级以及执行周期。针对任务失败的情况,设置重试次数、重试间隔及报警规则。最后,任务产生的结果可以对接主流BI系统进行数据可视化分析,或者直接回流到线上系统支撑辅助线上业务。

 

网易猛犸大数据平台作为一站式的应用开发和数据管理平台,通过大数据开发套件,将数据开发、任务运维、自助分析、数据管理、项目管理等工作通过工作流的方式有效的串联起来,提供敏捷易用的用户操作界面,降低了大数据分析的使用门槛,显著的提高了数据开发工程师和数据分析师的工作效率。猛犸大数据平台在电商、音乐、云课堂学习、企业工业制造等领域已广泛应用,基于持续的需求驱动,通过多行业的业务验证,同时丰富全面的组件,提供完善的平台能力,满足不同类型的业务需求。

 

在对数据的分析处理过程中,数据的安全重要性不言而喻。猛犸平台底层使用Kerberos认证,实现了数据的安全性和隔离性。除了认证系统,利用Ranger实现了细粒度的权限控制,保证了各个租户只能查看授权访问的表、库和字段。不仅如此,平台还提供审计功能,通过对用户平台行为进行记录、分析和汇报,用来帮助对事故追根溯源,提高了平台的安全性。

 

相关阅读:猛犸机器学习开发实践

大数据技术在金融行业有哪些应用前景?

原文:国内真正的大数据分析产品有哪些呢?只求干货爆料,不要广告商!

posted @ 2018-07-23 16:21  网易数帆  阅读(1493)  评论(0编辑  收藏  举报