阿里云dataworks/maxcomputer和自建集群的对比
云平台近几年在飞速发展,有些公司也会把自己的在线业务和离线数据业务迁移到阿里云上,一方面节省研发成本,另一方面服务更加稳定,下面我以自己粗浅的认识对比下两者。
2021年7月又换了一家公司,又用回了原生的大数据组件,之前3年都用的阿里云,最近觉得很不适应,对两者的区别有了更多的感受,再回来总结下。
| 指标 | 自建集群 | 云平台 |
| 研发要求 | 高 | 低 |
| 自由度 | 高 | 低 |
| 研发配置 | 数仓/集群搭建 | 数仓 |
| 学习成本 | 高 | 低 |
| 工种配置 | 数仓组+平台组+大数据产品组+分析组 | 数据组 |
| 主要技术 | hive+hbase+spark+datax+storm+调度系统 | MR+类HIVE |
两者使用对比:
1、云平台功能完善,主要的数据同步、数据计算、调度任务等需求都能满足
2、底层更加稳定,相较自建集群几乎不会宕机
3、从同步生产库数据->仓库建模处理->算法实现->生产库都能在一个可视化的工作流完成,自建集群可能需要用多个开源软件
4、云平台可视化点击操作较多较容易上手,自建集群可能还要学习一段时间
5、云平台付费就能用,自建集群建设需要时间
6、云平台有问题找客服解决沟通麻烦,自建集群直接问平台的同事,更容易沟通
7、云平台对大数据从业者来说能学到的东西较少,自建集群能学到较多的底层东西
写在2021年8月:
之前写的对比大部分都太粗浅,最近有了比较多的感受,细致性的说下,仅就我司的自建水平来对比:
1、计算性能和稳定性,之前用阿里云虽然只有odps一个引擎,但是真的是优化的好,比着自建的spark个人感受还是快的,比着社区的hive不知道要快多少,且稳定,比如修复分区,分区表加字段等细节性问题;还有个问题是计算的不稳定导致了数仓夜里需要值班,但是做的无非就是点一下重跑
2、调度,我们自建的不能循环依赖,天和小时调度不耦合,调度任务不能补数据,有些感觉是基本功能的在这边长期不能迭代,我觉得是二次开发能力不足,这个是有门槛的
3、文档的丰富程度,自建的文档写的真的是随意,且真的是口耳相传,刚入职各种不适应
4、实时计算平台,开发周期长,长周期不能迭代,没有稳定版本使用
随着公司大数据体系的完善,整体使用从0-1逐渐完善,云平台可能处于0.7分的水平,对比的时期很重要。但是也要看公司的研发能力,有的公司可能几年都到不了0.7分的水平。建议自建集群开发者也关注下云平台,取长补短。
我是站在数仓的角度来说明问题,正所谓屁股决定脑袋,比如云平台花钱和自建比较,在多大规模肯定差距不一样。最近,目前这个公司也在上华为云了,毕竟也是个上市公司。
浙公网安备 33010602011771号