各类云服务 - Bugs汇总

感觉阿里云可靠性还是不太行,各种小 Bug 不断,虽然说基本都对业务没有太大影响,但是积少成多,对运维人员而言就比较坑。

比如建个 ElaticSearch 花了 7 个小时才建成功,发工单问说是地域资源不足,一直排队导致的。

PolarDB 控制台突然无法使用,一直报「服务不可用」,导致无法对 PolarDB 做任何配置方面的变更。

Terraform 的插件里,MongoDB 建分片集群一直有问题,用不了。PolarDB 也是最近才在 Terraform 中添加了支持。

短信服务发条信息要二到十多分钟才能收到,发工单问说是运营商网关延迟导致的。。。

DMS 数据管理服务无法连接 MongoDB,发工单问,说要我们给一个特定的内网地址添加「访问白名单」,才能正常使用 DMS 连接 MongoDB.

新推出的 ASM 服务网格,控制台操作老是报「empty url」,但是实际上操作已经成功了。
ASM 自身的名字空间和k8s集群的名字空间对应关系,也没有文档介绍,还是我们自己摸索出来的。

在「内容安全(业务安全)」的「OSS 违规检测」中,添加了一个 bucket 后,怎么着都无法从「OSS违规检测」中移除这个 bucket,发工单、加钉钉、录屏,折腾了起码一个月阿里云也没定位到问题,某一天这个桶突然自己移除了,我没收到任何阿里云的通知。。

创建 PolarDB 到 ElasticSearch 的 DTS 同步管道时,即使选择了 ElasticSearch 6/7,同步管道仍然存在一个「字符串Index」的选项,文档没有看到任何对这个选项的说明。
网上搜索说这是 ES5 才有的属性,ES6/7已经没有了。发工单给阿里售后,可他们自己都搞不清楚这个选项的含义。。。

k8s 中将 acr-configuration 的 service-account 设为*后,就经常遇到 ImagePullBackoff 的问题。
另外使用了 terway 插件后,IP 地址的分配经常失败,要自动重试很多次,才能成功。

最近还遇到了一个已经被删除了好几个星期的 PolarDB,突然触发了「云监控」的报警规则,报警中的「PolarDB ID」翻遍所有地域都找不到。。发工单问,回复说被删除的实例会被保留一段时间,这段时间内仍有可能触发告警规则。。。

总之小 Bug 一堆,大 Bug 目前倒是还没遇到过。。。但总是不太爽hhh

不知道 aws/azure/腾讯云/金山云 比之如何。


更新:阿里云的资源关系管理不完善,删除子账号可能导致相关资源进入无人可管的状态。。。比如我用子账号 A 创建了一个资源 R,然后我把 A 账号删除了,那就没有任何人可以管理 R 这个资源了。。。
所以删除账号前,一定要手动确认相关资源的权限都已经完成了移交。


2021-12-08 更新:

AWS 相比阿里云,页面上的 Bugs 确实少一些,但是今年也遇到了 EBS 硬件故障、US-EAST-1 区 API 大面积故障等等,对业务都有影响,不过解决问题的态度很好。

腾讯云国际版就是个巨坑,改个 CDN 配置,四个步骤就报四个不同的错,可以说每个操作都会出问题,都得提个工单才能解决...

posted @ 2020-11-22 22:46  於清樂  阅读(228)  评论(0编辑  收藏  举报