那些年Kubernetes造成的故障

Kubernetes 出现也有9年了,新的事物总会带来争议,有收益也免不了有坑,但避免故障发生却是永远的话题。

OpenAI 史上最长宕机

原公告 译文

原因

新部署的遥测服务,此项服务无意间压垮了Kubernetes的 DNS,影响了控制平面,导致关键系统发生连锁故障。

警示

Kubernetes的管控较为集中,反而会是个瓶颈,因此管控规模不宜过大。

滴滴业务中断业务 12 小时

资讯

原因

根据网上的信息,有分析称造成此次事故的原因,是由于升级 K8S 集群导致的,较为灾难性的是控制平台也部署在Kubernetes上,导致无法使用自动化工具。

警示

不应该把所有的鸡蛋都放到一个篮子里。把所有服务都放到 Kubernetes 后,Kubernetes 反而成为了那个瓶颈。

某云厂商误删 CRD 导致相关资源被清理

原因

运维人员运行了一个管理 CRD 的脚本打算更新 CRD,但意外的是脚本会先删除 CRD,这直接导致此 CRD 相关的资源被清理。

警示

Kubernetes 的 CRD 机制是一个非常高的风险点。过于智能的级联删除容易造成灾难性后果。
CRD 不建议做修改操作,最好是新建新的名字。
对于级联删除的问题,可以考虑使用 Finalizers 做外部校验来拦截。

© 版权声明
THE END
广告
喜欢就支持一下吧
点赞11 分享
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称表情

    暂无评论内容