Kubernetes 出现也有9年了,新的事物总会带来争议,有收益也免不了有坑,但避免故障发生却是永远的话题。
OpenAI 史上最长宕机
原因
新部署的遥测服务,此项服务无意间压垮了Kubernetes
的 DNS,影响了控制平面,导致关键系统发生连锁故障。
警示
Kubernetes
的管控较为集中,反而会是个瓶颈,因此管控规模不宜过大。
滴滴业务中断业务 12 小时
原因
根据网上的信息,有分析称造成此次事故的原因,是由于升级 K8S 集群导致的,较为灾难性的是控制平台也部署在Kubernetes
上,导致无法使用自动化工具。
警示
不应该把所有的鸡蛋都放到一个篮子里。把所有服务都放到 Kubernetes
后,Kubernetes
反而成为了那个瓶颈。
某云厂商误删 CRD 导致相关资源被清理
原因
运维人员运行了一个管理 CRD 的脚本打算更新 CRD,但意外的是脚本会先删除 CRD,这直接导致此 CRD 相关的资源被清理。
警示
Kubernetes
的 CRD 机制是一个非常高的风险点。过于智能的级联删除容易造成灾难性后果。
CRD 不建议做修改操作,最好是新建新的名字。
对于级联删除的问题,可以考虑使用 Finalizers 做外部校验来拦截。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
THE END
广告
暂无评论内容