从 K8s 1.22 平滑升级到 1.28,5 个集群分批 3 周完成,业务零中断。期间同步替换了 ingress-nginx 与 metrics-server。
Cloudflare + AWS CloudFront 双 CDN 接入,全球 56 国 P95 加载从 4.8s 降至 1.2s,月成本节省 38%。
把生产环境从阿里云国际站平迁至 GCP,含数据库 PG 主从、Redis 集群、对象存储、K8s 工作负载,停机窗口 12 分钟。
提前 4 周做容量评估 + 全链路压测 + 限流降级策略,活动期峰值 QPS 18 万,零故障平稳通过。
从差距分析到测评通过用时 4 个月,整改 38 项不符合项,新增日志审计与堡垒机部署。
华东 + 华南双活架构落地,数据库基于 PG Patroni 集群,对象存储跨区域同步,RPO < 5s,RTO < 60s。
说明业务架构与目前痛点,SRE 提供方向性方案。