案例研究

平静和AWS

平静如何在AWS上使用EKS实现更好的生产稳定性

分享
占位符
占位符
占位符

Chris在AWS最佳实践方面的高级经验加速了我们公司的基础设施开发. 他的工作是一个至关重要的里程碑,使我们能够扩展我们的工程团队和系统,以跟上我们的快速增长.

马克Marcantano, 平静的技术项目经理

平静确实在确保他们的客户在稳定性和性能方面拥有最好的用户体验方面取得了飞跃. 迁移到AWS EKS进一步使平静能够专注于产品, 速度, 和用户体验,而不用担心Kubernetes可能带来的操作开销和复杂性.

克里斯托弗Stobie, Toptal首席开发运维工程师

当系统意外停机时,平静面临的挑战

许多公司正在发展其IT解决方案,以便从虚拟化转向容器化解决方案, 允许他们抽象出操作系统发行版和底层基础设施的差异. Kubernetes是一个开源的容器管理系统,它提供了部署机制, 维护, 扩展容器化应用程序, 这是平静为自己的运营而建立的系统, 使用当时存在的标准行业工具.

平静聘请了克里斯托弗·斯托比, 通过Toptal AWS DevOps实践的高级工程师, 以补充他们现有的资源, 因为他们根本没有足够的具备必要技能的人员来管理他们已经拥有的系统. 克里斯上班的第二天, 平静随后将其称为“大而可怕的中断”,原因是自管理的k8s控制平面的Etcd损坏,导致系统回滚到其遗留基础设施, 带来灾难性的后果. Chris指出:“平静完全自己运行Kubernetes,这是非常困难的. “但是在平静的第二天, 停电了两天, Kubernetes故障, 控制平面已经损坏,无法恢复.”

尽管形势严峻, 克里斯可以建一个新的, 完全自动化的集群,将由AWS管理,而不是自我管理. 他开发了在EKS下运行的系统, 在Terraform中创建了一个完整的网络层,使平静能够再次发挥全部功能. 由于AWS解决方案易于使用,迁移到EKS只花了大约三天时间.

立竿见影的效果

这次迁移虽然是由于意外的紧急情况引起的,但却产生了立竿见影的效果. 控制平面的稳定性立即得到了改善, 集群内的网络开销也大大降低了. 除了, 源代码控制的集群配置允许快速迭代, 并且IAM授权设置非常简单.

大多数公司在运行IT环境时会使用成功的度量标准——正常运行时间, 弹性, 依赖于生产环境的能力——在切换到EKS之后有了实质性的改善. 以前, 单是停机时间的成本就很可观, 由于平静无法订阅用户,每次宕机的成本约为每小时4万美元. 在EKS部署后的六个月里, 网络已经变得更加可靠, 服务器返回响应的速度意味着DevOps不再等待自动完成建议的部署.

大胆和创新的思维是有回报的

虽然AWS EKS系统并不是托管Kubernetes市场上唯一的系统, 它无疑展示了AWS技术和专业知识的深度和广度. 选择EKS作为早期采用者, 冷静显示出前瞻性思维,这是最好的公司的标志, 因为他们实施的技术将确保最无缝的客户和客户体验. 在这种情况下, 平静很早就意识到他们需要额外的帮助, 转而求助于Toptal,因为他知道Toptal将拥有完成这样一项重大任务所需的资源. 对于其他公司来说,一个关键的教训是要明白,技术本身是不够的:如果没有AWS云计算和技术产品的敏捷优势,这种成功是不可能的, 具有实施经验的“人才云”也是必不可少的. 这种组合使平静能够建立一个全面生产的强大系统, 这是一种相对独特的区别,使他们在市场上占有优势. 现在, 在EKS推出六个月后, 平静的经验表明,他们的创新之路将持续产生红利,并将在未来一段时间内持续产生红利.

更快的服务器响应,节省了之前等待自动完成所需的大量时间.

更快的服务器响应,节省了之前等待自动完成所需的大量时间.

可靠的网络,通过防止意外中断节省资金.

可靠的网络,通过防止意外中断节省资金.

由AWS管理的全自动集群,使平静能够专注于其他优先事项.

由AWS管理的全自动集群,使平静能够专注于其他优先事项.

下载本案例研究的PDF版本.

下载