混沌工程与Litmus:一个CNCF孵化项目

问题描述:确保基于微服务的电子商务平台的弹性。

系统弹性是电子商务平台在扩展操作期间保持服务运行和向用户提供卓越性能的关键要求。我们开发了一个微服务架构平台,面对高流量事件时遇到偶发的系统故障。服务可用性下降以及收入影响的问题主要是由于 Kubernetes Pod 崩溃,资源耗尽和网络中断导致的,这些问题在购物高峰季节会出现。

组织计划利用 CNCF 孵化的 Litmus 项目来进行对平台的评估和弹性增强。当我们使用 Litmus 进行模拟故障测试时,系统的弱点变得更加清晰,Litmus 允许我们触发类似 Pod 终止事件、网络延迟和资源使用限制等真实世界的故障情况。这些实验使我们能够验证可扩展性自动化系统,同时测试灾难恢复流程,并最大程度地优化 Kubernetes 设置以实现整个系统的可靠性。

该系统建立了一个坚实的基础,以承受故障情况并在不降低用户体验质量的情况下安全地分发繁忙的流量时段。积极应用混沌工程到我们的基础设施,可以更好地降低风险并增加可观察性,这使我们能够开发增强平台电子商务弹性以适应各种运行条件的自动化恢复方法。

设置混沌实验环境

在您的 Kubernetes 集群中安装 LitmusChaos:

Shell

 

验证安装:

Shell

 

注意:确保您的集群已准备好进行混沌实验。

定义混沌实验

创建一个ChaosExperiment YAML文件来模拟Pod删除场景。

示例(pod-delete.yaml):

YAML

 

安装ChaosOperator并配置服务账号

部署ChaosOperator来管理实验:

Shell

 

注意:创建一个ServiceAccount来授予必要的权限。

向目标应用程序注入混沌

为混沌标记应用程序命名空间:

Shell

 

部署ChaosEngine来触发实验:

示例(chaosengine.yaml):

YAML

 

应用ChaosEngine:

Shell

 

监视实验

查看进度:

Shell

 

检查混沌Pod的状态:

Shell

 

分析结果

实验后,查看日志和指标以确定应用程序是自动恢复还是在压力下失败。

以下是一些要监控的指标:

  • 应用程序响应时间
  • 实验期间和之后的错误率
  • Pod恢复所需时间

解决方案

确认的根本原因:在高流量期间,Pod由于部署中的副本数量不足和不正确的资源限制而失败。

应用的修复措施:

  • 增加了部署中的副本数量以处理更高的流量
  • 在Pod规范中配置了适当的CPU和内存资源请求和限制
  • 实施了水平Pod自动缩放器(HPA)以动态处理流量峰值

结论

通过使用LitmusChaos模拟Pod故障,我们确定了电子商务平台的Kubernetes部署中的关键弱点。混沌实验表明,通过调整扩展和资源分配,可以显着提高弹性。混沌工程使得系统主动加固,提高了正常运行时间和客户满意度。

Source:
https://dzone.com/articles/chaos-engineering-litmus-cncf-incubating-project