Skip to main content
版本:2.3.3

创建 Chaos Mesh 工作流

Chaos Mesh 工作流简介

在 Chaos Mesh 中模拟真实的系统故障时,通常伴随着持续验证。你可能希望在 Chaos Mesh 平台上构建一系列故障,而不是执行单个独立的混沌故障注入操作。

为满足该需求,Chaos Mesh 提供了 Chaos Mesh 工作流,一个内置的工作流引擎。使用该引擎,你可以串行或并行地执行多种不同的 Chaos 实验, 用于模拟生产级别的错误。

目前, Chaos Mesh 工作流支持以下功能:

  • 串行编排
  • 并行编排
  • 自定义任务
  • 条件分支

使用场景举例:

  • 使用并行编排同时注入多个 NetworkChaos 模拟复杂的网络环境
  • 在串行编排中进行健康检查,使用条件分支决定是否执行剩下的步骤

Chaos Mesh 工作流 在设计时一定程度上参考了 Argo 工作流。如果您熟悉 Argo 工作流,您也能很快地上手 Chaos Mesh 工作流。

Github 仓库中含有其他工作流的示例.

通过 Chaos Dashboard 创建工作流

第 1 步:打开 Chaos Dashboard

点击新的工作流

New Workflow

第 2 步:设置工作流基本信息

Workflow Info

第 3 步:配置工作流节点

  1. 根据需求选择选择任务类型

    在本示例中选择的任务类型为”单一“。

    注意

    Chaos Dashboard 会自动创建一个命名为 "entry" 的串行节点,作其用为该工作流的入口。

    Choose Task Type

  2. 填写实验信息

    配置方法与创建普通的混沌实验相同。比如,你可以设置一个 POD KILL 类型的 PodChaos 故障,并将其命名为 “kill-nginx”。

    Create podkill in Workflow

第 4 步:提交工作流

你可以先在预览查看工作流定义。确认无误后,点击提交工作流按钮创建工作流。

Submit Workflow

使用 YAML 文件与 kubectl 创建工作流

工作流 类似于各种类型的 Chaos 对象,同样作为 CRD 存在于 kubernetes 集群中。你可以使用 kubectl create -f <workflow.yaml> 创建 Chaos Mesh 工作流。以下为创建的具体示例。使用本地 YAML 文件创建工作流:

kubectl create -f <workflow.yaml>

使用网络上的 YAML 文件创建工作流:

kubectl create -f https://raw.githubusercontent.com/chaos-mesh/chaos-mesh/master/examples/workflow/serial.yaml

一个简单的工作流 YAML 文件定义如下所示,这个工作流将会同时注入 StressChaosNetworkChaosPodChaos

apiVersion: chaos-mesh.org/v1alpha1
kind: Workflow
metadata:
name: try-workflow-parallel
spec:
entry: the-entry
templates:
- name: the-entry
templateType: Parallel
deadline: 240s
children:
- workflow-stress-chaos
- workflow-network-chaos
- workflow-pod-chaos-schedule
- name: workflow-network-chaos
templateType: NetworkChaos
deadline: 20s
networkChaos:
direction: to
action: delay
mode: all
selector:
labelSelectors:
'app': 'hello-kubernetes'
delay:
latency: '90ms'
correlation: '25'
jitter: '90ms'
- name: workflow-pod-chaos-schedule
templateType: Schedule
deadline: 40s
schedule:
schedule: '@every 2s'
type: 'PodChaos'
podChaos:
action: pod-kill
mode: one
selector:
labelSelectors:
'app': 'hello-kubernetes'
- name: workflow-stress-chaos
templateType: StressChaos
deadline: 20s
stressChaos:
mode: one
selector:
labelSelectors:
'app': 'hello-kubernetes'
stressors:
cpu:
workers: 1
load: 20
options: ['--cpu 1', '--timeout 600']

其中 templates 定义了实验中的各个步骤,entry 定义了工作流执行时的入口。

templates 中的每个元素都代表了一个工作流的步骤,例如:

name: the-entry
templateType: Parallel
deadline: 240s
children:
- workflow-stress-chaos
- workflow-network-chaos
- workflow-pod-chaos

templateType: Parallel 代表节点的类型为并行;deadline: 240s 代表这个节点下的所有并行实验预期在 240 秒内执行完成,否则将超时;children 代表将要并行执行的其他 template 名称。

再例如:

name: workflow-pod-chaos
templateType: PodChaos
deadline: 40s
podChaos:
action: pod-kill
mode: one
selector:
labelSelectors:
'app': 'hello-kubernetes'

templateType: PodChaos 代表节点的类型为 PodChaos 实验;deadline: 40s 代表当前 Chaos 实验将持续 40 秒;podChaos 字段是 PodChaos 实验的定义。

通过 YAML 文件与 kubectl 创建工作流较为灵活,你可以对串行活并行编排进行嵌套,声明复杂的编排,甚至可以与条件分支组合达到循环的效果。

字段说明

Workflow 字段说明

参数类型说明默认值是否必填示例
entrystring声明工作流的入口,值为 templates 中某一 template 的名称。
templates[]Template声明工作流中可执行的各个步骤的行为,详见 Template 字段说明

Template 字段说明

参数类型说明默认值是否必填示例
namestringtemplate 的名称,需要符合 DNS-1123 命名规范。any-name
typestringtemplate 的类型。可选值有: Task、Serial、Parallel、Suspend、Schedule、AWSChaos、DNSChaos、GCPChaos、HTTPChaos、IOChaos、JVMChaos、KernelChaos、NetworkChaos、PodChaos、StressChaos、TimeChaos、StatusCheckPodChaos
deadlinestringtemplate 持续的时间。'5m30s'
children[]string声明该 template 下的子任务,当 type 为 Serial 或 Parallel 时需要配置该字段。["any-chaos-1", "another-serial-2", "any-shcedule"]
taskTask配置自定义任务,当 type 为 Task 时需要配置该字段。详见 Task 字段说明
conditionalBranches[]ConditionalBranch配置自定任务后的条件分支,当 type 为 Task 时可选配置该字段。详见 ConditionalBranch 字段说明
awsChaosobject配置 AWSChaos,当 type 为 AWSChaos 时需要配置该字段。详见 模拟 AWS 故障
dnsChaosobject配置 DNSChaos,当 type 为 DNSChaos 时需要配置该字段。详见 模拟 DNS 故障
gcpChaosobject配置 GCPChaos,当 type 为 GCPChaos,当 时需要配置该字段。详见 模拟 GCP 故障
httpChaosobject配置 HTTPChaos,当 type 为 HTTPChaos 时需要配置该字段。详见 模拟 HTTP 故障
ioChaosobject配置 IOChaos,当 type 为 IOChaos 时需要配置该字段。详见 模拟文件 I/O 故障
jvmChaosobject配置 JVMChaos,当 type 为 JVMChaos 时需要配置该字段。详见 模拟 JVM 应用故障
kernelChaosobject配置 KernelChaos,当 type 为 KernelChaos 时需要配置该字段。详见 模拟内核故障
networkChaosobject配置 NetworkChaos,当 type 为 NetworkChaos 时需要配置该字段。详见 模拟 AWS 故障
podChaosobject配置 PodChaosd ,当 type 为 PodChaosd 时需要配置该字段。详见 模拟网络故障
stressChaosobject配置 StressChaos,当 type 为 StressChaos 时需要配置该字段。详见 模拟压力场景
timeChaosobject配置 TimeChaos,当 type 为 TimeChaos 时需要配置该字段。详见 模拟时间故障
scheduleobject配置 Schedule ,当 type 为 Schedule 时需要配置该字段。详见 定义调度规则
statusCheckobject配置 StatusCheck,当 type 为 StatusCheck 时需要配置该字段。详见 在工作流中进行状态检查
abortWithStatusCheckbool配置当 StatusCheck 失败时是否终止工作流,当 type 为 StatusCheck 时可选配置该字段。falsetrue
注意

当在工作流中建立有持续时间的 Chaos 时,需要将持续时间填写到外层的 deadline 字段中,而不是使用 Chaos 中的 duration 字段。

Task 字段说明

参数类型说明默认值是否必填示例
containerobject定义自定义任务容器,可参考 Container 字段说明
volumesarray若需要在自定义任务容器中挂载卷,则需要在该字段声明卷。关于完整定义可参考 corev1.Volume

ConditionalBranch 字段说明

参数类型说明默认值是否必填示例
targetstring当前条件分支想要执行的 template 名称another-chaos
expressionstring类型为布尔的表达式,在自定义任务完成后,当表达式值为真时,当前条件分支将会被执行。未设置该值时,条件分支将会在自定义任务完成后直接执行。exitCode == 0

目前在 expression 中提供了两个上下文变量:

  • exitCode 表示自定义任务的退出码。
  • stdout 表示自定义任务的标准输出。

更多的上下文变量将在后续补充。

可参考该文档编写 expression 表达式。

Container 字段说明

这里只列举了常用字段,关于完整定义可参考 corev1.Container

参数类型说明默认值是否必填示例
namestring容器名称task
imagestring镜像名称busybox:latest
command[]string容器执行的命令["wget", "-q", "http://httpbin.org/status/201"]