KubeSphere 提供节点和工作负载级别的告警策略,普通用户可以在项目中设置工作负载级别的告警策略。本篇文档以创建一个工作负载级别的告警策略并发送邮件通知作为示例,引导用户在项目中如何设置工作负载级别的告警策略。
以项目普通用户 project-regular
登录 KubeSphere,进入示例项目 demo-namespace,选择 「监控告警」→「告警策略」,点击 「添加策略」。
在弹窗中,参考如下提示填写基本信息,完成后点击 「下一步」。
alert-demo
;告警策略示例
;监控目标支持部署、有状态副本集、守护进程集三种工作负载,这里选择 部署,选择 reviews-v1 和 details-v1 作为监控目标,然后点击 「下一步」。
点击 「添加规则」,本示例以设置 内存用量 作为告警指标,监控周期为 1 分钟/周期,选择 连续 2 次,内存用量的阈值 > 20 MiB,级别为重要告警,设置的规则如截图所示:
说明: 工作负载支持的告警规则如下:
- CPU 用量;
- 内存用量 (包含缓存);
- 内存用量;
- 网络:网络发送数据速率、网络接收数据速率;
- 工作负载指标:部署副本不可用率、有状态副本集副本不可用率、守护进程集不可用率 (工作负载的副本不可用率: 比如对 Nginx 的 部署设置 5 个副本后正常运行的副本状态是 5/5, 如果部署不可用率设置了大于等于 20%,那么只要当副本运行状态为 4/5 的时刻就会发送告警)
完成后点击 「保存」,然后点击 「下一步」。
通知有效时间可以设置发送通知邮件的时间范围,例如 09:00 ~ 19:00
,通知渠道目前仅支持邮箱,在通知列表中输入需要通知的成员邮箱。
重复规则设置的是告警通知的发送周期和重发频度,如果告警一直未解决,相隔一定的时间将会重复发送告警。针对不同级别的告警也可以设置不同的重复规则,由于上一步设置的告警级别是重要告警,因此选择重要告警的规则为 每 5 分钟警告一次,最多重发 3 次。参考如下截图设置通知规则:
说明:告警的等待时间 = 检测周期 x 连续次数。例如检测周期为 1 分钟/周期,连续次数为 2 次,那么需要等待 2 分钟。
告警策略创建成功后,点击进入 alert-demo
告警策略的详情页,查看告警规则当前的状态和详细信息,包括监控目标、通知规则和告警历史等。
左侧点击 「更多操作」 → 「更改状态」,支持启用或停用告警策略。