服务器

Prometheus告警规则配置教程：从语法到实战的完整指南

2026.05.22 | youres | 75次围观

什么是Prometheus告警规则

Prometheus告警规则是监控系统的核心组件，用于定义触发告警的条件。当监控指标满足特定表达式时，Prometheus会生成告警并发送至Alertmanager进行通知分发。

告警规则的优势：

灵活的表达式：基于PromQL查询语言，支持复杂的监控逻辑
智能等待机制：通过for子句避免瞬时波动误报
丰富的标签系统：支持自定义标签和注解，便于告警分类
模板化输出：告警信息可包含动态变量，提高可读性

告警规则基础语法

告警规则配置文件采用YAML格式，通常放置在/etc/prometheus/rules/目录下。

基本结构示例

groups:
- name: example_alerts
  rules:
  - alert: InstanceDown
    expr: up == 0
    for: 5m
    labels:
      severity: critical
    annotations:
      summary: "实例宕机"
      description: "已经宕机超过5分钟"

关键字段说明

alert：告警名称，需唯一且具有描述性
expr：PromQL表达式，定义触发条件
for：等待时长，持续满足条件才触发
labels：附加标签，用于告警分类和路由
annotations：注解信息，存放详细描述

for子句：防止告警抖动

for子句是告警规则的关键特性，它要求告警条件必须持续满足一定时间才会真正触发。

工作原理：

首次检测：表达式满足时进入pending状态
持续监控：每次评估周期检查条件是否仍满足
触发告警：持续时间达到for设定值后，状态变为firing

推荐设置：

CPU/内存告警：5-10分钟
服务宕机：2-5分钟
磁盘空间：10-30分钟

keep_firing_for：防止告警恢复抖动

当告警条件短暂不满足时，可使用keep_firing_for保持告警状态一段时间，避免频繁开关。

- alert: HighCPUUsage
  expr: 100 - (avg by(instance) (irate(cpu_seconds_total{mode="idle"}[5m])) * 100) > 80
  for: 5m
  keep_firing_for: 2m
  labels:
    severity: warning

模板化告警信息

Prometheus支持在告警信息中使用模板变量，让告警内容更加具体。

常用模板变量

{{ .标签名 }}：获取告警实例的标签值
{{ }}：获取表达式的计算结果
{{ .标签名 }}：获取全局外部标签

实战示例

- alert: DiskSpaceLow
  expr: (node_filesystem_avail_bytes / node_filesystem_size_bytes) * 100 < 10
  for: 5m
  labels:
    severity: critical
  annotations:
    summary: "磁盘空间不足"
    description: "挂载点剩余空间过低"

常用告警规则配置

服务存活监控

- alert: ServiceDown
  expr: up == 0
  for: 2m
  labels:
    severity: critical
  annotations:
    summary: "服务宕机"
    description: "实例已停止响应"

CPU使用率告警

- alert: HighCPU
  expr: 100 - (avg by(instance) (irate(node_cpu_seconds_total{mode="idle"}[5m])) * 100) > 85
  for: 10m
  labels:
    severity: warning
  annotations:
    summary: "CPU使用率过高"
    description: "需要关注CPU资源"

内存不足告警

- alert: MemoryLow
  expr: (node_memory_MemAvailable_bytes / node_memory_MemTotal_bytes) * 100 < 15
  for: 5m
  labels:
    severity: warning
  annotations:
    summary: "内存不足"
    description: "可用内存过低"

告警规则最佳实践

命名规范

告警名称使用驼峰命名，如HighCPUUsage
名称应具有自描述性，一眼能看出问题类型
同一类告警使用统一前缀

标签设计

severity：告警级别（critical/warning/info）
team：负责团队，便于告警路由
service：所属服务，方便分组管理

等待时间调优

for子句的设置需要平衡灵敏度和稳定性：

过短：容易因瞬时波动产生误报
过长：可能错过关键问题的最佳处理窗口

告警规则调试技巧

检查规则语法

使用promtool验证规则文件：

promtool check rules /etc/prometheus/rules/*.yml

查看告警状态

访问Prometheus Web界面的Alerts页面，可查看所有告警的当前状态：

inactive：未触发
pending：等待中
firing：已触发

与Alertmanager集成

Prometheus本身不发送通知，需配置Alertmanager进行告警分发。

Prometheus配置示例：

alerting:
  alertmanagers:
  - static_configs:
    - targets:
      - alertmanager:9093

Prometheus告警规则配置教程：从语法到实战的完整指南

什么是Prometheus告警规则

告警规则基础语法

基本结构示例

关键字段说明

for子句：防止告警抖动

keep_firing_for：防止告警恢复抖动

模板化告警信息

常用模板变量

实战示例

常用告警规则配置

服务存活监控

CPU使用率告警

内存不足告警

告警规则最佳实践

命名规范

标签设计

等待时间调优

告警规则调试技巧

检查规则语法

查看告警状态

与Alertmanager集成

相关文章推荐

版权声明

发表评论

作者其它文章

AI写作工具免费推荐：5款一键生成专业文章的神器横向对比与实操指南

AI文档阅读分析助手免费推荐：5款一键提炼长文要点神器横向对比与实操指南

AI视频生成工具免费推荐：5款一键生成高清视频神器横向对比与实操指南

热门文章

随机文章

最近发表

标签列表

Prometheus告警规则配置教程：从语法到实战的完整指南

什么是Prometheus告警规则

告警规则基础语法

基本结构示例

关键字段说明

for子句：防止告警抖动

keep_firing_for：防止告警恢复抖动

模板化告警信息

常用模板变量

实战示例

常用告警规则配置

服务存活监控

CPU使用率告警

内存不足告警

告警规则最佳实践

命名规范

标签设计

等待时间调优

告警规则调试技巧

检查规则语法

查看告警状态

与Alertmanager集成

相关文章推荐

版权声明

相关阅读

发表评论

作者其它文章

AI写作工具免费推荐：5款一键生成专业文章的神器横向对比与实操指南

AI文档阅读分析助手免费推荐：5款一键提炼长文要点神器横向对比与实操指南

AI视频生成工具免费推荐：5款一键生成高清视频神器横向对比与实操指南

热门文章

随机文章

最近发表

标签列表