一、集群层面
| 监控维度 | 关键指标 | 说明 |
|---|---|---|
| 集群整体健康 | 集群不可用节点比例 | 节点Ready状态占比 |
| 组件健康状态 | apiserver/etcd/scheduler/controller-manager 的运行状态 | 核心控制面组件状态 |
| 插件健康状态 | CoreDNS/kube-proxy/CNI 插件是否正常运行 | 集群网络与DNS基础插件 |
| 资源对象状态 | 异常Pod数量 | Pending/Error/CrashLoopBackOff 状态的Pod |
| 资源配额使用率(如果配置) | ResourceQuota 使用百分比 | 命名空间资源限制使用情况 |
| HPA扩缩容活动 | 自动扩缩容的触发频率和当前副本数 | 工作负载弹性状态 |
| 集群事件 | 关键事件实时监控 | 重点关注:Failed、BackOff、Evicted、Unhealthy |
| 驱逐事件 | 节点压力导致的Pod驱逐次数 | 节点资源不足引发的驱逐 |
| OOM事件 | 容器OOM Kill的次数和位置 | 内存超限杀死容器 |
| 证书管理 | 证书过期时间 | kubelet、etcd、CA 等证书有效期 |
二、Master 组件
| 组件 | 关键指标 | 说明 |
|---|---|---|
| API Server | 请求延迟(99分位) | 读写请求处理耗时 |
| QPS(请求速率) | 每秒处理请求数 | |
| 5xx/4xx 错误率 | 请求失败比例 | |
| 认证授权失败次数 | 认证失败、RBAC 权限拒绝次数 | |
| 并发连接数 | 当前活跃连接数 | |
| Etcd | 磁盘读写延迟(fsync耗时) | 直接影响集群响应速度 |
| Raft 提案延迟 | 事务提交延迟 | |
| Leader 选举次数 | 频繁选举表示集群不稳定 | |
| Follower 与 Leader 同步延迟 | 数据同步健康状况 | |
| DB 总大小 | 警告>2GB,危险>8GB | |
| 存储空间使用率 | etcd 数据目录磁盘使用 | |
| Scheduler | 调度失败Pod数量及原因 | 资源不足、端口冲突、污点不匹配等 |
| 调度算法执行耗时 | 创建到绑定节点耗时 | |
| 待调度Pod数(Pending) | 长时间未调度的Pod | |
| Controller Manager | 控制器同步耗时 | Node/ReplicaSet/Deployment 处理延迟 |
| 控制器重试次数 | 操作失败次数 |
三、Node 组件
| 监控维度 | 关键指标 | 说明 |
|---|---|---|
| 节点状态 | Ready状态 | 节点是否可调度 |
| 节点压力状态 | DiskPressure/MemoryPressure/PIDPressure | |
| 节点不可调度(Cordoned) | 主动/被动不可调度 | |
| 资源利用率 | CPU使用率 | 整体CPU使用百分比 |
| 内存使用率 | 不含缓存的真实内存使用率 | |
| 磁盘使用率 | 系统分区/镜像分区使用率 | |
| inode使用率 | inod耗尽会无法创建文件 | |
| 系统负载(Load Average) | 与CPU核心数对比评估压力 | |
| 内核与网络 | 文件描述符使用量 | 是否接近系统上限 |
| Conntrack表使用率 | nf_conntrack_count / max | |
| TCP套接字错误 | 连接重置、超时等 |
四、Pod 与容器(工作负载)
| 监控维度 | 关键指标 | 说明 |
|---|---|---|
| 生命周期 | Pod阶段状态 | Pending/Running/Succeeded/Failed/Unknown |
| Pod启动时间 | 从创建到Ready耗时 | |
| 容器重启次数 | 频繁重启=异常 | |
| 镜像拉取失败次数 | ImagePullBackOff 排查 | |
| 资源使用 | CPU使用量 | 实际使用CPU核心数 |
| 内存使用量 | 实际物理内存 | |
| 网络流量 | 容器网络吞吐量 | |
| 磁盘读写IO | 容器磁盘IO | |
| 资源饱和度 | CPU节流时间 | 超过limit被限制时间 |
| OOM Kill事件 | 内存超限被杀死 | |
| 健康检查 | livenessProbe 状态 | 存活检查失败次数 |
| readinessProbe 状态 | 就绪检查失败次数 |
五、网络组件
| 组件 | 关键指标 | 说明 |
|---|---|---|
| CoreDNS | DNS查询速率 | 每秒请求数 |
| DNS查询延迟(99分位) | 请求响应耗时 | |
| DNS错误率 | 超时、NXDOMAIN等 | |
| 与apiserver通信错误 | 后端连接失败 | |
| CNI插件 | 网络策略数量 | 策略过多影响性能 |
| 策略执行延迟 | 网络策略生效时间 | |
| BPF映射大小(Cilium) | eBPF内部结构大小 | |
| Service | Endpoints数量 | 后端Pod是否正常 |
| 服务连通性 | 端到端连通检查 |
六、存储
| 监控维度 | 关键指标 | 说明 |
|---|---|---|
| PV/PVC状态 | 卷状态 | Bound/Pending/Failed |
| PVC绑定延迟 | 创建到绑定PV耗时 | |
| 存储配额使用率 | PVC已用容量/总容量 | |
| 存储性能 | 存储IO延迟 | 读写操作延迟 |
| 存储IOPS | 每秒读写次数 | |
| 存储吞吐量 | 每秒读写字节数 | |
| CSI插件 | CSI调用延迟 | 存储插件接口响应时间 |
| CSI调用错误率 | 挂载/卸载/创建卷失败次数 |
七、扩展组件
| 监控维度 | 关键指标 | 说明 |
|---|---|---|
| Ingress Controller | 请求速率 | 每秒流入请求数 |
| 后端错误率(5xx) | 上游服务5xx比例 | |
| 响应延迟 | 请求处理耗时 | |
| TLS握手耗时 | HTTPS建立连接耗时 | |
| 活跃连接数 | 并发连接数 | |
| 外部负载均衡器 | 请求/错误率 | 请求量、错误率、健康状态 |
| 后端健康状态 | 后端节点可用性 |