跳至正文

Kubernetes 全维度监控指标体系

一、集群层面

监控维度 关键指标 说明
集群整体健康 集群不可用节点比例 节点Ready状态占比
组件健康状态 apiserver/etcd/scheduler/controller-manager 的运行状态 核心控制面组件状态
插件健康状态 CoreDNS/kube-proxy/CNI 插件是否正常运行 集群网络与DNS基础插件
资源对象状态 异常Pod数量 Pending/Error/CrashLoopBackOff 状态的Pod
资源配额使用率(如果配置) ResourceQuota 使用百分比 命名空间资源限制使用情况
HPA扩缩容活动 自动扩缩容的触发频率和当前副本数 工作负载弹性状态
集群事件 关键事件实时监控 重点关注:Failed、BackOff、Evicted、Unhealthy
驱逐事件 节点压力导致的Pod驱逐次数 节点资源不足引发的驱逐
OOM事件 容器OOM Kill的次数和位置 内存超限杀死容器
证书管理 证书过期时间 kubelet、etcd、CA 等证书有效期

二、Master 组件

组件 关键指标 说明
API Server 请求延迟(99分位) 读写请求处理耗时
QPS(请求速率) 每秒处理请求数
5xx/4xx 错误率 请求失败比例
认证授权失败次数 认证失败、RBAC 权限拒绝次数
并发连接数 当前活跃连接数
Etcd 磁盘读写延迟(fsync耗时) 直接影响集群响应速度
Raft 提案延迟 事务提交延迟
Leader 选举次数 频繁选举表示集群不稳定
Follower 与 Leader 同步延迟 数据同步健康状况
DB 总大小 警告>2GB,危险>8GB
存储空间使用率 etcd 数据目录磁盘使用
Scheduler 调度失败Pod数量及原因 资源不足、端口冲突、污点不匹配等
调度算法执行耗时 创建到绑定节点耗时
待调度Pod数(Pending) 长时间未调度的Pod
Controller Manager 控制器同步耗时 Node/ReplicaSet/Deployment 处理延迟
控制器重试次数 操作失败次数

三、Node 组件

监控维度 关键指标 说明
节点状态 Ready状态 节点是否可调度
节点压力状态 DiskPressure/MemoryPressure/PIDPressure
节点不可调度(Cordoned) 主动/被动不可调度
资源利用率 CPU使用率 整体CPU使用百分比
内存使用率 不含缓存的真实内存使用率
磁盘使用率 系统分区/镜像分区使用率
inode使用率 inod耗尽会无法创建文件
系统负载(Load Average) 与CPU核心数对比评估压力
内核与网络 文件描述符使用量 是否接近系统上限
Conntrack表使用率 nf_conntrack_count / max
TCP套接字错误 连接重置、超时等

四、Pod 与容器(工作负载)

监控维度 关键指标 说明
生命周期 Pod阶段状态 Pending/Running/Succeeded/Failed/Unknown
Pod启动时间 从创建到Ready耗时
容器重启次数 频繁重启=异常
镜像拉取失败次数 ImagePullBackOff 排查
资源使用 CPU使用量 实际使用CPU核心数
内存使用量 实际物理内存
网络流量 容器网络吞吐量
磁盘读写IO 容器磁盘IO
资源饱和度 CPU节流时间 超过limit被限制时间
OOM Kill事件 内存超限被杀死
健康检查 livenessProbe 状态 存活检查失败次数
readinessProbe 状态 就绪检查失败次数

五、网络组件

组件 关键指标 说明
CoreDNS DNS查询速率 每秒请求数
DNS查询延迟(99分位) 请求响应耗时
DNS错误率 超时、NXDOMAIN等
与apiserver通信错误 后端连接失败
CNI插件 网络策略数量 策略过多影响性能
策略执行延迟 网络策略生效时间
BPF映射大小(Cilium) eBPF内部结构大小
Service Endpoints数量 后端Pod是否正常
服务连通性 端到端连通检查

六、存储

监控维度 关键指标 说明
PV/PVC状态 卷状态 Bound/Pending/Failed
PVC绑定延迟 创建到绑定PV耗时
存储配额使用率 PVC已用容量/总容量
存储性能 存储IO延迟 读写操作延迟
存储IOPS 每秒读写次数
存储吞吐量 每秒读写字节数
CSI插件 CSI调用延迟 存储插件接口响应时间
CSI调用错误率 挂载/卸载/创建卷失败次数

七、扩展组件

监控维度 关键指标 说明
Ingress Controller 请求速率 每秒流入请求数
后端错误率(5xx) 上游服务5xx比例
响应延迟 请求处理耗时
TLS握手耗时 HTTPS建立连接耗时
活跃连接数 并发连接数
外部负载均衡器 请求/错误率 请求量、错误率、健康状态
后端健康状态 后端节点可用性

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注