Prometheus 集群方案之联邦

概述

当前编写文章之时，Prometheus 的最新版本是 2.25，所以以下讨论都基于 Promethues 2.25 的特性来展开。

联邦解决什么问题

联邦（Federation）这个特性只是部分解决了单点性能瓶颈问题，其中 Prometheus 提供两种联邦的使用场景，分别是：

层级联邦
跨服务联邦

层级联邦

在 Prometheus Federation 中，层级联邦（Hierarchical Federation）的作用是将细致的 metric 分散到各个不同的子 prometheus 中存储，每个子 prometheus 各司其职管理自己的范围内的详细 metrics。

还有，对于一个整体视图的 metrics，那么将由一个整体的 prometheus 从各个子 prometheus 中获取。

举个详细例子，假如有一个 3 节点的集群，每个集群里面运行着很多服务，那么每个节点上都运行一个 prometheus，负责这个节点上所有服务的所有 metrics 监控。然后，对于这个集群的整体视图的 metric，例如 host CPU usage 这些，可以在集群中选出一个 leader 节点，再单独运行一个 prometheus，由这个 prometheus 从 3 个节点上的 prometheus 拉取像 CPU 使用率这样的 metric，从而分散每一个 prometheus 的压力。

跨服务联邦

Prometheus Federation 的另外一种模式是所谓的跨服务联邦（Cross-service federation）。在这种模式下，Prometheus 是以服务为主体进行组织的。

例如还是 3 节点的集群，在每个节点（主机）上，可能运行有集群服务（例如 K8S），也会运行有业务服务（例如 Web Server 之类），这两种服务分别使用不同的 Prometheus 用于抓取和存储 metrics。但是，可能对于业务 Prometheus 也会关注说某个业务应用的 CPU 使用情况，此时，就可以将业务 Prometheus 从平台 Prometheus 中获取应用的 CPU 使用情况的 metric，从而组成了一种跨服务联邦。

总结

Prometheus Federation 在一定程度上解决了 Promtheus 的单点性能瓶颈，但是，并没有解决其他问题，例如就跨服务联邦来说，如果业务 Prometheus 挂掉了，那么业务 Metrics 也就无法抓取，你挂多久就多久没有 Metrics；还有对于跨联邦的一些聚合， Prometheus 应该是没有实现的（这在某些第三方中是单独实现的），例如跨服务的联邦，你想看所有服务的 CPU 使用率 Top10 的服务，这个可能没法实现，当然，前面也提到了，你可以将关注的这些指标单独抽离出来一个 Prometheus 来做，但是还是比较诡异。

Prometheus 官方也在一些 Issue 中回答过单点故障数据丢失的问题，他们建议的解决方案是做主备，也就说对于业务 Prometheus，开多个 Prometheus 实例，以相同的频率采集相同的 endpoint，但是，当你查询 Metirc 的时候，只找其中一个来查询就可以了。

主备方案行不行？也许行，但是在 2B 场景下大多数情况下是不行，因为 Metrics 是实时数据，即使主备两个 Prometheus 同时请求，也很可能获取到不同的值，那如果 Prometheus A 采集到的值可以触发报警，Prometheus B 采集到的值不能触发报警，那我是要触发报警呢？还是不触发报警？如果触发报警了，倒是 A 挂了，你通过 B 查看历史数据，你又要怎么解释呢？

Ref

Prometheus Federation

格物致知

All Posts

Prometheus 集群方案之联邦

概述

联邦解决什么问题

层级联邦

跨服务联邦

总结

Ref

文章目录

系列文章