使用OpenTelemetry进行端到端跟踪-运维杂谈-优维科技

无论您是否实现微服务，您的系统很可能由多个组件组成。最直接的系统可能由反向代理、应用程序和数据库组成。在这种情况下，监控不仅是一个好主意，而且是一项要求。请求可能流经的组件数量越多，要求就越强。

然而，监控只是旅程的开始。当请求开始集体失败时，您需要一个跨所有组件的聚合视图。它被称为追踪，它是可观察性的支柱之一。另外两个是指标和日志。

在这篇文章中，我将只关注跟踪，并描述如何开始你的可观察性之旅。

W3C 跟踪上下文规范

跟踪解决方案应提供跨异构技术堆栈工作的标准格式。这种格式需要遵守规范，无论是正式的还是事实上的。

人们需要了解，规范很少会凭空出现。一般来说，市场已经有几个不同的实现。大多数时候，一个新的规范会导致一个额外的实现，正如著名的 XKCD 漫画所描述的：

然而，有时会发生奇迹：市场遵守新规范。在这里，Trace Context 是一个 W3C 规范，它似乎成功了：

“该规范定义了标准的 HTTP 标头和一种值格式来传播支持分布式跟踪场景的上下文信息。该规范标准化了上下文信息在服务之间的发送和修改方式。上下文信息唯一地标识了分布式系统中的各个请求，还定义了一种方法添加和传播提供者特定的上下文信息。”

文件中出现了两个关键概念：

跟踪遵循跨越多个组件的请求的路径。
跨度绑定到单个组件并通过子父关系链接到另一个跨度。

在撰写本文时，该规范是 W3C 推荐，这是最后阶段。

Trace Context 已经有很多实现。其中之一是 OpenTelemetry。

OpenTelemetry 作为黄金标准

您越接近 IT 的运营部分，您听说OpenTelemetry的机会就越高：

“OpenTelemetry 是工具、API 和 SDK 的集合。使用它来检测、生成、收集和导出遥测数据（指标、日志和跟踪），以帮助您分析软件的性能和行为。

OpenTelemetry 通常可用于多个语言，适合使用。”

OpenTelemetry 是一个由CNCF管理的项目。在 OpenTelemetry 之前有两个项目：

OpenTracing，顾名思义就是专注于trace
OpenCensus，其目标是管理指标和跟踪

两个项目合并并在顶部添加了日志。OpenTelemetry 现在提供了一组专注于可观察性的“层”：

多种语言的检测 API
规范的实现，同样用不同的语言
基础设施组件，例如收集器
互操作性格式，例如 W3C 的 Trace Context

请注意，虽然 OpenTelemetry 是一个 Trace Context 实现，但它的功能更多。Trace Context 将自身限制为 HTTP，而 OpenTelemetry 允许 span 跨非 Web 组件，例如 Kafka。它超出了这篇博文的范围。

用例

我最喜欢的用例是电子商务商店，所以我们不要更改它。在这种情况下，商店是围绕微服务设计的，每个微服务都可以通过 REST API 访问，并受到 API 网关的保护。为了简化博客文章的架构，我将只使用两个微服务：catalog管理产品和pricing处理产品价格。

当用户到达应用程序时，主页会获取所有产品，获取它们各自的价格并显示它们。

更有趣的是，catalog是一个用 Kotlin 编码的 Spring Boot 应用程序，而pricing一个 Python Flask 应用程序。

跟踪应该允许我们通过网关跟踪请求的路径，包括微服务和（如果可能的话）数据库。

网关处的痕迹

入口点是跟踪中最令人兴奋的部分，因为它应该生成跟踪 ID。在这种情况下，入口点是网关。我将使用Apache APISIX来实现演示：

“Apache APISIX 提供了丰富的流量管理功能，如负载均衡、动态上游、金丝雀发布、断路器、身份验证、可观察性等。”

Apache APISIX 基于插件架构并提供OpenTelemetry 插件：

“该opentelemetry插件可用于根据 OpenTelemetry 规范报告跟踪数据。

该插件仅支持基于 HTTP 的二进制编码 OLTP。”

让我们配置opentelemetry插件：

#1：在独立模式下运行 Apache APISIX 以使演示更易于理解。无论如何，这在生产中是一个很好的做法。

#2：配置opentelemetry为全局插件。

#3：设置服务的名称。它将出现在跟踪显示组件中的名称。

#4：将跟踪发送到jaeger服务。以下部分将对其进行描述。

我们想跟踪每条路由，所以我们应该将插件设置为全局插件，而不是向每条路由添加插件：

#1：跟踪对性能有影响。我们追踪的越多，我们的影响就越大。因此，我们应该仔细平衡性能影响与可观察性的好处。但是，对于演示，我们希望跟踪每个请求。

收集、存储和显示轨迹

虽然 Trace Context 是 W3C 规范，而 OpenTelemetry 是事实上的标准，但市场上存在许多收集、存储和显示跟踪的解决方案。每个解决方案都可以提供所有三种功能或仅提供其中的一部分。例如，Elastic 堆栈处理存储和显示，但您必须依靠其他东西来收集。另一方面，Jaeger和Zipkin确实提供了一个完整的套件来实现所有三个功能。

Jaeger 和 Zipkin 早于 OpenTelemetry，因此每个都有其跟踪传输格式。不过，它们确实提供了与 OpenTelemetry 格式的集成。

在这篇博文的范围内，确切的解决方案并不相关，因为我们只需要功能。我选择 Jaeger 是因为它提供了一个一体化的 Docker 镜像：每个功能都有其组件，但它们都嵌入在同一个镜像中，这使得配置更加轻松。

镜像的相关端口如下：