Skip to content

使用 Insight 定位应用异常

本文将以 AI 算力中心中举例,讲解如何通过 Insight 发现 AI 算力中心中异常的组件并分析出组件异常的根因。

本文假设你已经了解 Insight 的产品功能或愿景。

拓扑图 — 从宏观察觉异常

随着企业对微服务架构的实践,企业中的服务数量可能会面临着数量多、调用复杂的情况,开发或运维人员很难理清服务之间的关系, 因此,我们提供了拓扑图监控的功能,我们可以通过拓扑图对当前系统中运行的微服务状况进行初步诊断。

如下图所示,我们通过拓扑图发现其中 Insight-Server 这个节点的颜色为 红色 ,并将鼠标移到该节点上, 发现该节点的错误率为 2.11% 。因此,我们希望查看更多细节去找到造成该服务错误率不为 0 的原因:

01

当然,我们也可以点击最顶部的服务名,进入到该服务的总览界面:

02

服务总览 — 具体分析的开始

当你需要根据服务的入口和出口流量分别分析的时候,你可以在右上角进行筛选切换,筛选数据之后,我们发现该服务有很多 操作 对应的错误率都不为 0. 此时,我们可以通过点击 查看链路 对该 操作 在这段时间产生的并记录下来的链路进行分析:

03

04

链路详情 — 找到错误根因,消灭它们

在链路列表中,我们可以通过界面直观地发现链路列表中存在着 错误 的链路(上图中红框圈起来的),我们可以点击错误的链路查看链路详情,如下图所示:

05

在链路图中我们也可以一眼就发现链路的最后一条数据是处于 错误 状态,将其右边 Logs 展开,我们定位到了造成这次请求错误的原因:

06

根据上面的分析方法,我们也可以定位到其他 操作 错误的链路:

07

08

09

接下来 — 你来分析!