运维巡检与告警分析

从 5 个监控平台手动核查,到说一句话,AI 帮你办妥

接入你的监控、日志与云资源平台后,Dutifly 会自动聚合关键指标。AI 根据异常、日志和调用链给出根因分析,从日常巡检到告警降噪,像同一个可信运维系统。

分钟级
完成跨平台巡检
自动聚合
指标、日志与 Trace
持续学习
沉淀团队排障习惯
System HealthOptimal

SCENARIO

你现在每天在做什么

开始日常巡检

依次打开 Prometheus、Grafana、SLS 等平台,数据在脑子里手动关联。

09:00

开始日常巡检

依次打开 Prometheus、Grafana、SLS 等平台,数据在脑子里手动关联。

处理告警风暴

30 条告警里有 20 条是误报,真正危险的那条淹没在里面。

10:30

处理告警风暴

30 条告警里有 20 条是误报,真正危险的那条淹没在里面。

紧急排障

切 Kibana、Jaeger、Grafana,上下文不断丢失,排查链条破碎。

14:20

紧急排障

切 Kibana、Jaeger、Grafana,上下文不断丢失,排查链条破碎。

WORKFLOW

换一种方式,把复杂留给 AI

运维人员只需要说清排查目标,Dutifly 自动完成场景分解、跨平台取数和证据链整理。

1

一次授权

接入监控、日志、告警和云资源平台。

Grafana / Prometheus / SLS

2

意图识别

自然语言描述任务,AI 自动转化成检查路径。

3

数据聚合

跨监控平台、日志服务和 Trace 关联线索。

4

根因分析

基于证据链输出判断,并标出不确定性。

5

习惯学习

持续记住你的排障偏好,AI 越用越贴近团队方式。

Dutifly · 运维工作区
人工确认支付服务 Payment Service 在 04:32-04:41 出现 P99 延迟抖动,峰值 2,340ms,慢查询集中在 payment-db-replica-2。
我先关联 SLS 错误日志、Prometheus 指标和 Jaeger Trace,排除发布变更和外部依赖。
这个时间点一般是定时任务在跑,你下次先排除掉定时任务流量再分析
已记录并重新分析
针对 04:00-05:00 窗口自动排除 source=scheduler 流量。过滤后,用户请求链路状态为 healthy。
向 Dutifly 提问...

CAPABILITIES

全场景 AIOps 覆盖

不只是看板,更是能读懂系统信号的运维助理

日常巡检报告

每日自动生成跨平台健康报告,并保留原始证据。

告警分级与降噪

基于历史模式识别误报、重复告警和真正风险。

根因定位

关联指标、日志和分布式 Trace 三类证据,给出可验证排查路径。

容量趋势预测

发现 CPU、内存、GC 与磁盘水位趋势,提前提示容量风险。

多云资源治理

聚合 AliCloud、AWS、GCP 多云资源,统一查看实例与使用率。

变更影响评估

发布前后对比关键指标和依赖影响,帮助团队快速复盘。

这个服务凌晨批处理时,先过滤 scheduler 流量
支付链路 P99 超过 800ms 时,优先查连接池

越用越懂你的思维方式

不只是单次分析,Dutifly 会记住你的业务规则、排障经验和偏好。每次人工修正、例外规则和结论,都会沉淀成专属于团队的运维知识。

规则自进化个性化知识库

SUPPORTED ECOSYSTEM

PrometheusGrafanaAliCloud SLSElasticsearchZabbixJaegerPagerDutyDatadogTencent CLS

接入你的监控平台,今天就可以开始体验智能运维

就从保存凭证、自动只读分析和一次健康巡检开始。不改造系统,不影响现有工具栈。

数据只读分析 · 操作风险确认 · 可审计