排障毫无头绪?
还在各种指标、告警中找线索吗?
传统可观测性数据只有相关性而无因果性
因果性依赖算法和人的经验推导
革命性具备因果性的北极星指标数据助力企业容量管理、根因分析
北极星指标引领线索方向
等待CPU调度耗时
等待网络耗时
其他耗时
等待锁耗时
等待文件读写耗时
CPU上执行耗时
应用延时
什么是北极星指标?
具有因果关系的北极星指标
具体业务请求延时完美拆解成分项耗时
多语言支持 轻松安装
一键命令安装
helm repo add originx https://originx-kindling-chart.oss-cn-hangzhou.aliyuncs.com && helm repo update && helm install originx-polaris originx/originx-polaris -n originx --create-namespace
标准化数据协议
数据直接落地 Prometheus 或 VictoriaMetrics
一个大屏即可确定瓶颈点和故障线索方向
北极星指标经典案例
应用延时飙升:自身问题还是下游问题?
Preview
ts-travel-service
ts-basic-service
ts-travel-service
耗时波动是由于其下游调用
ts-basic-service
耗时波动
接下来聚焦于
ts-basic-service
进一步排障
应用的问题,还是网络的问题?
Preview
查看北极星指标,延时波动完全是由于epoll 异步网络波动导致的
轻松找到线索——应用通过网络调用产生了波动
可能原因:
  • 下游程序执行波动
  • 网络质量波动
继续验证是否是网络波动
Preview
ts-basic-service
ts-station-service
ts-basic-service
波动确认是网络质量波动导致,而不是下游程序执行波动导致,因为下游耗时很稳定
北极星指标引领线索——文件读写
Preview
文件IO曲线波动导致延时波动
容器资源规格是否需要提升
VS
容器间资源是否存在争抢
Preview
CPU资源等待耗时和TPS曲线正相关
可以提升容器规格来增强应用性能
Preview
CPU资源等待耗时和TPS曲线负相关
判断容器所在主机存在资源争抢
北极星分项指标大屏展示
cpu执行时间波动导致时延抖动
下游网络或者程序执行导致时延抖动
(包括中间件)
锁或者频繁GC导致时延抖动
CPU调度导致时延抖动
(CPU资源不足或者线程太多)
文件读写导致时延抖动