在大型系统的维护中,实时监控对于开发人员了解系统情况,排查系统问题至关重要。本文不会介绍这类实时监控的实现原理(有兴趣的可以去找相关开源软件,如OpenTSDB),只是从一个开发人员的角度阐述如何理解并正确使用这类监控系统。注:如果你有过使用这类监控系统的经历,可能会更清楚我要说明的问题。
之所以写这篇文章,是因为最近遇到了两个系统问题,都是看监控与实际数据表现不符,觉得还挺有意思,特记录下。
以上两个问题经查看服务器日志发现,确实都是监控系统曲线有问题。如何配置出正确的监控就是我们要解决的问题。
为了方便理解,简单介绍下一下本文所说的一些概念,先看下监控系统是如何工作的。如果你没接触过,那么建议你停下来想一下,你自己构建这样的系统会怎么做。