监控

有关监控的思考

经过这些年在阿里运维工作磨练,深切意识到,监控和自动化是运维的两块基石。

没有持续可靠且 深入基础设施、基础服务和应用逻辑的监控 ,运维工作几乎是无法进行的。

只有通过监控来自动发现和预测故障,才能使得运维人员能够不断改进和完善自动化系统,实现稳定的云计算平台。

注意发现问题只是开始,及时发现问题只是好的开始! 真正的云计算是一切皆自动,从自动发现到自动处理,以及不断的演进才是根本!

监控的分类

个人见解,随工作发展不断完善

  • 基础设施和基础服务监控 -- 基础设施和基础服务是没有业务逻辑的基础平台,涵盖了 IaaSPaaS 整个平台堆栈,

    • 服务器

    • 网络

    • 存储

    • 虚拟化

    • 数据库

  • 应用逻辑的监控 -- 应用层指的是SaaS,需要对整个业务链路进行完整的数据分析,以分析和预测故障和隐患,不断优化平台。

通过大数据分析,对整个应用全面而深刻的掌控,是整个运维工作的关键。

探索

不会开发的监控不是好运维!

计划从以下方面来完善监控能力:

  • 探索和比较开源的基础监控架构,部署并学习框架,以期能够融会贯通、综合所长。

  • 结合大数据分析,对业务监控进行不断优化

  • 自动化处理和优化,这是一个长期的迭代改进

Last updated