# 监控

## 有关监控的思考

经过这些年在阿里运维工作磨练，深切意识到，监控和自动化是运维的两块基石。

没有持续可靠且 **`深入基础设施、基础服务和应用逻辑的监控`** ，运维工作几乎是无法进行的。

只有通过监控来自动发现和预测故障，才能使得运维人员能够不断改进和完善自动化系统，实现稳定的云计算平台。

> **注意** ：`发现问题只是开始，及时发现问题只是好的开始! 真正的云计算是一切皆自动，从自动发现到自动处理，以及不断的演进才是根本!`

## 监控的分类

> 个人见解，随工作发展不断完善

* 基础设施和基础服务监控 -- 基础设施和基础服务是没有业务逻辑的基础平台，涵盖了 `IaaS` 到 `PaaS` 整个平台堆栈，
  * 服务器
  * 网络
  * 存储
  * 虚拟化
  * 数据库
* 应用逻辑的监控 -- 应用层指的是`SaaS`，需要对整个业务链路进行完整的数据分析，以分析和预测故障和隐患，不断优化平台。

通过`大数据`分析，对整个应用全面而深刻的掌控，是整个运维工作的关键。

## 探索

不会开发的监控不是好运维!

计划从以下方面来完善监控能力：

* 探索和比较开源的基础监控架构，部署并学习框架，以期能够融会贯通、综合所长。
* 结合`大数据`分析，对业务监控进行不断优化
* 自动化处理和优化，这是一个长期的迭代改进


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://huataihuang.gitbook.io/cloud-atlas-draft/monitor.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
