- 响应时间 (Response Time)
 定义:从用户发出请求到接收到响应的时间。
 重要性:直接影响用户体验。响应时间过长会导致用户不满,甚至放弃使用。
 度量:通常以毫秒 (ms) 为单位。
- 吞吐量 (Throughput)
 定义:单位时间内系统处理的请求数或事务数。
 重要性:衡量系统的处理能力。高吞吐量表示系统能够处理更多的请求。
 度量:通常以每秒事务数 (TPS) 或每秒请求数 (RPS) 为单位。
- 并发用户数 (Concurrent Users)
 定义:同一时间内与系统交互的用户数量。
 重要性:影响系统的负载能力和稳定性。高并发用户数可能暴露系统瓶颈。
 度量:通常以用户数为单位。
- CPU 使用率 (CPU Utilization)
 定义:CPU 被占用的程度。
 重要性:过高或过低的 CPU 使用率都可能是问题的标志。过高可能导致系统响应变慢,过低可能表示资源未被充分利用。
 度量:通常以百分比 (%) 为单位。
- 内存使用率 (Memory Utilization)
 定义:系统使用的内存量。
 重要性:内存不足会导致系统性能下降,甚至崩溃。过多的内存使用可能表示内存泄漏。
 度量:通常以兆字节 (MB) 或千兆字节 (GB) 为单位。
- 磁盘 I/O (Disk I/O)
 定义:磁盘读写操作的速度和频率。
 重要性:磁盘 I/O 性能差会影响系统的整体性能,特别是在数据密集型应用中。
 度量:通常以每秒读写次数 (IOPS) 和每秒传输的数据量 (MB/s) 为单位。
- 网络 I/O (Network I/O)
 定义:网络接口的输入输出流量。
 重要性:网络延迟和带宽限制可以严重影响分布式系统的性能。
 度量:通常以每秒传输的数据量 (Mbps) 为单位。
- 错误率 (Error Rate)
 定义:失败的请求或事务占总请求或事务的比例。
 重要性:高错误率可能表示系统存在严重的问题,如配置错误、资源不足或代码缺陷。
 度量:通常以百分比 (%) 为单位。
- JVM 相关指标(对于 Java 应用)垃圾回收 (Garbage Collection):GC 次数和 GC 时间。堆内存 (Heap Memory):年轻代和老年代
- 数据库相关指标查询时间 (Query Time):SQL 查询的执行时间。连接池 (Connection Pool):可用连接数和等待连接数。锁竞争 (Lock Contention):数据库中的锁竞争情况。
 应用程序特定指标业务逻辑相关的指标:例如,订单处理时间、支付成功率等。日志分析:通过日志文件分析异常和错误信息。
- 系统稳定性 (System Stability)
 定义:系统在长时间运行下保持稳定的能力。重要性:确保系统在高负载下不会崩溃或出现严重的性能退化。
 度量:通过长时间的压力测试来评估。
- 资源利用率 (Resource Utilization)
 定义:系统资源(如 CPU、内存、磁盘、网络)的使用情况。
 重要性:合理利用资源可以提高系统的效率和成本效益。
 度量:通过 top、htop、iostat 等工具进行监控。
- 扩展性 (Scalability)
 定义:系统在增加资源(如 CPU、内存、服务器)时提升性能的能力。
 重要性:确保系统可以通过增加资源来应对更高的负载。
 度量:通过水平扩展(增加服务器)和垂直扩展(增加单个服务器的资源)来评估。
- 用户体验 (User Experience)
 定义:用户对系统的主观感受,包括页面加载时间、交互流畅度等。
 重要性:直接影响用户的满意度和留存率。
 度量:通过用户反馈、A/B 测试和实际使用数据来评估。
- 系统健康状况 (System Health)
 定义:系统各个组件的状态,包括硬件、软件和服务。
 重要性:确保系统的所有部分都在正常运行。度量:通过监控工具和日志分析来评估。使用情况。非堆内存 (Non-Heap Memory):元空间等非堆内存的使用情况。