work-summary-remove


机房迁移过程中,当服务从阿里云迁移到机房网络后,由于网络、网关、运行环境的差异,服务在机房部署后,可能会出现由于跨网访问数据库、其他服务引起的响应时间过大、访问不通问题。
为了方便识别此类问题,提供相应的监控,协助迁移研发发现响应状态、响应时间的异常 。

项目实战-机房迁移监控

监控

监控看板: 阿里云&58机房接口监控对比(服务维度)

看板功能如下:
两个机房中服务的总QPS、访问量比例、平均响应时间、平均响应时间的差值
两个机房中服务响应状态维度的QPS
接口维度的平均响应时间差值(全部接口)
机房服务中,三方接口的响应QPS

监控看板: 阿里云&58机房接口监控对比(接口维度)

看板功能如下:
两个机房中接口的QPS、访问量比例、平均响应时间、平均响应时间的差值
两个机房中接口响应状态维度的QPS
接口维度的平均响应时间差值

后记

迁移后服务的响应异常主要可以通过两个点看出来,但是不能保证通过这种方式识别100%的问题,更多问题依然需要通过业务日
志的错误日志等进行综合判断
有无异常响应状态(如阿里云上无500状态响应,但是机房出现500响应)
接口响应时间异常高(如阿里云上某接口响应时间在300ms,在机房的响应时间稳定超过3秒,这种情况可能是因为接口中访问数据库、其他接口等资源出现访问不通问题)


文章作者: WangQingLei
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 WangQingLei !
 上一篇
GC与GC日志说明 GC与GC日志说明
GC日志内容说明
2023-07-28
下一篇 
Java Hotspot G1 GC的一些关键技术 Java Hotspot G1 GC的一些关键技术
从 Java 9 始,G1 是 32 位和 64 位服务器配置上的默认垃圾收集器。G1是一种服务器端的垃圾收集器,应用在多处理器和大容量内存环境中,在实现高吞吐量的同时,尽可能的满足垃圾收集暂停时间的要求。它是专门针对以下应用场景设计的:
2023-07-26
  目录