对于部署在台湾并走CN2链路的服务器,必须同时监测网络层与主机层。核心的性能监测指标包括延迟、丢包、抖动、带宽吞吐、连接成功率以及主机资源指标等。
1) 延迟(RTT):常用p50、p95、p99等百分位来表征用户体验;
2) 丢包率:区分链路丢包与链路末端丢包,通常以0.1%、1%等阈值分级;
3) 抖动:对实时服务(语音/视频)至关重要;
4) 带宽与吞吐:上行/下行峰值与持续带宽利用率;
5) TCP重传/建立时延:反映链路质量与服务器响应能力。
6) CPU、内存、磁盘I/O利用率;
7) 活跃连接数、进程数、线程数、队列长度;
8) 应用层延时(HTTP响应时间、数据库查询时延、TLS握手时间等);
9) 日志错误率、异常请求率与SLA相关的业务指标(如成功率、吞吐量)。
针对不同指标设置采集频率:网络基础指标可每1-60s抓取,关键业务链路建议1-5s;主机指标可每15-60s。并区分主动合成检测(synthetic)与被动流量采集(NetFlow/sFlow、tcpdump)。
制定SLA需先定义SLI(服务级别指标),再把SLI映射为具体的SLA目标与赔付策略,同时明确测量方法与测量点。
1) 可用性SLA:月可用率99.95%,测量口径为业务端口TCP探测或HTTP返回200的比率;
2) 延迟SLA:P95 RTT ≤ 80ms(台湾到目标用户地域),并指出测量节点与时间窗;
3) 丢包SLA:丢包率≤0.5%(按分钟或5分钟窗口统计);
4) 吞吐SLA:在高峰期保证平均带宽不低于约定上限的X%。
定义统一的测量点(台湾机房、对端POP、用户侧探针)、采样频率、异常排除(计划维护窗口、DDoS攻击期间如何计入)以及数据保留期,确保SLA可验证且可审计。
告警体系要做到可操作、可追踪并且避免告警疲劳。采用分级(P1—P4)和多层阈值(警告/严重/致命),例如P1:影响客户可用性,P2:性能退化但未中断。
结合绝对阈值(如丢包>1%)与相对/动态阈值(相对于历史峰值+x倍标准差),并对周期性波动(业务高峰)进行时间窗口感知和抑制。
告警进行自动分流到对应的运维/网络/应用团队,配置分班、值班表、升级链路(短信/电话/APP推送),并在告警中附带丰富的上下文(最近指标曲线、相关日志、影响范围)。
通过告警抑制(maintenance windows)、事件关联(把同一根因的多个告警合并)与熔断策略减少重复告警,确保上报的每个告警都能被快速定位与处理。
选择监控工具时要兼顾主动合成检测、被动流量采样、BGP/路由监测与主机/应用监控。常用组合包括Prometheus+Grafana用于指标与告警、Datadog或Zabbix用于集中监控、ThousandEyes/RIPE用于链路与互联网可视化。
1) 合成与链路测试:ThousandEyes、smokeping、iperf3、ping/HTTP合成监测;
2) 流量与包分析:sFlow/NetFlow、tcpdump、Wireshark;
3) 指标采集与告警:Prometheus(node_exporter、blackbox_exporter)、Grafana告警或Alertmanager;
4) 路由/互联监测:BGP监控工具、路由可达性检测、AS路径分析。
部署探针时覆盖多种出口与对端节点(中国大陆出口、台湾本地、香港/日本节点),确保合成测试模拟真实用户路径;对关键指标设置合理的保留周期与下钻日志,以便事后分析。
建立标准化的Incident流程:检测→富信息告警→分类(网络/主机/应用)→通知与升级→临时缓解→根因定位→恢复→事后复盘(RCA)。每一步都应有明确的责任人和工单追踪。
定期进行桌面演练与现场演练(至少季度一次),验证告警链路、跨团队沟通、应急脚本与回滚流程;演练要包含CN2链路中断、丢包暴增、DDos场景与主机资源耗尽场景。
每次事件后产出可量化的RCA文档,包含时间线、影响面、根因、临时缓解和长期改进项(如调整阈值、增加探针、优化路由、补充Runbook),并把改进项纳入版本计划与SLA条款修订中。