1.
总体原则与设计目标
• 明确可用性目标:99.95%或以上作为目标SLA。
• 采用冗余等级:常见2N或N+1,台湾机房建议至少2N供电路径。
• 兼顾散热与功耗:PUE控制在1.4以下可显著降低总能耗。
• 网络与电源同等重要:电源冗余必须与网络多出口(BGP)相匹配。
• 预留扩展空间:机柜在定做时应预留20%功率和20%端口冗余以应未来扩容。
2.
电源架构与冗余拓扑
• 双路输入A/B:每个机柜采用两条独立电源干线(来自不同母线)。
• UPS 2N或模块化冗余:关键业务建议采用2N UPS或N+1模块化UPS。
• PDU分路管理:机柜内双路PDU分别供电给奇偶U位,防止单点故障。
• ATS/配电切换:自动转移开关用于市电/柴油机切换,切换时间与负载稳态测试必须验证。
• 电缆路径冗余:供电电缆和接地线应走独立通道并有明确标签与测试记录。
3.
功耗预算与示例表格
• 评估单台服务器TDP与实际平均功耗,以实际测量为准。
• 机柜总功耗按峰值计算并加20%冗余余量。
• 举例:机柜20台服务器的功耗预算如下表。
• 采用表格展示峰值、平均及总计,便于电源容量选择。
• 依据表中数据选择UPS与空调容量,确保不超载。
| 设备类型 | 单台峰值功耗(W) | 单台平均功耗(W) | 数量 | 总平均功耗(W) |
| 2U 服务器(Xeon 2颗) | 800 | 550 | 20 | 11000 |
| 交换机/路由器 | 200 | 150 | 2 | 300 |
| 合计(含20%冗余) | - | - | - | 13320 |
4.
服务器与机柜具体配置示例
• 参考配置A(高IO型):2U机,2x Intel Xeon Silver 4214,256GB DDR4,8x1.92TB NVMe,双10GbE,双冗余电源。
• 参考配置B(计算密集):1U机,2x AMD EPYC 7282,128GB,4x1TB NVMe,1GbB+10GbSFP,双电源。
• 机柜配套:42U机柜,双路输入,2x2N UPS机柜侧分配,智能PDU支持SNMP。
• 散热方案:热通道/冷通道布置,机柜前后门配风量监测与温湿度传感。
• 运维建议:每台服务器装冗余PSU并与不同PDU相连,保证单PDU故障不影响主机。
5.
网络冗余、CDN与DDoS防护联动
• 多出口BGP:至少两家运营商接入,避免单运营商故障。
• CDN策略:对静态内容采用CDN节点缓存,减轻源站带宽与CPU压力。
• DDoS缓解:配合云端清洗(如Arbor、Cloudflare或本地清洗中心)做上游黑洞与流量清洗。
• 流量基线与告警:建立正常流量基线,超过阈值自动触发清洗或扩容。
• 案例说明:某台湾SaaS客户在遭遇每秒500kpps UDP泛洪时,通过BGP流量转发至清洗中心,源站可用性维持99.99%。
6.
真实案例:台北数据中心机柜交付
• 背景:一家电子支付公司在台北部署核心节点,需支持高并发与全天候交易。
• 电源方案:采用双市电进线、2N UPS(2台模块化UPS),机柜PDU双路分配。
• 服务器配置:20台2U服务器(见表格配置A),双电源并接PDU A/B。
• 结果:在一次市电切换测试中,ATS切换时间<100ms,UPS无掉电记录,交易无中断。
• 运维心得:定期做带载切换测试、UPS电池年检与PDU负载平衡,是维持高可用的关键。
7.
运维、监控与测试流程
• 常态监控:电流、电压、PDU负载、环境温湿度与机柜门状态需接入监控平台。
• 定期演练:每半年做一次市电切换与UPS断电演练,验证业务切换流程。
• 容灾演习:模拟DDoS流量并测试CDN+清洗流程,确保路由与告警联动。
• 文档与SOP:所有电源拓扑、紧急切换步骤与联络人信息必须标准化存档。
• 性能验证:新增服务器上线前做功耗与热量测量,确保不会造成局部热点或超载。
来源:台湾标准服务器机柜定做时电源和冗余设计的最佳实践