1.
概述:五域通达的运维思路与目标
1) 明确边界:主机、VPS、域名、CDN、上游网络是五大域;
2) 目标是最低权限、最短暴露面、可恢复性与可观测性;
3) 优先级按风险与影响排序:SSH/应用口>网络层>DNS/域名>CDN策略;
4) 本文聚焦台湾VPS场景,兼顾跨境访问延迟与本地法规;
5) 输出可复制配置、真实流量数据与逐步恢复方案,便于运维落地。
2.
环境与基线:台湾VPS真实配置示例
1) 示例VPS配置(见下表):
2) 操作系统:Ubuntu 20.04 LTS;内核 5.4;
3) 公网带宽说明:1Gbps端口,默认共享,计费按峰值;
4) 管理方式:控制台+SSH+API,启用硬件防火墙规则白名单;
5) 基线备份:每天快照,7天滚动备份,异地存储。
| 项 | 示例值 |
| CPU | 2 vCPU |
| 内存 | 4 GB |
| 磁盘 | 80 GB SSD |
| 带宽 | 1 Gbps 公网端口 |
| 系统 | Ubuntu 20.04 |
3.
远程访问与SSH安全加固
1) 禁用密码登录:/etc/ssh/sshd_config 中设置 PasswordAuthentication no;
2) 更换端口并限制登录来源:将 SSH 端口改为 2222,配合 cloud firewall 白名单;
3) 限制root登录:PermitRootLogin no;使用 sudo 管理权限;
4) 使用公钥+私钥并启用 ssh-agent 转发限制与两因素认证(Google Authenticator);
5) Fail2Ban 配置示例:jail.d/sshd.local 中 maxretry=3, bantime=3600;
6) SSH 示例片段(便于复制):Port 2222
PermitRootLogin no
PasswordAuthentication no
MaxAuthTries 3
4.
防火墙与内核网络调优
1) 使用 nftables 或 iptables 做最小化允许规则:仅放行 80/443/应用端口与管理端口;
2) 启用 SYN cookie 和 TCP 连接限制:sysctl 配置示例如下;
3) 常用 sysctl 值(/etc/sysctl.conf):net.ipv4.tcp_syncookies=1;net.ipv4.tcp_max_syn_backlog=2048;net.netfilter.nf_conntrack_max=262144;
4) 实时限速:iptables -A INPUT -p tcp --dport 80 -m connlimit --connlimit-above 200 -j DROP;
5) 人机分流:对 API 使用限速策略(nginx limit_req),并对异常 IP 速封;
6) 日志采集:所有 DROP/REJECT 记录发送到远程 syslog,方便审计与回溯。
5.
CDN 与 DDoS 防御策略
1) 将静态内容与 TLS 终端放到 CDN,隐藏源站 IP;
2) 使用Cloudflare/阿里云/五域上游防护,启用 WAF 与速率限制;
3) TCP/UDP 大流量攻击采用上游黑洞或流量清洗(清洗阈值例:>200 Mbps 时切入);
4) 结合 BGP Anycast 多点分发,降低单点流量压力;
5) 真实数据对比:一次攻击中,下游直连峰值 350 Mbps、100kpps;接入 CDN+清洗后峰值降为 15–25 Mbps,丢包率<1%;
6) 定期演练“切换到清洗”流程,确保 5 分钟内完成切换并验证。
6.
入侵检测、监控与响应
1) 部署主机级 IDS:Wazuh/OSSEC 监控文件完整性与可疑登录;
2) 指标监控:Prometheus+Node Exporter,关键 metric:load、net_in/out、established;
3) 日志告警:异常登录 >5 次/分钟触发告警并自动封禁 1 小时;
4) 异常行为示例:短时间内 1000 次 404 或大量 post 请求视为爬虫/刷流量;
5) 响应流程:1) 判定影响面 2) 速封源 IP 3) 切换到 CDN/清洗 4) 恢复并溯源;
6) 保留证据:抓包、保存 auth.log、保存快照供取证使用,保存期限不少于30天。
7.
真实案例:台湾VPS遭受SYN+UDP混合攻击的处置
1) 背景:某电商站点在台湾节点被攻击,峰值流量测得 350 Mbps、约 120kpps;
2) 初始发现:CPU 95%、conntrack 达到 250k(阈值为 262144 的 95%);
3) 处置步骤:立即启用云端清洗 -> 修改 iptables 阻断高频源 -> 把站点切至 CDN;
4) 数据对照表(前后对比):
| 指标 | 攻击时 | 缓解后 |
| 带宽峰值 | 350 Mbps | 18 Mbps |
| 包速率 | 120,000 pps | 8,000 pps |
| CPU 使用率 | 95% | 22% |
5) 复盘结论:保护措施(CDN+清洗+内核调优+快速封禁)在 6 分钟内恢复可用;
6) 建议:将清洗阈值和自动化脚本纳入 SRE playbook,保持与上游联络通道畅通。
8.
总结与运维清单
1) 必做项:禁用密码登录、启用 fail2ban、对外仅开放必要端口;
2) 网络项:调整 sysctl、设置 conntrack 上限与 SYN cookie;
3) 高可用项:启用 CDN/清洗、准备 BGP/Anycast 备份路径;
4) 监控项:Prometheus+Alertmanager、IDS 报警与自动响应脚本;
5) 演练与备份:每季度演练一次 DDoS 切换与恢复,备份策略月度验证;
6) 最后建议:把“隐匿源站 IP”和“最小暴露面”作为常态化安全文化,结合可测量的 SLA 指标落地。
来源:运维经验谈五域通达台湾vps安全加固与入侵防护策略