一、基础认知:先搞懂 Synology High Availability 集群的核心逻辑


在企业级数据存储场景中,单点故障是最大的业务风险 —— 若单台 Synology NAS 因硬件故障(如硬盘损坏、主板故障)或软件异常停机,依赖其运行的文件共享、备份、虚拟化存储服务会全部中断。而创建 Synology High Availability(SHA)集群(简称 “SHA 集群”),通过 “主动 - 被动” 双服务器架构,可实现故障时自动切换,确保业务不中断。但 SHA 集群创建对硬件、网络、存储有严格要求,且操作中存在诸多易忽略的细节(如硬件不兼容、网络规划错误),易导致创建失败或切换失效。本文基于 Synology 官方技术指南,针对 DSM 7.0 及以上版本(SHA 集群稳定支持版本),全面讲解创建 SHA 集群前需了解的关键知识,帮助 IT 运维人员高效、合规地部署 SHA 集群。


在准备创建前,需先明确 SHA 集群的本质的工作原理,避免因概念混淆导致配置错误:

1. SHA 集群是什么?——“主动 - 被动” 双机高可用架构

Synology High Availability 集群是由两台硬件完全一致的 Synology NAS(称为 “主动服务器” 和 “被动服务器”)组成的高可用解决方案,核心逻辑为:

主动服务器(Active Server):日常处理所有业务请求(如文件共享、iSCSI 服务、Active Backup for Business 备份),存储业务数据;

被动服务器(Passive Server):实时同步主动服务器的系统配置、业务数据(或通过共享存储访问数据),处于 “待命状态”,不处理业务;

故障切换(Failover):当主动服务器因硬件故障(如硬盘离线、电源故障)或软件崩溃无法运行时,被动服务器会在 30-60 秒内自动接管业务,IP 地址、服务端口保持不变,客户端无感知,实现 “业务零中断”。

2. SHA 集群的核心优势与适用场景

SHA 集群并非适用于所有场景,需根据业务需求判断是否部署,其优势与适用场景如下:

核心优势

适用场景

不适用场景

规避单点故障,业务零中断

企业核心存储(如财务数据、客户资料存储)、虚拟化平台后端存储(VMware/Hyper-V)、关键业务备份服务

个人家庭存储(成本过高)、非核心临时数据存储(如日志文件)

自动故障切换,无需手动干预

无人值守机房、7×24 小时运行的业务系统(如电商后台存储)

允许短时间停机的场景(如办公文件共享,可手动恢复)

配置与数据实时同步

需保持配置一致性的场景(如统一的用户权限、共享文件夹设置)

数据量极小且无需同步的场景


二、创建 SHA 集群的前提条件:硬件 / 软件 / 网络 / 存储必须满足

Synology 对 SHA 集群的创建有严格的环境要求,任何一项不满足都会导致创建失败或集群不稳定,需逐一验证:

1. 硬件要求:必须 “完全一致”,无例外

SHA 集群依赖两台 NAS 的硬件兼容性实现同步与切换,官方强制要求两台 NAS 硬件完全相同,具体要求如下表:

硬件组件

要求细节

错误示例

NAS 型号

必须为相同型号(如均为 DS2423+、均为 RS822+),不支持同系列不同型号(如 DS2423 + 与 DS1823+)

一台 DS923+,一台 DS723+

CPU 与内存

CPU 型号相同,内存容量、品牌、频率一致(如均为 16GB DDR4 2666MHz ECC 内存)

一台 8GB 内存,一台 16GB 内存;一台非 ECC 内存,一台 ECC 内存

硬盘与存储配置

硬盘数量、型号、容量、RAID 类型完全一致(如均为 8 块 16TB SATA 硬盘,RAID 6);若有 SSD 缓存,数量与型号也需一致

一台 6 块硬盘(RAID 5),一台 8 块硬盘(RAID 6);硬盘容量不同(12TB 与 16TB)

扩展卡(若有)

扩展卡型号相同(如均为 10GbE 万兆网卡 E10G22-T1-C),插槽位置一致

一台有万兆扩展卡,一台无;扩展卡型号不同

固件版本

两台 NAS 的 DSM 固件版本完全相同(如均为 DSM 7.2.1-69057 Update 3)

一台 DSM 7.0,一台 DSM 7.2


验证方法:登录两台 NAS 的 DSM→「控制面板」→「信息中心」→「常规」,对比 “型号”“处理器”“内存” 信息;「存储管理器」对比硬盘与 RAID 配置。

2. 软件要求:DSM 版本与 SHA 套件兼容

DSM 版本:两台 NAS 需安装DSM 7.0.0-41890 及以上版本(旧版本 SHA 功能存在 bug),且版本完全一致;

SHA 套件:需在两台 NAS 上均安装「High Availability」套件(从「Package Center」下载,版本需相同,如均为 2.6.0-0281);

其他套件:若需在集群中运行其他套件(如 Active Backup for Business、Synology Photos),需在两台 NAS 上安装相同版本,避免切换后服务异常。

3. 网络要求:至少 2 个网卡,规划 “业务网 + 心跳网”

SHA 集群需要两个独立网络通道:“业务网络”(处理客户端请求)和 “心跳网络”(两台 NAS 间同步配置与数据),具体要求:

网络类型

要求细节

配置建议

业务网络(Public Network)

至少 1 个千兆 / 万兆网卡,两台 NAS 的业务网 IP 在同一网段(如主动 192.168.1.10,被动 192.168.1.11),网关与 DNS 相同

使用万兆网卡(如 E10G22-T1-C),提升业务数据传输速度;连接到核心交换机

心跳网络(Heartbeat Network)

至少 1 个千兆网卡(专用),用于两台 NAS 间实时同步,推荐直连(用交叉线或普通网线直连两台 NAS 的心跳网卡),不与其他设备共享

心跳网卡不连接交换机,直接两台 NAS 直连;IP 设为独立网段(如 10.0.0.1 与 10.0.0.2,无网关)

网络稳定性

心跳网络丢包率≤0.1%,延迟≤1ms;业务网络丢包率≤1%,避免因网络波动导致误切换

用「ping」命令测试:心跳网 ping 10.0.0.2 -t,观察无丢包;业务网 ping 网关,无丢包


4. 存储要求:支持的存储架构

SHA 集群支持两种存储架构,需根据业务选择,且确保存储兼容:

共享存储架构(推荐企业级):两台 NAS 连接同一台 Synology Unified Controller(如 UC3200)或兼容的外接存储(如 SAN),数据存储在共享存储中,两台 NAS 通过共享存储访问数据,切换速度更快;

本地存储同步架构(入门级):两台 NAS 使用本地存储,通过心跳网络实时同步数据(仅支持小数据量场景,如≤10TB),需确保本地存储 RAID 配置一致;

不支持存储:旧款 Synology NAS 的外接 USB 存储、非 Synology 认证的第三方存储。

三、创建 SHA 集群前的 5 项关键准备:避免创建失败

在启动 SHA 集群创建向导前,需完成以下准备工作,否则可能导致创建中断或数据丢失:

1. 全量备份两台 NAS 的数据(核心!)

创建 SHA 集群过程中,被动服务器的本地存储会被格式化(用于同步主动服务器数据),主动服务器的部分配置会被修改,需提前备份:

主动服务器:备份业务数据(如共享文件夹、应用数据)到异地存储(如另一台 NAS、公有云),通过 Hyper Backup 创建全量备份;

被动服务器:备份所有数据(因创建后会被清空),或直接格式化本地存储(确保无重要数据);

配置备份:两台 NAS 均备份 DSM 配置(「控制面板」→「更新与还原」→「配置备份」),保存到本地管理机。

2. 断开两台 NAS 的非必要外接设备

创建过程中,外接设备(如 USB 硬盘、打印机、扩展坞)可能干扰存储识别,需断开:

断开所有 USB 外接设备(除必要的扩展卡);

关闭两台 NAS 的外接存储服务(如 iSCSI 目标服务、NFS 服务);

退出所有运行中的应用(如 Synology Photos、Download Station),避免资源占用。

3. 验证两台 NAS 的硬件健康状态

硬件故障会导致集群创建失败,需检查:

存储健康:登录「存储管理器」,确认两台 NAS 的硬盘、RAID 状态均为 “正常”,无 “警告”“故障” 提示;

硬件状态:进入「控制面板」→「信息中心」→「硬件」,检查 CPU、内存、网卡状态正常,无硬件错误日志;

固件更新:若两台 NAS DSM 版本不一致,先将被动服务器升级到与主动服务器相同的版本(避免版本冲突)。

4. 规划集群网络参数

提前规划集群的网络 IP,避免创建时临时配置出错:

网络参数

规划示例

注意事项

主动服务器业务 IP

192.168.1.10/24

需与客户端在同一网段,为静态 IP

被动服务器业务 IP

192.168.1.11/24

与主动服务器同网段,静态 IP,不冲突

心跳网络 IP(主动)

10.0.0.1/24

独立网段,无网关,仅用于两台 NAS 通信

心跳网络 IP(被动)

10.0.0.2/24

与主动心跳 IP 同网段,无网关

集群虚拟 IP(VIP)

192.168.1.12/24

客户端访问集群的 IP,创建时自动生成,需未被占用


5. 准备创建工具与环境

管理机:使用 Windows/macOS 电脑,安装最新版 Chrome/Edge 浏览器(避免浏览器兼容性问题);

网线:准备 2 根千兆 / 万兆网线(用于心跳网直连),1 根网线用于业务网连接交换机;

电源保障:两台 NAS 均连接 UPS(不间断电源),避免创建过程中断电导致集群损坏。

四、创建 SHA 集群中的 6 项核心注意事项

启动 SHA 集群创建向导(通过主动服务器的「High Availability」套件)后,需注意以下关键操作,避免错误:

1. 严格按 “主动→被动” 顺序添加服务器

创建向导需先选择 “主动服务器”,再添加 “被动服务器”,顺序不可颠倒:

打开主动服务器的 DSM→「High Availability」套件→点击「创建集群」→选择 “主动服务器”(当前登录的 NAS);

点击「添加被动服务器」→输入被动服务器的 DSM IP(如 192.168.1.11)、管理员用户名与密码→点击「连接」;

系统会自动验证两台 NAS 的硬件兼容性,若提示 “硬件不匹配”,需返回检查硬件配置(如型号、内存、硬盘),不可强行继续。

2. 心跳网络必须 “专用且直连”

创建过程中,需单独配置心跳网络,避免与业务网混用:

在 “网络配置” 步骤,选择两台 NAS 的 “心跳网卡”(如 eth1),输入提前规划的心跳 IP(10.0.0.1 与 10.0.0.2);

确保心跳网卡未连接其他设备,仅两台 NAS 直连(用网线直接连接两台 NAS 的心跳网卡端口);

若提示 “心跳网络连接失败”,检查网线是否插好、网卡是否正常(可通过「控制面板」→「网络」查看网卡状态)。

3. 存储配置选择需匹配业务场景

根据存储架构选择 “共享存储” 或 “本地存储同步”,不可选错:

若使用共享存储(如 UC3200):在 “存储配置” 步骤,选择 “使用共享存储”→输入共享存储的 IP 与认证信息→选择用于集群的存储池;

若使用本地存储同步:选择 “本地存储同步”→系统会提示 “被动服务器本地存储将被格式化”,确认无数据后点击「下一步」;

注意:本地存储同步仅支持≤10TB 数据,数据量较大时必须选择共享存储,否则同步速度极慢且易出错。

4. 不中断创建过程,避免电源 / 网络断开

SHA 集群创建过程(含硬件验证、配置同步、数据同步)需 30 分钟 - 2 小时(取决于数据量),期间不可:

断开两台 NAS 的电源或网线(包括心跳网与业务网);

重启或关闭任何一台 NAS;

在两台 NAS 上执行其他操作(如安装套件、修改配置);

若意外中断,需删除已创建的部分集群(通过「High Availability」→「管理」→「解散集群」),重新备份数据后再次创建。

5. 确认集群虚拟 IP(VIP)未被占用

创建向导会要求设置 “集群虚拟 IP”(客户端访问的 IP),需确保:

VIP 与主动 / 被动服务器的业务 IP 同网段(如 192.168.1.12);

VIP 未被局域网内其他设备占用(可通过管理机 ping VIP,若提示 “请求超时”,说明未被占用);

VIP 设置后不可随意修改,若需修改需先解散集群,修改后重新创建。

6. 创建完成后验证集群状态

创建成功后,需立即验证集群是否正常,避免后续故障:

进入主动服务器的「High Availability」→「状态」,确认 “集群状态” 为 “正常”,“主动服务器” 显示当前 NAS,“被动服务器” 显示另一台 NAS,“心跳连接” 为 “已建立”;

检查数据同步:在主动服务器创建测试文件(如 “test.txt”),登录被动服务器的 DSM,确认该文件已同步到对应共享文件夹;

检查服务状态:启动业务服务(如 iSCSI、文件共享),用客户端通过 VIP 访问,确认能正常读写数据。

五、SHA 集群创建后的维护与故障处理

创建 SHA 集群并非一劳永逸,需定期维护确保高可用效果:

1. 日常维护:3 项关键操作

定期更新固件与套件:两台 NAS 需同步更新 DSM 固件与「High Availability」套件(不可单独更新一台),更新前先备份集群配置与数据;

监控集群状态:每天查看「High Availability」→「状态」,确认无 “警告”“故障” 提示;通过「资源监视器」监控 CPU、内存、网络使用率,避免资源不足;

测试故障切换:每月手动测试一次故障切换(非业务高峰期):登录主动服务器→「High Availability」→「管理」→「手动切换」,确认被动服务器能在 60 秒内接管业务,客户端无感知。

2. 常见故障处理:2 个高频问题

故障 1:集群状态显示 “心跳连接中断”

原因:心跳网线松动、网卡故障、网络冲突;

解决:检查心跳网线连接;登录两台 NAS「网络」确认心跳网卡状态;用 ping 命令测试心跳 IP(10.0.0.1 ping 10.0.0.2),若丢包需更换网线或网卡。

故障 2:手动切换后业务无法访问

原因:被动服务器业务网 IP 配置错误、服务未自动启动;

解决:检查被动服务器业务网 IP 是否与主动服务器同网段;进入被动服务器「服务」,确认业务服务(如 iSCSI、文件共享)已启动;用客户端 ping VIP,若不通检查 VIP 是否正常。

六、总结:创建 SHA 集群的核心原则

创建 Synology High Availability 集群的核心是 “严格遵循前提条件 + 做好前期准备 + 规范操作与维护”:

硬件必须 “完全一致”,无任何妥协(型号、内存、硬盘、扩展卡均需相同);

网络需规划 “业务网 + 心跳网” 双通道,心跳网专用且直连,避免干扰;

创建前全量备份数据,创建中不中断操作,创建后验证状态与故障切换;

日常维护需同步更新、定期监控、测试切换,确保集群始终处于高可用状态。

SHA 集群是企业级存储高可用的关键方案,但并非所有场景都需部署 —— 若业务允许短时间停机,单台 NAS + 异地备份即可满足需求;若需 7×24 小时连续运行,SHA 集群是必要选择。遵循本文的关键要点,可大幅降低 SHA 集群创建失败的风险,确保业务稳定运行。

创建 Synology High Availability 集群需知:前提 / 注意事项 / 维护全指南

新闻中心

联系我们

技术支持

  • ·

    Synology Drive 我...

  • ·

    Synology Drive 与...

  • ·

    Synology Drive 内...

  • ·

    Synology Drive 同...

  • ·

    Synology删除文件后存储空...

  • ·

    Synology DSM 检查系...

  • ·

    Synology Drive能当...

  • ·

    Synology Docker容...

相关文章

地址:北京市海淀区白家疃尚品园             1号楼225

北京群晖时代科技有限公司

微信咨询

新闻中心