BeeGFS 與 SupremeRAID HE 高可用性儲存系統部署指南

BeeGFS 與 SupremeRAID HE 高可用性儲存系統部署指南Version:1.2.0Date:12/18/25 文件目的本標部署指南提供全面的指導,用於部署和管理 BeeGFS 與 SupremeRAID HE 高可用性儲存系統 - 一個整合高密度雙節點伺服器平台、SupremeRAID HE 和 BeeGFS 平行檔案系統的高效能儲存解決方案。這套企業級儲存架構提供卓越的效能、可擴展性和可靠性,適用於數據密集型運算環境。 本文件指導系統管理員和儲存工程師完成整個部署生命週期,從初始系統準備到持續維護和故障排除。通過遵循這些程序,技術人員可以高效地實施、驗證和維護 此BeeGFS + SR-HE 叢集儲存系統基礎設施,確保最佳效能和可用性。 介紹在當今數據驅動的環境中,企業和高效能運算 (HPC) 環境需要提供卓越速度、可擴展性和彈性的儲存解決方案,同時優化成本效益。Graid Technology 推出 SupremeRAID™ HE,這是一款具有陣列遷移和跨節點高可用性 (HA) 功能的 GPU 加速 NVMe RAID 解決方案,結合 2U 全快閃儲存橋接塢 (SBB) 系統和 BeeGFS 平行檔案系統。在效能方面,此架構實現了 2U 系統中最高的吞吐量,能夠飽和 400Gb/s 網絡,本地讀取高達 132 GB/s、寫入高達 83 GB/s,客戶端讀取高達 93 GB/s、寫入高達 84 GB/s,同時透過消除跨節點複製來節省成本並實現無縫擴展。與其他軟體 RAID 方法不同,SupremeRAID™ HE 利用 GPU 並行性最大化 NVMe 效能,消除 CPU 瓶頸,降低總體擁有成本 (TCO)。本白皮書探討這種創新設計如何滿足不斷變化的需求。 解決方案概述SupremeRAID™ HE 與雙節點 SBB 伺服器和 BeeGFS 整合,形成高效能、高可用性的 NVMe 儲存平台。與消耗大量 CPU 資源的軟體 RAID 不同,SupremeRAID™ HE 將 RAID 操作卸載到 GPU,為 BeeGFS 等關鍵上層應用保留 CPU 容量。這種 GPU 加速方法,結合用於跨節點高可用性 (HA) 的陣列遷移,提供卓越的吞吐量 - 同時在緊湊的 2U 機箱中支援最多 32 個磁碟。通過減少 CPU 開銷,它簡化系統效能,增強可擴展性,降低數據密集型企業和 HPC 工作負載的總體擁有成本 (TCO),為進階軟體 RAID 解決方案提供了具成本效益且高效的替代方案。 Graid Technology 的 SupremeRAID™ HE (HPC 版本)SupremeRAID™ HE 由 Graid Technology 開發,是一款具有跨節點高可用性 (HA) 陣列遷移功能的 GPU 加速 NVMe RAID 解決方案。它支援最多 32 個磁碟的配置,並提供卓越的吞吐量表現。通過利用 GPU 計算能力和專利的非路徑數據保護技術,它最大化 NVMe 效能,確保零停機時間 HA,並通過消除數據複製降低總體擁有成本 (TCO)。 BeeGFS 平行檔案系統BeeGFS 是 Fraunhofer 研究所開發的開源 POSIX 檔案系統,專為 HPC 環境設計,具有平行數據訪問、可擴展性和通過分佈式元數據和數據實現的容錯能力。它以低開銷提供高吞吐量 I/O,非常適合可擴展 NVMe 環境中的數據密集型工作負載。 系統設計和高可用性此解決方案利用伺服器的雙節點架構,結合 SupremeRAID™ HE 的陣列遷移功能,在 2U 機箱內提供卓越的效能和強大的高可用性 (HA)。整合到 400G 網絡中,系統與 BeeGFS 客戶端無縫連接,通過消除跨節點數據複製來優化資源利用並降低成本。設計支援線性擴展,允許根據需要添加額外的 SBB 單元來擴展容量和效能。 硬體配置該解決方案具有兩個 SBB 節點,每個節點配備一個 PCIe 交換機用於內部數據路由,並通過雙端口背板連接,使兩個節點都能訪問 24 個 NVMe SSD,組織成兩組各 12 個。每個節點包括一個網絡接口卡 (NIC) 和一個 GPU,SupremeRAID™ HE 利用 GPU 加速來卸載 RAID 操作,提高吞吐量並保留 CPU 資源。該設置在 400G 網絡基礎設施上進行測試。 RAID 和儲存設置SupremeRAID™ HE 管理 24 個雙端口 NVMe SSD,每個節點處理 12 個磁碟。此配置支援系統的高效能功能。
高可用性實現通過 Pacemaker 確保高可用性,它使用虛擬 IP 管理故障轉移,在節點故障期間維持服務連續性。SupremeRAID™ HE 的陣列遷移功能實現節點間無縫 RAID 陣列轉移,消除複製需求並優化 NVMe 使用。雙端口背板和 400G 網絡連接增強了容錯能力和數據吞吐量。 ![]() 系統要求由 Graid 提供的專用部署工具請注意,本部署指南會使用到 Graid Technology 提供的專用工具,這是完成設定所必需的。這些工具不包含在標準的
若要獲取 Beegfs node
Beegfs Client node(可選)
1.1 網絡配置
1.1.1 IP 規劃範例為避免配置衝突,建議在部署前先規劃好 IP 分配。以下為本文件範例所使用的 IP 規劃:
Note
1.2 主機配置
1.3 安裝 SupremeRAID 驅動程式
1.4 安裝 BeeGFS 部署套件Note 只需要在其中一台節點安裝此部署套件即可, 此範例使用 Node A 部署 BeeGFS。
2. SupremeRAID 配置2.1 為 BeeGFS 創建 SupremeRAID 陣列使用 腳本執行以下關鍵操作:
Note
2.2 驗證 RAID 配置創建 RAID 陣列後,驗證配置: 預期結果 記下對應陣列組 UUID,它們將用於 BeeGFS 配置。 2.3 清除 RAID 配置若您希望徹底移除系統上的所有 RAID 設定,可以使用 Warning 這個命令會完整的清除所有的資料,請在執行此命令之前確定你已經備份所有所需的資料。 3. BeeGFS 配置和部署Note 只需要在其中一台節點安裝此部署套件即可, 此範例使用 Node A 部署 BeeGFS。 3.1 配置 BeeGFS 管理器
Note mgt-vip 不可與您的 node_a 或 node_b 的 IP 相同,請設置另外一組獨立的IP 位置。
3.2 部署 BeeGFS使用最新版本部署 BeeGFS: 此命令執行以下操作:
3.3 設置 BeeGFS 服務設置 BeeGFS 服務,包括 Pacemaker 資源: 此命令執行以下操作:
3.4 啟動 BeeGFS 服務啟動 BeeGFS 服務: 3.5 驗證 BeeGFS 服務此部署腳本目前基於 BeeGFS 7.4.6 版本設計。對 BeeGFS 8.x 的支援將在未來的更新中提供。這兩個版本之間的驗證指令有所不同。 請根據您使用的 BeeGFS 版本,執行對應的指令。 檢查 BeeGFS 版本: 3.5.1 適用於 BeeGFS 7.x驗證所有 BeeGFS 服務是否正確運行: 3.5.2 適用於 BeeGFS 8.xBeeGFS 8 引入了統一的 主要語法變更:
3.6 掛載 BeeGFS 用戶端如果 或者,如果您偏好在用戶端節點上手動設定 BeeGFS 用戶端服務,請按照以下步驟操作:
3.7 部署後驗證在進行客戶端掛載與讀寫操作前,必須先確保 PCS Cluster 與 BeeGFS 服務已成功部署且狀態健康。請依序執行以下驗證步驟:
4. 集群擴展(添加節點)要將其他節點添加到現有 BeeGFS 集群: 4.1 準備新節點按照 1.1-1.7 部分的步驟準備新節點。 4.2 更新配置更新 4.3 加入現有集群使用 其中 5. 操作和維護5.1 停止 BeeGFS 服務停止 BeeGFS 服務: 5.2 清除 BeeGFS 服務完全刪除 BeeGFS 數據和配置(謹慎使用): 5.3 檢查版本信息檢查 BeeGFS 管理腳本的版本: 6. 故障排除6.1 日誌文件查看以下日誌文件進行故障排除:
或者下載
6.2 常見問題SSH 連接失敗
陣列組問題
Pacemaker 資源問題
掛載點問題
6.3 驗證環境運行驗證以確保滿足所有先決條件: 7. 參考7.1 配置文件結構主配置文件(
7.2 命令參考
|
| Command | Description |
|---|---|
create | 建立用於beegfs 的raid 設定 |
purge | 清除所有raid 的設定 |
query-dg | 查詢 DG's UUID |
beegfs_control.py 命令列表
| 命令 | 說明 |
|---|---|
deploy | 在所有節點上部署 BeeGFS 套件 |
setup | 設置 BeeGFS 服務和 Pacemaker 資源 |
start | 啟動 BeeGFS 服務(pcs_bgfs ) |
stop | 停止 BeeGFS 服務(pcs_bgfs ) |
purge | 刪除 BeeGFS 數據和配置 |
purge_join | 刪除使用join 命令加入的集群配置 |
join | 將節點添加到現有 BeeGFS 集群 |
version | 顯示 BeeGFS 管理腳本的版本 |
8. 安全注意事項
- 盡可能使用基於密鑰的 SSH 認證而非基於密碼的認證
- 實施適當的網絡安全措施(防火牆、VLAN)
- 定期將 BeeGFS 軟體更新到最新版本
- 更改所有服務的默認密碼,特別是 Pacemaker 的 hacluster 用戶
- 限制對管理節點的物理和遠程訪問
9. 備份和恢復
- 定期備份 BeeGFS 配置文件
- 記錄集群設置,包括網絡拓撲、硬體和配置
- 定期測試恢復程序
- 考慮為關鍵數據實施基於快照的備份策略
