第三期 - 資料中心遷移測試
資料中心遷移測試 | 網路模擬技術分享系列第三期
歡迎您回到網路模擬技術分享!在前兩期的分享中,我們討論了:
- 在真實的網路環境中有哪些方面需要模擬和測試
- 資料中心分散式存儲互聯測試
本期分享我們將聚焦資料中心的另外一個應用——資料中心遷移測試。
資料中心遷移
伴隨著數位化的浪潮,IT基礎設施建設也在穩健快速地發展。業務量的迅速增長推動了各類應用系統不斷湧現,資料中心的設備規模也在持續擴大。
這些因素對資料中心容量和安全性都提出了更高的要求。但由於歷史建設原因,機房規劃不足,現有的IT資源往往無法滿足業務的快速增長。此外,部分資料中心設備和線路的老化,也增加了安全隱患[1]。
另外,在金融,通信,醫療,電力等多個行業,確保業務連續性非常關鍵,使得構建高標準的網路資料中心(IDC)成為一個重要議題。多中心IDC架構的發展也成為了一種趨勢。但在資料中心建設的過程中,現有的業務系統不能簡單地被替換或淘汰。為確保業務的平穩過渡和持續運營,資料中心的遷移工作成為IDC建設過程中的重要一環。[1]
有哪些網路因素會影響資料中心遷移?
由於新的資料中心通常在地理位置上與原有的資料中心存在差異,其網路路徑也會相應的變更,用戶端和伺服器之間的網路環境品質也會有所不同。最直觀的網路變化是時延和抖動,中間網路的光纖長度,經過不同跳數的交換機路由器,還有網路頻寬大小的變化,都會對應用業務的性能產生很大的影響。
另外,由於伺服器通常是批次遷移的,因此共用本地連接的應用程式也需要保持通信。延遲對客戶的使用者體驗至關重要,團隊需謹慎規劃其資料中心遷移的計畫,以緩解潛在的網路延遲問題。這包括確定哪些應用程式需要協同工作以及它們應該在何時進行協作[2]。分段流量、建立多雲連接、以及在邊緣網路進行網路卸載,也需要通過遷移前模擬不同的延遲和抖動,對丟包環境等進行提前演練,規避可能出現的問題,將風險降到最低。
此外在資料中心遷移結束以後,進行驗證評估時,需考慮在不同網路條件下,資料中心的交互能力和性能,以及使用者的使用體驗。這些異常的網路環境,都需要通過專業的網路損傷儀器進行模擬和測試,以便有效地評估並確保資料中心的平穩遷移。否則後期維護和解決故障問題時,可能面臨巨額的成本投入。
資料中心遷移案例
2019年某大型歐洲保險公司計畫將資料中心從德國遷移至義大利。據估計每年可節省約1000萬歐元,而遷移的花費總計約480萬歐元。但是如果網路性能不佳,交易成功率每下降0.1%,帶來的損失預估為20萬歐/每日。
該公司與一家服務提供者簽訂了一份為期 12 個月的合同。協議規定,在12個月內需保證不定期檢測網路業務交易成功率達到99.99%以上,否則公司將只支付30%的尾款。
服務提供者在遷移前並未進行嚴格的網路損傷測試。在遷移後的頭兩個月,該保險公司的服務持續收到客戶投訴。測試5000筆/秒的交易率有時只有99.86%。經過兩周的故障排查,發現問題是由於中間路由器針對網路性能變化的策略未準確生效導致的。
之後服務提供者通過在網路中加入專業的網路損傷儀器對網路進行參數最佳化,使得交易率成功達標。但由於遷移前未作充分的測試,在服務故障期間,導致保險公司和服務提供者都受到了不同程度的經濟損失。
如何進行資料中心遷移的損傷(Impairment)測試?
這裡我們簡要介紹幾個關於資料中心遷移的損傷測試:
1. 時延模擬測試
資料中心遷移前後,新的資料中心通常在地理位置上與原有的資料中心存在差異,通常新舊資料中心之間相距會有幾十、幾百甚至幾千公里的地理距離,這中間會經過企業內部網路,營運商的網路等多跳路由器和交換機。
所以首先需要模擬長距傳輸,構建時延模擬測試。光纖或者電纜通常一米會產生4.9ns到5.1ns的時延,通過一台路由器或者交換機會產生幾個µs到幾十µs的固定時延。兩個資料中心如果相距幾百或者幾千公里,一般會有幾ms到幾十ms的時延。如果遇到網路擁塞,可能出現100到200ms的時延。在實驗室測試,通常可以測試不同級距時延下,業務的輸送量。另外還需測試極限值,以此來瞭解實際佈網時,應用對於網路品質的要求。
2. 抖動
抖動即為時延的變化,通常應用層業務會根據時延和抖動的情況,進行業務流量的調整。對於抖動,可以結合多種抖動模型進行測試,例如在固定時延上下,按照百分比抖動,高斯模型,隨機的均勻模型等。
3. 丟包
丟包以後,通常需要對資料重傳,必然會導致資料輸送量地下降。丟包的劇烈程度,也決定了整個網路的傳輸性能。測試時可以根據不同級距的丟包比例,對業務進行研究。例如萬分之一,千分之一,百分之一,百分之十等。
4. 亂序
資料包因為IP層規劃的路由網路不同,導致亂序發生。另外丟包以後,部分封包的重傳也會導致亂序。測試時,可以進行不同程度的亂序模擬,例如千分之一,百分之一,百分之十,百分之五十等級距,進行不同亂序深度地模擬。另外可以通過參數最佳化,減少亂序對於輸送量的影響。
5. 重複包
由於時延抖動和網路擁塞的影響,重複包在實際網路中也很常見。測試時可以模擬多個重複包,來查看伺服器等所受的影響。
6. 負載均衡測試
通常資料中心都有主備保護網路。通過同時在不同線路上進行不同損傷參數的測試,驗證負載均衡,負載分擔的可靠性和穩定性。特別是對於含有權重的測試,真正起到模擬驗證的作用,防患於未然。
7. 應對攻擊的模擬
由於要經過區域網路,所以可能會遭到未知的網路攻擊。通過模擬,支援網路正確應對可能出現的網路攻擊,確保資料中心遷移前後正常運轉,降低出現故障問題的風險。
Calnex 資料中心遷移測試解決方案
Calnex根據資料中心遷移的測試需求,提供了完整的網路環境模擬解決方案。
- 靈活拓撲
Calnex網路模擬儀器支援靈活的拓撲,特別對於資料中心方面的應用,Calnex網路模擬儀器支援全網狀連結,可以直接連結測試。
- 介面和數量
支援最多28個1GbE/10GbE介面,或者16個25GbE,8個100GbE介面。並且支持在一個GUI上進行多台儀器的串聯控制,構建廣大的拓撲圖。
8個100GbE埠GUI介面
16個25GbE埠GUI介面
- 多流併發
支援單介面20條以上的篩檢程式設定,可以對多條合併發送的流量分別進行損傷場景模擬。一次測試,完成多個測試點測試,模擬真實網路。
例如,對於同時通過的192.168.1.100、192.168.2.100、192.168.3.100、192.168.4.100、192.168.5.100和192.168.6.100的併發流量同時進行不同的網路損傷模擬。
多流併發功能
- 時延支持
25GbE可以達到4秒,子速率可以設定30秒以上,通過疊加時延元件,可設定更長時延。
- 支援背景流量模擬
模擬在資料流程量基礎上添加TCP或者UDP流量,模擬網路攻擊。例如,頻寬、MAC位址、IP位址和埠號,可以根據需要構造的背景流量,在業務流量經過的同時進行注入。
背景流量添加功能
- 支援抓包和重播
可以抓取流量,並按照原始時間戳記進行流量重播,也可以對封包進行一些修改以後重播,用於分析問題和故障回溯定位。
例如,抓取網路上經過的業務封包進行分析,同時也可以重播想要模擬的封包。儀器生成的檔均為PCAP格式的通用檔。
抓包重播功能
- Timeline自動化
支援GUI上Timeline自動化進行快速動態損傷測試環境模擬,模擬真實變化的網路環境。
例如,對未添加任何損傷的場景、只添加時延損傷的場景、只添加抖動損傷的場景、只添加丟包損傷的場景以及同時添加時延抖動丟包的場景進行動態化模擬。這個功能可以更好的對真實變化的網路環境進行準確地模擬。
本文參考連結及注釋:
[1] http://www.zjft.com/index.php/shujuzhongxinqianyijiejuefangan
[2] https://www.szw.org.cn/20221207/59892.html