通過虛擬機動態(tài)遷移技術(shù)(如VMware的vMotion)可實現(xiàn)數(shù)據(jù)中心間的計算資源動態(tài)調(diào)配,通過服務(wù)器高可用集群技術(shù)可實現(xiàn)數(shù)據(jù)中心間應(yīng)用級容災(zāi),這兩種應(yīng)用場景統(tǒng)稱為“分布式數(shù)據(jù)中心(DistributedDataCenter)部署方式”,其特點是一個應(yīng)用系統(tǒng)在IP地址不變的情況下可以在不同數(shù)據(jù)中心對外提供服務(wù),但同一時段此應(yīng)用只出現(xiàn)在一個數(shù)據(jù)中心,數(shù)據(jù)中心的訪問用戶不感知這種變化。本文針對這一特點,闡述分布式數(shù)據(jù)中心的三種互聯(lián)方案——數(shù)據(jù)中心間存儲網(wǎng)絡(luò)互聯(lián)方案、數(shù)據(jù)中心服務(wù)器接入層二層網(wǎng)絡(luò)互聯(lián)方案、數(shù)據(jù)中心間三層網(wǎng)絡(luò)互聯(lián)方案各自的技術(shù)實現(xiàn)要求。
一、虛擬機跨中心動態(tài)遷移
最常見的分布式數(shù)據(jù)中心應(yīng)用場景是基于“動態(tài)虛擬機遷移技術(shù)”的跨中心計算資源調(diào)配,如VmwareESXi產(chǎn)品的vMotion技術(shù)可以在不中斷虛機運行狀態(tài)的情況下,將虛機從一個物理服務(wù)器遷移到另一個物理服務(wù)器。vMotion的核心技術(shù)是虛擬機內(nèi)存及CPU運行狀態(tài)在不同物理機之間的拷貝,而遷移前后的兩臺物理機需要通過“共享存儲(SharedStorage)方式”或“雙活存儲(Active-Active)方式”共享相同的虛機映像文件。對于采用NAS技術(shù)實現(xiàn)的共享存儲,兩臺物理機必須能訪問到相同盤陣上的目標(biāo)文件;對于采用SAN擴展技術(shù)實現(xiàn)的共享存儲,兩臺物理機需要訪問具有相同LUNID的存儲設(shè)備。共享存儲方式的數(shù)據(jù)中心存儲網(wǎng)絡(luò)互聯(lián)方案如圖1左側(cè)拓?fù)?,存儲設(shè)備只部署在A中心,NAS或SAN跨A、B中心部署,當(dāng)虛機從A中心遷至B中心時,B中心的物理服務(wù)器仍然可以訪問位于A中心的存儲設(shè)備。
1.挑戰(zhàn)1:解決存儲對延時敏感
跨中心做虛機遷移的第一個技術(shù)挑戰(zhàn)是存儲對延時敏感,B中心對存儲的訪問延時較大,隨著兩中心間的距離增大,遷至B中心的虛機I/O性能隨之下降。采用雙活(Active/Active)方式的存儲技術(shù)(如EMCVELEXMetro)可以較好的解決共享存儲方案的訪問延遲問題。如圖1右側(cè)拓?fù)?,在A、B中心都同時部署物理存儲設(shè)備,并且通過SAN互聯(lián),由位于A、B中心的存儲控制器在A、B中心間虛擬出一個邏輯存儲設(shè)備,兩中心的物理服務(wù)器訪問具有相同LUNID的邏輯存儲設(shè)備,存儲控制器實現(xiàn)讀I/O請求的就近訪問以及寫I/O的雙側(cè)同步。因此,當(dāng)A中心的虛機遷至B中心時,B中心的服務(wù)器通過本地的存儲控制器訪問本地的存儲設(shè)備,因此該方案的I/O延遲比共享存儲方式小。FCSAN互聯(lián)通常借助傳輸技術(shù)(DWDM、SDH等)實現(xiàn),也有基于IP技術(shù)的FCIP互聯(lián)方案,但FCIP在實際部署中不多見。iSCSISAN互聯(lián)及NAS網(wǎng)絡(luò)互聯(lián)都基于TCP/IP技術(shù)實現(xiàn)。
2.挑戰(zhàn)2:保持遷移前的運行狀態(tài)
跨中心做虛機遷移面對的第二個挑戰(zhàn)是虛擬機完成vMotion之后,不僅IP地址不變,而且還保持遷移前的運行狀態(tài)(如TCP會話狀態(tài)),所以必須將涉及虛機遷移的物理服務(wù)器接入同一個二層網(wǎng)絡(luò),以便在虛機遷移之后仍然可以訪問位于同一網(wǎng)段內(nèi)的其他虛機(或服務(wù)器),因此這種應(yīng)用場景要求構(gòu)建跨中心的二層互聯(lián)網(wǎng)絡(luò)。二層互聯(lián)的技術(shù)主要有如下三類(具體技術(shù)介紹詳見《IP領(lǐng)航》第二十五期“大二層技術(shù)”,本文不再贅述)。
MACoverIP(如H3CEVI技術(shù))。通過在IP網(wǎng)絡(luò)上動態(tài)構(gòu)建隧道,實現(xiàn)以太網(wǎng)VLAN的跨數(shù)據(jù)中心部署。這種技術(shù)不依賴物理層技術(shù)和數(shù)據(jù)鏈路層技術(shù),只要網(wǎng)絡(luò)層IP可達(dá),則VLAN就可順勢擴展。另外,EVI技術(shù)針對分布式中心應(yīng)用場景進(jìn)行了一些優(yōu)化了設(shè)計,例如EVI實現(xiàn)了“網(wǎng)關(guān)分離部署特性”、“基于控制協(xié)議學(xué)習(xí)MAC地址”、“ARP代理特性”等,所以推薦使用該技術(shù)實現(xiàn)數(shù)據(jù)中心二層互聯(lián)。
VPLS。一種傳統(tǒng)的二層VPN技術(shù),運營商通常用該技術(shù)為客戶提供多站點二層互通。VPLS主要是基于MPLS技術(shù)實現(xiàn),且在各站點間通過廣播來學(xué)習(xí)MAC地址,其配置管理較復(fù)雜,所以通常情況不建議采用該技術(shù)實現(xiàn)數(shù)據(jù)中心間二層擴展。
DWDM/DarkFiber。在物理介質(zhì)層實現(xiàn)數(shù)據(jù)中心間互聯(lián),可以為跨中心二層擴展提供靈活的部署形式,例如,用戶既可以直接將兩中心的交換機互聯(lián)實現(xiàn)VAN擴展,也可以先在數(shù)據(jù)中心間建立三層互聯(lián)通道,再基于MACOverIP(如H3CEVI技術(shù))技術(shù)實現(xiàn)VLAN擴展,后者的好處在于可以利用MACOverIP提供了技術(shù)特性簡化分布式數(shù)據(jù)中心間MAC地址學(xué)習(xí)、三層路徑優(yōu)化等問題。
3.挑戰(zhàn)3:解決三層次優(yōu)路徑
跨中心做虛擬機遷移的第三個技術(shù)挑戰(zhàn)是虛機完成動態(tài)遷移之后的三層訪問路徑問題,如圖2左側(cè)拓?fù)?,虛擬機位于A中心,其IP地址是10.1.1.100。按照傳統(tǒng)的部署思路,為保證客戶機可以訪問位于A中心的虛擬機,必須在網(wǎng)絡(luò)三層轉(zhuǎn)發(fā)的Ingress方向和Egress方向上做如下部署:
Ingress方向(客戶機到虛機):B中心的核心路由器向客戶機方向通告虛機所在子網(wǎng)的路由(如10.1.10/24),而A數(shù)據(jù)中心的核心路由器將虛機所在的子網(wǎng)地址拆分成兩條掩碼更長的路由(10.1.1.0/25和10.1.1.128/25)向客戶機方向通告,由此客戶機到虛擬機的訪問路徑優(yōu)選走A中心方向。
Egress方向(虛機到客戶機):A、B中心的匯聚層設(shè)備已實現(xiàn)二層互通,并且四臺匯聚設(shè)備加入到同一個VRRP組,通過調(diào)節(jié)VRRP的設(shè)備優(yōu)先級保證VRRP的VIP優(yōu)選位于A中心的匯聚層設(shè)備。虛機的網(wǎng)關(guān)指向VRRP的VIP,由此虛機的Egress流量優(yōu)選從A中心到客戶機的路徑。
傳統(tǒng)部署思路存在一個問題,如圖2右側(cè)拓?fù)洌?dāng)虛機從A中心遷至B中心時,A、B中心向骨干網(wǎng)通告的包含虛機地址的路由沒有變化(Ingress流量方向不變),VRRP的主備關(guān)系也沒有變化(Egress流量方向不變),因此位于B中心的虛擬機發(fā)出的流量必須通過跨中心的二層鏈路到達(dá)A中心的網(wǎng)關(guān)后,才能沿A中心的核心路由器被發(fā)往客戶機,而B中心一側(cè)的匯聚設(shè)備和廣域網(wǎng)出口設(shè)備并沒有被利用,這就出現(xiàn)了“次優(yōu)路徑”現(xiàn)象。對于分布距離較近的A、B中心(例如,位于同一個園區(qū)的兩座建筑),這種部署不會帶來更多的管理復(fù)雜性,容易被客戶接受,但對于分區(qū)較遠(yuǎn)的A、B中心(數(shù)十公里),客戶通常會希望根據(jù)虛機所在位置動態(tài)調(diào)整Ingress和Egress流量路徑,確??蛻魴C與虛機之間選擇最優(yōu)路徑,以避免遠(yuǎn)距離排錯和網(wǎng)絡(luò)管理上的復(fù)雜性。[nextpage]
目前解決三層網(wǎng)絡(luò)次優(yōu)路徑的關(guān)鍵技術(shù)如下:
Ingress方向(客戶機到虛機)的技術(shù)
動態(tài)DNS解析技術(shù)。同一個虛機在不同數(shù)據(jù)中心通過NAT(由SLB設(shè)備實現(xiàn))呈現(xiàn)不同的服務(wù)IP地址。
GSLB作為DNS服務(wù)器,并根據(jù)虛機所在的物理位置向客戶機解析成不同的服務(wù)IP地址。這里的關(guān)鍵技術(shù)時如何向GSLB通告虛機的物理位置并修改DNS記錄。
RHI(RouteHealthInjection,路由健康注入)技術(shù)。該特性通常由SLB設(shè)備實現(xiàn),SLB周期性的檢測服務(wù)器/虛擬機的存活狀態(tài),當(dāng)檢查結(jié)果正常時,SLB向骨干網(wǎng)中發(fā)布一條該虛機地址的主機路由;當(dāng)檢查結(jié)果異常時,撤銷該主機路由。由此就可以動態(tài)的調(diào)整從客戶機到A或B中心的Ingress流量路徑。
Egress方向(虛機器到客戶機)的技術(shù)
網(wǎng)關(guān)分離技術(shù)。為避免Egress方向的次優(yōu)路徑,必須在分布式數(shù)據(jù)中心兩側(cè)的匯聚交換機上同時部署相同的VRRP配置(A、B中心的匯聚設(shè)備上具有相同的VRRPVIP配置),并且還要保證VRRP所在VLAN的跨中心二層互通。如果匯聚設(shè)備已經(jīng)采用了基于H3CEVI技術(shù)的VLAN擴展,則缺省支持VRRP的本地化部署,如果未部署類似EVI的技術(shù)特性,用戶也可以通過配置相應(yīng)的命令行實現(xiàn)該VRRP的本地化部署。
綜上所述,為實現(xiàn)跨中心虛機遷移,分布式數(shù)據(jù)中心之間的三種網(wǎng)絡(luò)互聯(lián)的關(guān)鍵技術(shù)要求如下(如圖3所示)。
存儲網(wǎng)絡(luò)互聯(lián)??缰行牡拇鎯W(wǎng)絡(luò)互通是保證虛機動態(tài)遷移的必備條件,可采用“共享存儲方式”或“雙活存儲方式”。
二層網(wǎng)絡(luò)互聯(lián)。虛機動態(tài)遷移之后IP地址不變,所以在虛機網(wǎng)絡(luò)接入層應(yīng)構(gòu)建跨中心二層網(wǎng)絡(luò)??刹捎肊VI、VPLS、DWDM/DarkFiber等技術(shù)來實現(xiàn)。
三層網(wǎng)絡(luò)互聯(lián)。企業(yè)園區(qū)或分支機構(gòu)的客戶機通三層網(wǎng)絡(luò)訪問各數(shù)據(jù)中心,對于能支持虛機跨中心遷移的分布式數(shù)據(jù)中心來說,傳統(tǒng)三層網(wǎng)絡(luò)部署方案通過跨中心統(tǒng)一部署VRRP實現(xiàn)單側(cè)網(wǎng)關(guān)出口,但該方案存在三層次優(yōu)路徑問題;一種新解決方案是采用“網(wǎng)關(guān)分離技術(shù)”并配合“RH技術(shù)或動態(tài)DNS技術(shù)”以優(yōu)化三層轉(zhuǎn)發(fā)路徑。
二、服務(wù)器高可用集群跨中心部署
分布式數(shù)據(jù)中心的另一個應(yīng)用場景是跨中心的服務(wù)器高可用集群部署。服務(wù)器高可用集群(HACluster),是借助集群軟件將網(wǎng)絡(luò)上的多臺服務(wù)器關(guān)聯(lián)在一起,提供一致的服務(wù),對外表現(xiàn)為一臺邏輯服務(wù)器,在集群內(nèi)同一時間只有一臺物理服務(wù)器接管服務(wù)IP并對外提供訪問,當(dāng)該服務(wù)器發(fā)生故障時,備份物理服務(wù)器將接管服務(wù)IP以繼續(xù)對外提供訪問。高可用集群在發(fā)生服務(wù)器切換時,不會保留切換前的計算狀態(tài)(如網(wǎng)絡(luò)協(xié)議棧、內(nèi)存、CPU等)。如圖4所示。
各廠商(HP、IBM、微軟、Veritas等)的集群軟件需要各服務(wù)器采用共享存儲、雙活存儲或支持同步復(fù)制的Active/Standby存儲;由于集群切換之后的服務(wù)IP沒有變化,所以跨中心部署高可用集群時不僅需要實現(xiàn)跨中心VLAN擴展,高可用集群間部署的網(wǎng)絡(luò)心跳鏈路(Heartbeat)也必須在同一個VLAN內(nèi)。
與虛機遷移應(yīng)用情況相似,高可用集群在跨中心部署時也要考慮三層路徑優(yōu)化問題,其部署方式同虛機場景相同。
三、結(jié)束語
本文討論了分布式數(shù)據(jù)中心的兩種應(yīng)用場景:虛機跨中心遷移及服務(wù)器HA集群,其中涉及到三種網(wǎng)絡(luò)互聯(lián)及相關(guān)技術(shù)實現(xiàn)。事實上,無論哪種技術(shù)方案,只有真正切合客戶的實際業(yè)務(wù)需求和物理環(huán)境才是一個好的方案。因此,方案設(shè)計時根據(jù)需求選擇合適的技術(shù)實現(xiàn)方式尤為重要。