国产A三级久久精品
全站搜索
導航菜單
當前時間:
文章正文
關于數據中心Tier標準的理解誤區
作者:管理員    發布于:2018-03-13 10:04:19    文字:【】【】【
目前國內存在一些對Tier標準錯誤、過時的認知,對業主和從業人員有著不同程度的誤導。請所有從業者務必了解,Uptime Institute是關于Tier標準唯一的制定、解釋及認證機構,Uptime Institute不會設計、建造和操作數據中心以確保中立,從而對數據中心的基礎設施、操作和策略提供中立、客觀、公正的評估。

全球公認的Tier標準將數據中心的可用性分為四個等級:
  
  ?Tier I:基本容量
  
  ?Tier II:冗余容量
  
  ?Tier III:可同時維護
  
  ?Tier IV:容錯
  
  目前國內存在一些對Tier標準錯誤、過時的認知,對業主和從業人員有著不同程度的誤導。
  
  請所有從業者務必了解,Uptime Institute是關于Tier標準唯一的制定、解釋及認證機構,Uptime Institute不會設計、建造和操作數據中心以確保中立,從而對數據中心的基礎設施、操作和策略提供中立、客觀、公正的評估。
  
  以下關于Tier標準的理解誤區案例,來自Uptime Institute官網及內部資料,作者利用業余時間翻譯整理出來,以供國內用戶和同行學習參考,但最終仍以Uptime Institute官網的英文版本為準。
  
  【理解1】Tier等級與組織業務沒有關系
  
  錯。
  
  Tier從創立開始就是基于業務驅動而對其數據中心進行性能評估的基準體系。一個組織通過其業務對風險的容忍度來確定Tier等級。換句話說,一個公司的業務要求決定了其數據中心的Tier等級。如果不根據自身業務的特殊性確定基礎設施的Tier等級,往往會發生濫用Tier等級和企業內部溝通的被短路等問題。
  
  【理解2】Tier IV是最好的
  
  錯。
  
  一個企業組織對風險的容忍程度決定了Tier等級。TierIV并非對所有組織都是最好的答案,當然TierII也不是。業主應在明確自身的Tier等級之前做盡職調查,如果業務目標沒有明確就來確定Tier等級,會造成不必要的投資。
  
  Tier I和Tier II也是一種常見的戰術方案,在以成本或速度為導向、不必關注生命周期成本和性能的業務需求中經常會采用。當一個組織的營業收入不需要依靠實時交付的產品和服務時,經常會采用TierI或TierII等級。一般來說,采用Tier I或Tier II的組織,是那些依照合約不必對系統可用性不足引起的損失負責的業務。
  
  而選擇Tier III和Tier IV的數據中心,則是對系統不間斷和長期可用有嚴格要求的業務。在一個TierIII的系統中,任何一個容量組件可以有計劃地從系統中移除,而不會影響關鍵環境或IT進程。TierIV則更加強悍,任何容量組件和分配路徑可以容忍一次失效、錯誤或計劃外事件,而不影響關鍵業務環境或IT進程。
  
  因此,我們不能說Tier IV比Tier II好,而是數據中心的性能和能力應與業務需求相匹配。否則要不就是過度投資,要不就是業務要冒更大的風險。
  
  舉個例子來說,在建造一個Tier II的數據中心前,要知道Tier II并不包含可同時維護的功能,業主應該清晰的知道自己的業務能否容忍一個計劃內的、或與維修相關的停機,以及運維團隊如何協調基于整個數據中心來進行停機維修。
  
  因此,數據中心Tier等級應由其業務目標來確定。
  
  【理解3】組件數量決定Tier等級
  
  錯。
  
  Tier認證是對數據中心具體基礎設施的性能做評估,而不是一份檢測清單或類似于食譜的指導手冊。不幸的是,一些一知半解的人直接采用“N”來定義可用性,認為N是滿足負載要求的最小組件數量,而只要并上更多的組件就提高了可用性,例如N+1,N+2,2N或者2(N+1)。但是,增加組件的數量并不能決定或保證獲得更高的Tier等級。因為Tier也包含對分配路徑和其它子系統要素的評估,而不僅僅是考慮“N”。舉例來說,只用N+1的組件數量也可能達到TierIV的等級。因此,Tier等級是依靠組件在冗余分配路徑中的配置及連接方式來決定的,而不是單純依靠設備的數量。
  
  【理解4】做Tier認證,有設計認證就行了
  
  錯。
  
  Tier設計認證(TCDD)只是一個Tier等級認證的第一步。在TCDD時,Uptime Institute的專家對100%完成的設計圖紙進行審查,確保每一個電力、暖通、監控和自動化子系統滿足Tier基礎概念,在整個系統鏈條上不存在任何弱點。設計認證可以認為是數據中心的一個里程碑,確認相應的設計已經達到的目標Tier等級,數據中心業主可以放心開始建設了。
  
  設計認證(TCDD)將設計文檔打包審查,目的是在數據中心得到建造認證(TCCF)之前做臨時性的認可。Uptime Institute尚未對此數據中心的建設做審核,所以我們此時并不能說這個數據中心的建設達到了Tier等級。為強調這一點,UptimeInstitute對設計認證設置了失效期。所有在2014年1月之后授予的Tier設計認證都將在兩年之后過期。
  
  在建造認證(TCCF)中,Uptime Institute的專家會做現場訪問,找尋圖紙和安裝的設備是否有差異。專家還將現場觀察測試和驗證,證明系統可以達到Tier要求。原則上講,建造認證才是Tier認證的根本,找到系統中真實存在的盲點和弱點。UptimeInstitute的專家表示,幾乎每一個做建造認證的數據中心都會與設計認證的圖紙存在差異,以至于整個系統或部分子系統實際并無法達到Tier的要求。
  
  最近,Uptime Institute設立了Tier運維認證(Tier Certification of Operational Sustainability)來評估運維人員的操作和管理關鍵基礎設施的能力。甚至在很多嚴格設計和建造的數據中心中,都因為缺乏成熟的綜合管理和操作程序而發生了中斷事故。因此,只有三個階段都通過認證,數據中心的業主才能真正放心,確保他們的數據中心得到最大程度的保護。
  
  【理解5】Tier等級可預測每年的停機時間(Downtime)
  
  錯。
  
  早在2009年,Uptime Institute就從Tier標準中去掉了相關“每年停機時間預測“的參考內容。但即使如此,停機時間Downtime也從來不是定義Tier等級的參數。在Tier Standard:Topology中規定,Tier可用性等級必須對應明確的系統功能結果,即明確的性能目標,例如:具有冗余容量、可同時維護(通常指系統在計劃范圍內,可以移除任何一個容量組件或分配組件而不影響IT系統運行)、或容錯(通常指基礎設施中發生一個計劃外的錯誤而不影響IT系統運行)。但是,即使是一個Tier IV的數據中心,達到了容錯的級別,也可能存在因操作和管理問題造成停機的概率。
  
  現在是有數學統計工具可以預測失效頻率和恢復時間。如果只考慮過去的正常工作時間與總時間的比值,“可用性”就是一個簡單的算術問題了。認為找到一些數字、頻率和中斷持續時間等參數就會推導出所謂的“可用性”結果。但是,還是小心使用這種統計工具為妙。因為在這些數學統計工具中,一般都不會考慮人的行為影響。此外,我們用統計百年不遇颶風來舉例:我們是可以得到一個模糊的颶風發生概率,但同樣有可能一年發生多個百年不遇的颶風。
  
  【理解6】Tier認證只適用于新建數據中心
  
  錯。
  
  Uptime Institute已經認證了很多已建成的數據中心。只是,在帶載的情況下做建造認證的測試程序會比較有富有挑戰性。對于一個已經建成的數據中心,最好不要上來直接做設計認證(TCDD),而是先從TGA(Tier Gap Analysis)開始。TGA將對數據中心設計中的不足之處進行高標準的概括性審查。這會給業主提供足夠的決策依據,是否繼續進行詳細、徹底的設計認證(TCDD)工作。建造認證(TCCF)是在不同的功率負載下進行性能測試,可以采用假負載或實際IT負載,或混合的方式。
  
  【理解7】Tier標準只是美國用的標準
  
  錯。
  
  Uptime Institute已經在超過85個國家和地區交付了Tier認證。
  
  并且,Tier標準允許多種方案和各種各樣的配置方法,在設計、建造和運維上最大程度滿足Tier性能需要與當地法規的匹配。時至今日,Tier標準還沒有跟任何地區的建筑法規、立法章程、司法管轄權有沖突。
  
  【理解8】TIA-942是Tier標準的具體指導文件
  
  錯。
  
  在2014年,UptimeInstitute與美國通信協會(TIA)達成一致,雙方開始明確區分各自的基準體系,以避免行業混淆、明確界定責任。也就是說,TIA關于數據中心的評估體系中已經不被允許再使用“Tier“這個術語。
  
  Tier標準的核心目標在于為數據中心業主通過可用性指標來定義其所擁有的數據中心的性能水平。相比之下,TIA的會員單位專家則是專注在如何部署一個領先的通信網絡。更多具體詳情請參考:https://uptimeinstitute.com/uptime-tia。
  
  【理解9】市電來源決定Tier等級
  
  大錯特錯。
  
  依據Tier Standard:Topology白皮書,數據中心唯一可靠的電力來源是發電機組。原因在于市電電力往往受制于計劃外的中斷,即使在所謂電網可靠的地方。電力回路、變電站、電網的數量等關于市電對數據中心供電的參數,都不會決定和影響數據中心Tier等級??梢哉f,Tier標準根本不用考慮市電。大部分取得Tier認證的數據中心把市電作為主要電力來源的原因僅僅是因為市電的經濟性,但是市電根本不會影響Tier等級目標。
  
  【理解10】對于Tier III和Tier IV,發電機必須每時每刻都在運行
  
  錯。
  
  Tier標準并不需要發電機每時每刻都在運行?;诔杀竞凸芾碓?,通常情況數據中心都是以市電作為主供電。但與此同時,發電機組必須正確配置、選型,確保發電機組可以無限制的承擔關鍵負載。因為在Tier標準中,數據中心默認是由發電機組供電。為了達到Tier要求,必須謹慎配置發電機組的容量和配電路徑。
  
  【理解11】EPO(緊急關機程序)或其它能導致負載停機的程序系統會影響Tier等級
  
  錯。當需要編寫或管理部門命令做EPO的時候,并不會影響Tier等級。但是,Uptime Institute并不推薦安裝EPO程序,除非某些地方法規強制要求。雖然安裝EPO并不影響Tier等級,但即使得到了Tier認證,仍會因EPO系統的有目的的或誤動作而停機。Uptime InstituteNetwork異常事故報告(AIRs)的數據顯示,EPO系統的誤動作是導致停機反復發生的主要原因。
  
  在Tier III中,Tier標準需要在維護、隔離和(或)除掉EPO的時候都不會影響關鍵負載。而Tier IV則要求EPO系統自身也是可以容錯的。
  
  【理解12】Tier標準要求都要采用高架地板
  
  錯。是否采用地板下送風或上送風是業主基于自身的偏愛而做決定的。
  
  在Uptime Institute的經驗中,地板下送風確實可以加強長期運營的靈活性。但是,還是應由業主基于機房環境的效率等因素來決策采用諸如高架地板或上送風、冷熱通道、封閉冷或熱通道、風道送風等具體方式,UptimeInstitute并不強制要求采用高架地板的方式。
  
  【理解13】機架式ATS滿足服務器的雙路供電要求(例如,單電源服務器接機架式ATS,但機架式ATS有兩路輸入)
  
  對。在Tier標準中對奇數(1、3、5……)輸入路數的負載做出了一些讓步,允許以機架式ATS的形式提供并聯供電。但是在Tier III和Tier IV中,仍然要求必須具有獨立的雙路供電到機柜側。
  
  Tier標準的關注點在于確?;A設施滿足相應的Tier目標要求。確實存在很多可能使得數據中心存在單電源或者采用奇數供電的設備,例如對設備供電缺乏了解、可選的設備供應商不足、在托管環境中基礎設施人員無法控制IT設備的種類等。其實大部分情況下,機架式ATS都是由IT部門提供,所以基礎設施都是可以滿足Tier的。但是計劃內的隔離或機架式ATS失效會造成個別機柜或服務器的斷電。
  
  【理解14】Tier II也提供同時維護的能力
  
  部分正確。Tier II在容量組件上考慮了可同時維護,但分配路徑或某些關鍵因素不支持同時維護。一個Tier II系統在發電機、UPS、冷機、冷卻塔、水泵、空調、油箱、水箱、油泵等組件上是支持同時維護的,但是在配電柜、控制面板、切換開關、變壓器、母線、電纜和管路上則是不能同時維護的。在許多情況下,當需要有計劃的維修或更換這些分配路徑和關鍵元素時,數據中心不得不停機才能進行。
  
  當維修或更換任何組件、分配路徑或關鍵元素時,都不需要停機,就是我們所說的Tier III了。
  
  很多行業都需要采用Tier III的數據中心來保護其業務,包括醫療衛生、托管外包、政府機關等等。所有采用Tier保護其投資的企業組織名稱都可以在Uptime Institute官網上查詢到。
  
  【理解15】如果冗余路徑中有一個是非活動的,也可以滿足Tier III要求
  
  部分正確。TierIII需要兩個活動的關鍵電源路徑(UPS輸出端及以下)。但外圍(UPS及以上)是可以接受一路活動、一路非活動的。這就意味著,如果是看一個機柜的雙路電源輸入的話,必須是兩路都是活動的,不能接受其中有一路是平時不可用的,也不允許一路接UPS、一路接市電的模式。
  
  在TierIII中并不要求兩路活動的暖通系統。所以,在Tier III中一個N+1的冷水系統,每臺冷機可以分別支持A和B兩個水回路,只要所有空調末端都掛在同一回路下,是可以允許有一路回路平時是不工作的。
  
  【理解16】建造認證之后所有設施就不能再更改了
  
  錯。不過改變基礎設施必須小心,一定要有詳細的程序和流程。但如果改變了拓撲結構,就很有可能不再是一個同時維護或容錯的系統了。所以,為了確保業主的投資,應該由Uptime Institute來審核更改后的設計和建造,以確保沒有影響到相應的拓撲結構。如果未經審核的更改影響了原有數據中心的同時維護或容錯的功能,Tier證書將被取消。
  
  【理解17】TierIV要求所有的空調機組必須時刻在運行狀態
  
  這個理解大部分是錯的。TierIV只是要求在市電斷電后,在暖通系統完全重啟到恢復至額定功率輸出的這段時間內,仍可以給IT負載和UPS環境提供穩定的制冷。Tier IV的數據中心必須能夠滿足在暖通系統重啟期間,按照2015ASHRAE要求任何15分鐘的熱力環境保持穩定。Tier IV要求所有系統都要保持雙活。這是為了確保連續制冷系統不會因為某些組件出現問題而失效。一個輕載的數據中心或在一個復雜的控制系統下,會出現并非所有空調機組都需要啟動的情況。但是,在通常的TierIV設計中,基本都會考慮在滿載情況下所有空調都要運行。
  
  【理解18】新風容量算在總制冷量中
  
  這是一個經典的錯誤理解。數據中心中的新風系統主要是為了滿足以下三種需要:
  
  ?按照管理部門要求給駐場人員提供新風
  
  ?形成機房正壓,防止灰塵進入
  
  ?幫助達到濕度要求
  
  幾乎沒有數據中心以新風處理器一直工作來滿足空調系統的N要求。相反,新風處理器的存在和維護反而可能會影響Tier等級。例如,沒有按照Tier要求采用ASHRAE規定的規格,則這個新風處理器額外的熱量功率需要考慮計入空調系統的制冷范圍。
  
  【理解19】TierIV不允許采用飛輪式UPS給連續制冷系統供電
  
  錯。Tier標準是一個對供應商和技術均中立的標準體系,意味著Tier認證的數據中心可以包含各種類型的創新技術,當然包含飛輪式UPS。
  
  飛輪式UPS是一種集成了柴油機和飛輪的UPS系統,利用飛輪動能取代電池,這種系統需要更高等級的維護能力,頻繁復位和大量額外的空間來存放電池。飛輪一般可提供10-30秒的備電時間,相比其它技術備電時間比較短,但Tier標準并不對最小備電時間做要求。實際上,Uptime Institute已經認證了多個采用飛輪式UPS技術的數據中心。
  
  飛輪式UPS也常常用來帶電機負載。這就意味著一定要注意確保飛輪式UPS有足夠的容量給每個系統和子系統供電,包含空調系統,這相當于把暖通組件放在跟IT負載一起的不間斷母線上。
  
  【理解20】Tier要求不考慮管道系統
  
  錯。閥門位置和控制面板供電同樣會影響系統或者子系統的Tier等級。管道系統,例如冷凍水管,同樣需要維修、更換甚至重新鋪設。因此,傳統的管道分配系統也需要滿足Tier目標才行。
  
  Uptime Institute理解很多人都被什么是一個滿足“同時維護”的管路系統為難住了,也產生了很多誤解。所以這里需要澄清的是,同時維護是指管路中可以隔離一整套系統或一部分系統,從而保證在維修、保養、升級或重新鋪設時都不會影響機房內的設備運行。
  
  【理解21】數據中心的地理位置會影響Tier等級
  
  錯。雖然地理位置是評估和決策一個數據中心生命周期運維和風險的重要因素,但并不會影響Tier等級。
  
  數據中心的設計者們應該根據一個地理位置的具體風險采取預防措施。要在一個地震風險較高的區域建設數據中心,應當采用經過防震測試和認證的設備,以及采用如何在地震中減輕損失的技術。如果一個數據中心坐落在颶風高發區,設計師應該考慮外部電力和散熱設備的防風保護措施。
  
  但地理位置是Tier運維認證(TCOS)的一項考核指標。
  
  【理解22】我的數據中心是Tier III+
  
  Uptime Institute沒有關于Tier III+的定義。
  
  Tier III+是目前國內數據中心行業一個常見的認知誤區,也包括一些TierIII.6的講法。
  
  在全球公認的Tier標準體系中,每一個Tier等級均包含多種類的拓撲結構,Tier標準尊重業主的偏愛,并鼓勵設計師、設備商的創新。但需要強調的是,一個數據中心的Tier等級取決于可用性等級最低的子系統。Tier標準是明確的整體可用性指標,Tier I到Tier IV為企業和組織定義不同的業務持續運營能力。
  
  而類似于Tier III+的描述中,即不能反映所有子系統的性能,更不能用于定義整體基礎設施的性能。而作為數據中心的業主也需要清晰地評估:為追求某一子系統的性能提升卻對數據中心整體可用性等級無幫助的投資,是否真的值得投入。業主每一筆用于數據中心的寶貴投資,都應該使得數據中心整體上能夠支撐更高等級的風險抵抗能力。

腳注信息
Copyright (c) 2009  All Right Resevered 魯ICP備09012587號