能夠?qū)崿F(xiàn)基礎(chǔ)設(shè)施有效監(jiān)控的十個(gè)步驟
來(lái)源:慧聰安防網(wǎng) 作者:cofee 編輯:數(shù)字音視工程 2011-08-30 00:00:00 加入收藏
一、測(cè)量
如果你無(wú)法對(duì)數(shù)據(jù)中心的一些數(shù)據(jù)進(jìn)行監(jiān)測(cè),那么你也就無(wú)法控制它,這也是為什么監(jiān)測(cè)是這10個(gè)步驟中首要的一步。部署傳感器可以幫助你搜集電力配置、冷卻能力等關(guān)乎數(shù)據(jù)中心安全的數(shù)據(jù)資料。
1、溫度傳感器
高熱密度是數(shù)據(jù)中心向高密度和復(fù)雜性方向發(fā)展所造成的嚴(yán)重問(wèn)題之一。隨著密度的增加,制冷負(fù)荷的增長(zhǎng),使數(shù)據(jù)中心問(wèn)題更加多樣化。同一個(gè)高密度機(jī)架上可能會(huì)出現(xiàn)局部熱點(diǎn),也可能會(huì)有局部溫度低于冷卻溫度的情況,所以,即便是同一個(gè)機(jī)架設(shè)備溫度也會(huì)有很大差異。
在整個(gè)數(shù)據(jù)中心安裝部署溫度傳感器網(wǎng)絡(luò)有助于確保設(shè)備工作溫度在ASHRAE推薦的64.4°F-80.6°F范圍內(nèi)。通過(guò)對(duì)機(jī)架多個(gè)位置溫度的監(jiān)測(cè),可以精確的控制冷卻裝置,使其更加有效的運(yùn)作。
另外通過(guò)傳感器網(wǎng)絡(luò),還可以放心地把數(shù)據(jù)中心溫度提高到接近ASHRAE所規(guī)定的溫度上限,例如從65°F提高到75°F。實(shí)驗(yàn)證明,服務(wù)器入口溫度每提高10°F,其制冷耗電量就會(huì)減少30%。
對(duì)數(shù)據(jù)中心送風(fēng)溫度和回風(fēng)溫度的測(cè)量都是用于輔助測(cè)量服務(wù)器進(jìn)風(fēng)口溫度的,以便更精確地掌控服務(wù)器的運(yùn)行溫度。如今,越來(lái)越多的制冷系統(tǒng)已經(jīng)遷移至機(jī)架上,而傳感器也可以直接連接到冷卻裝置的某個(gè)特定位置上,形成一個(gè)小型的傳感器網(wǎng)絡(luò),服務(wù)器入口的溫度可以根據(jù)對(duì)相鄰機(jī)架溫度和冷卻溫度的測(cè)量而進(jìn)行相應(yīng)的調(diào)整。
最好的做法是在每個(gè)機(jī)架上至少安裝一個(gè)傳感器,也可以在冷通道/熱通道的機(jī)架上統(tǒng)一安裝,傳感器的位置必須是在該行溫度最高的那臺(tái)機(jī)架的頂部。這樣也可以監(jiān)測(cè)到是否有熱空氣從熱通道進(jìn)入到冷通道。
傳感器直接連接到冷卻系統(tǒng)的優(yōu)勢(shì)在于,當(dāng)傳感器與冷卻系統(tǒng)協(xié)同冷卻系統(tǒng)可以自動(dòng)調(diào)整運(yùn)行溫度,可以消除熱點(diǎn),對(duì)熱負(fù)荷的變化作出反映,還可以協(xié)調(diào)同一工作區(qū)間的其他制冷設(shè)備運(yùn)行。傳感器安裝的具體位置應(yīng)該遵循ASHRAE所提供的《數(shù)據(jù)處理環(huán)境熱指南》,以便讀取機(jī)架入口處的溫度數(shù)據(jù),測(cè)量送風(fēng)溫度、回風(fēng)溫度和風(fēng)量值。
2、監(jiān)測(cè)電源的使用情況
功率密度和能源成本上升的同時(shí),能夠監(jiān)測(cè)能源的有效使用率對(duì)數(shù)據(jù)中心管理是至關(guān)重要的。那么電源監(jiān)測(cè)是如何影響能源使用效率的呢?要通過(guò)更多的監(jiān)測(cè)信息對(duì)PUE進(jìn)行討論。
為了對(duì)數(shù)據(jù)中心的能耗有一個(gè)全面的了解,應(yīng)該在UPS進(jìn)行監(jiān)測(cè),并在機(jī)架上安裝電源分配單元(PDU)。對(duì)UPS進(jìn)行監(jiān)測(cè)所搜集的數(shù)據(jù)可以用于計(jì)算電源使用效率(PEU),使IT經(jīng)理確定電源消耗的方向并作出應(yīng)對(duì)措施。利用PDU還能預(yù)防發(fā)生過(guò)載事件,確保設(shè)備的電力分布平均。
最好的IT功耗檢查方法就是機(jī)架內(nèi)部的PDUA,機(jī)柜PDU的特點(diǎn)是能夠?qū)B續(xù)運(yùn)行功率實(shí)施綜合測(cè)量和控制。由于每個(gè)機(jī)架的負(fù)載和機(jī)架內(nèi)的基礎(chǔ)設(shè)備的功耗都有所不同,所以每個(gè)機(jī)架都應(yīng)該安裝一個(gè)PDU,在雙總線環(huán)境下,機(jī)柜PDU可以監(jiān)測(cè)電源的消耗,多種輸入型式與多樣的插位組合的PDU在過(guò)載時(shí)起到保護(hù)作用。這就為數(shù)據(jù)中心的電力消耗管理提供了直接的監(jiān)測(cè)數(shù)據(jù),同時(shí)也提高了數(shù)據(jù)中心的效率和可用性。除了有效的電源管理,機(jī)柜PDU還能為IT服務(wù)價(jià)格提供參考和識(shí)別未被充分利用的空間。遠(yuǎn)程開(kāi)啟和關(guān)閉功能還能防止因新增設(shè)備而造成的過(guò)載。
3、對(duì)機(jī)柜運(yùn)行環(huán)境的監(jiān)測(cè)
隨著密度的增長(zhǎng),現(xiàn)在單個(gè)機(jī)柜支撐的計(jì)算能力可以相當(dāng)于過(guò)去的整個(gè)機(jī)房。機(jī)柜內(nèi)設(shè)備運(yùn)行情況的可見(jiàn)性,能夠幫助預(yù)防其常見(jiàn)的威脅,包括:意外的或是惡意的篡改、水的進(jìn)入、煙霧、濕度或者溫度過(guò)高。
當(dāng)機(jī)柜門(mén)被打開(kāi)、監(jiān)測(cè)到有水或煙霧,或是當(dāng)溫度或濕度超出設(shè)定值時(shí),都會(huì)觸發(fā)機(jī)柜內(nèi)的監(jiān)控單元配置的報(bào)警器發(fā)出警報(bào)。這些“機(jī)柜內(nèi)的眼睛”可以連接到中央監(jiān)控系統(tǒng),其環(huán)境數(shù)據(jù)和機(jī)柜內(nèi)PDU所采集的電源消耗數(shù)據(jù)可以被集成,如果監(jiān)測(cè)出現(xiàn)問(wèn)題也會(huì)通過(guò)激活指示燈和報(bào)警器發(fā)出本地報(bào)警。因此,這些設(shè)備應(yīng)該被部署在高密度機(jī)架和機(jī)架內(nèi)的關(guān)鍵業(yè)務(wù)設(shè)備中。
4、液體泄漏監(jiān)測(cè)
數(shù)據(jù)中心內(nèi)液體泄漏會(huì)造成數(shù)千萬(wàn)美元的設(shè)備損壞和失去大量的數(shù)據(jù),嚴(yán)重影響客戶(hù)交易和企業(yè)的生產(chǎn)力。液體泄漏監(jiān)測(cè)系統(tǒng)利用部署在不同位置的傳感器探測(cè)整個(gè)數(shù)據(jù)中心,通過(guò)及時(shí)報(bào)警防止設(shè)備損壞。
泄漏監(jiān)測(cè)系統(tǒng)可以作為一個(gè)獨(dú)立的操作系統(tǒng)進(jìn)入到中央監(jiān)控系統(tǒng),這樣就簡(jiǎn)化了報(bào)警管理。無(wú)論那種方式,它都是讓數(shù)據(jù)中心經(jīng)理了解其運(yùn)營(yíng)狀況的傳感器網(wǎng)絡(luò)的一個(gè)重要組成部分。
二、控制管理
4、精密制冷系統(tǒng)的智能控制
把智能控制整合到房間空氣調(diào)節(jié)器里,可以更高效、更精確地控制溫濕度。智能控制系統(tǒng)可以協(xié)調(diào)多個(gè)制冷機(jī)組運(yùn)行,使個(gè)機(jī)組之間實(shí)現(xiàn)功能互補(bǔ)并避免沖出。例如,對(duì)濕度的控制,絕對(duì)濕度的控制方式可以按空氣中的水分含量控制濕度,不會(huì)因溫度波動(dòng)引起相對(duì)濕度波動(dòng),造成機(jī)組不必要的加濕或除濕動(dòng)作,也節(jié)約了不必要的能耗。數(shù)據(jù)中心或者機(jī)架級(jí)制冷系統(tǒng)的控制系統(tǒng)還可以縮短管理人員對(duì)系統(tǒng)問(wèn)題的響應(yīng)和維護(hù)時(shí)間,控制系統(tǒng)還能根據(jù)所搜集的數(shù)據(jù)對(duì)組件進(jìn)行預(yù)測(cè)分析,對(duì)整個(gè)系統(tǒng)維護(hù)提供依據(jù)。另外,詳細(xì)的事件日志、服務(wù)歷時(shí)記錄、備件清單都能提高服務(wù)的效率。
5、供電系統(tǒng)的智能控制
現(xiàn)在,數(shù)字化和智能化大大優(yōu)化了UPS供電系統(tǒng)的性能。UPS的智能化主要通過(guò)系統(tǒng)的控制軟件實(shí)現(xiàn)。在系統(tǒng)運(yùn)行狀態(tài)識(shí)別與控制方面,通過(guò)內(nèi)部傳感器和狀態(tài)邏輯及識(shí)別系統(tǒng)所處的運(yùn)行狀態(tài),判定系統(tǒng)運(yùn)行程序和運(yùn)行是否正常。數(shù)字化則是采用數(shù)字信號(hào)處理算法,有效地解決并行系統(tǒng)之間的相互溝通問(wèn)題,以減少故障機(jī)會(huì)。在大部分情況下,還能自行診斷故障并且隨即解決問(wèn)題。如果遇到用戶(hù)預(yù)先設(shè)定的重大故障,則會(huì)直接報(bào)警。
通過(guò)能源優(yōu)化和智能并聯(lián)等特性還能使系統(tǒng)更有效地運(yùn)作。能源優(yōu)化模式在提高UPS系統(tǒng)對(duì)IT負(fù)載供電效率的同時(shí),還具有調(diào)節(jié)功率的特點(diǎn),例如在電力需求不高的周末或晚上,可以對(duì)供電功率進(jìn)行調(diào)整,就能有效避免不必要的能源消耗。并聯(lián)智能控制為模塊化UPS提供了一個(gè)提高效率的途徑,它不僅能對(duì)多模塊并聯(lián)UPS進(jìn)行智能管理,還可以實(shí)現(xiàn)自動(dòng)關(guān)閉不需要支持負(fù)載的UPS模塊,以提高系統(tǒng)效率。
6、集中監(jiān)控和管理
集中監(jiān)控的目標(biāo)就是要能夠通過(guò)管理與技術(shù)的應(yīng)用,對(duì)基礎(chǔ)設(shè)施與IT基礎(chǔ)架構(gòu)的運(yùn)行情況進(jìn)行監(jiān)視,實(shí)現(xiàn)故障與異常的實(shí)時(shí)發(fā)現(xiàn)與通知;此外還可以通過(guò)對(duì)監(jiān)控?cái)?shù)據(jù)搜集與整理,為容量管理、事件管理、問(wèn)題管理、符合性管理提供分析的基礎(chǔ),最終實(shí)現(xiàn)數(shù)據(jù)中心高可用性的目標(biāo)。
目前,數(shù)據(jù)中心的供電系統(tǒng)和制冷系統(tǒng)都可以顯示運(yùn)行數(shù)據(jù),例如可以顯示機(jī)架服務(wù)器的入口溫度,這些工具的使用都推動(dòng)了集中監(jiān)控系統(tǒng)的發(fā)展。
7、報(bào)警和警報(bào)的管理
對(duì)數(shù)據(jù)中心基礎(chǔ)設(shè)施集中監(jiān)控的目的是最大限度地減少系統(tǒng)停機(jī)時(shí)間,及時(shí)有效地應(yīng)對(duì)系統(tǒng)問(wèn)題。集中報(bào)警管理系統(tǒng)為數(shù)據(jù)中心提供一個(gè)統(tǒng)一的運(yùn)營(yíng)窗口,對(duì)臨界報(bào)警這種比較嚴(yán)重的事件可以做到優(yōu)先處理。對(duì)多個(gè)同時(shí)報(bào)警的故障,可以根據(jù)對(duì)業(yè)務(wù)的影響度決定其處理順序。
更近一步的說(shuō),管理人員可以根據(jù)監(jiān)測(cè)系統(tǒng)的數(shù)據(jù)來(lái)分析設(shè)備的運(yùn)行狀況,并執(zhí)行有效的維護(hù)計(jì)劃。
8、監(jiān)測(cè)能源使用效率
在大多數(shù)情況下,數(shù)據(jù)中心并不會(huì)安裝相應(yīng)的能源使用使用監(jiān)測(cè)設(shè)施。很多數(shù)據(jù)中心的管理員覺(jué)得安裝這樣的設(shè)施很沒(méi)有必要,這對(duì)提高數(shù)據(jù)中心的能源使用效率并沒(méi)有多大的效果。其實(shí)并不是這樣的,建立一套能源使用狀況監(jiān)測(cè)系統(tǒng)對(duì)于提高能源使用效率有著很好的激勵(lì)作用,它能夠很直觀的顯示出數(shù)據(jù)中心內(nèi)部的能源狀況。這可以提醒數(shù)據(jù)中心的管理員應(yīng)該時(shí)刻關(guān)注數(shù)據(jù)中心的能源使用率并提高。
建立這樣的能源監(jiān)測(cè)系統(tǒng),可以根據(jù)數(shù)據(jù)輕松算出PUE值,有利于IT經(jīng)理跟蹤能源消耗,從而分析和優(yōu)化能源的使用。
9、電池監(jiān)測(cè)
為了防止數(shù)據(jù)丟失和提高正常運(yùn)行時(shí)間,大多數(shù)數(shù)據(jù)中心需要一個(gè)專(zhuān)用的電池監(jiān)測(cè)系統(tǒng)。電池監(jiān)測(cè)系統(tǒng)可以把電池的潛在故障通知給管理員,最好的做法是實(shí)施一個(gè)監(jiān)測(cè)系統(tǒng),并跟蹤串聯(lián)電池組中的每節(jié)電池的健康狀況。有效的電池跟蹤監(jiān)測(cè)系統(tǒng)包括對(duì)內(nèi)阻參數(shù)的測(cè)量和對(duì)蓄電池充放電情況的監(jiān)測(cè),以確保測(cè)量的準(zhǔn)確度。
UPS的許多用戶(hù)認(rèn)為UPS本身已帶蓄電池監(jiān)測(cè)功能,無(wú)需再安裝另外的蓄電池監(jiān)測(cè)系統(tǒng)。確實(shí),大部分UPS都帶有一定的蓄電池監(jiān)測(cè)功能,可以監(jiān)測(cè)組壓及記錄放電曲線,但是對(duì)于準(zhǔn)確掌握每節(jié)蓄電池的運(yùn)行狀況這些監(jiān)測(cè)是遠(yuǎn)遠(yuǎn)不夠的。UPS一般只能監(jiān)測(cè)組壓,不能監(jiān)測(cè)每節(jié)電池的電壓,一旦某節(jié)電池失效,組壓往往還是正常的,而對(duì)于串接的電池組來(lái)說(shuō),這是非常危險(xiǎn)的。
10、遠(yuǎn)程監(jiān)控管理
在減少能耗的趨勢(shì)下,數(shù)據(jù)中心遠(yuǎn)程監(jiān)控和管理應(yīng)運(yùn)而生。你可以用最小的人力成本來(lái)執(zhí)行關(guān)鍵任務(wù)工作,且不管你身在何處,這也就是無(wú)人值守的概念。
但無(wú)論如何,遠(yuǎn)程管理確實(shí)節(jié)約了大量的成本。一個(gè)數(shù)據(jù)中心的管理者,只須考慮機(jī)架上的虛擬主機(jī)、高效的安全人員以及他的數(shù)據(jù)中心的地理位置,然后用遠(yuǎn)程管理操作數(shù)據(jù)中心,所有他所要做的就是坐視成本的急劇下降。此外,限制訪問(wèn)的另外的好處是,實(shí)際進(jìn)入數(shù)據(jù)中心接觸到計(jì)算機(jī)的人少了,因此發(fā)生意外及安全漏洞的機(jī)會(huì)也少了。這種遠(yuǎn)程管理用遠(yuǎn)程輸入輸出系統(tǒng)訪問(wèn)數(shù)據(jù)中心的服務(wù)器,這種方式還可以提高反應(yīng)時(shí)間。通過(guò)這個(gè)系統(tǒng),也可以實(shí)現(xiàn)地理上的獨(dú)立性。
三、基礎(chǔ)設(shè)施監(jiān)控的效益評(píng)估
通過(guò)這10個(gè)步驟,數(shù)據(jù)中心關(guān)鍵設(shè)施的可用性和效率是可以量化的。幾乎每個(gè)步驟都有助于監(jiān)測(cè)數(shù)據(jù)中心的可用性,并能分析系統(tǒng)潛在問(wèn)題從而提高響應(yīng)速度。從整個(gè)監(jiān)控系統(tǒng)中,管理員可以準(zhǔn)確知道任何一個(gè)機(jī)架在什么時(shí)候發(fā)生了什么事件,集中報(bào)警管理和電池監(jiān)測(cè)等基礎(chǔ)設(shè)施監(jiān)控從根本上消除了數(shù)據(jù)中心停機(jī)最常見(jiàn)的原因。
在許多情況下,這些系統(tǒng)是相對(duì)容易實(shí)現(xiàn)的,而且一旦安裝,可以對(duì)數(shù)據(jù)中心優(yōu)化提供可視的和必要的控制。
評(píng)論comment