Monitoring środowiskowy w IT, czy to się opłaca?


Monitoring środowiska pracy systemów informatycznych pozwala nie tylko na zmniejszenie kosztów obsługi awarii ale umożliwia również optymalizację kosztów utrzymania całej infrastruktury.

Monitoring środowiskowy obiektów, w których przetwarzane są dane za pomocą systemów teleinformatycznych jest jednym z najważniejszych aspektów procedur zapobiegania awariom. W dzisiejszych czasach systemy IT działające w oparciu o infrastrukturę teleinformatyczną wspierają działanie całych organizacji, począwszy od procesów wytwórczych po systemy zarządzania. Jakakolwiek przerwa w działaniu systemów IT, implikuje przerwę w działaniu firmy a tym samym prowadzi do mierzalnych strat finansowych przedsiębiorstwa.

nie dopuszcza myśli o awarii

84%

doświadczyło nieplanowanej przerwy

91%

Jednak badania pokazują, że 84% osób zarządzających infrastrukturą woli nie dopuszczać do siebie myśli o awarii, a jednocześnie 91% z nich doświadczyło nieplanowanej przerwy w ciągu ostatnich 24 miesięcy. 

Dlatego spróbujmy przybliżyć zagadnienie monitoringu środowiskowego oraz uzasadnić dlaczego jest on tak ważny dla zapewnienia ciągłości pracy środowisk informatycznych w przedsiębiorstwach.

W celu przedstawienia zagadnienia monitoringu spróbujemy odpowiedzieć na kilka fundamentalnych pytań:

  • czym jest monitoring środowiskowy,
  • w jakim celu należy monitorować,
  • gdzie należy stosować monitoring,
  • jakie parametry powinno się monitorować,
  • jak powinno się monitorować.

 

Czym jest monitoring środowiskowy ?


Przedstawiając w wolnym tłumaczeniu definicje spotykane w Internecie, monitoring jest to system ciągłych lub systematycznie powtarzanych pomiarów i obserwacji stanu wybranych cech i właściwości środowiska w oparciu o system punktów pomiarowych przy użyciu aparatury kontrolno-pomiarowej, w celu dostarczenia informacji o aktualnym stanie i tendencjach zmian środowiska pod wpływem czynników zewnętrznych.

Definicja wygląda na bardzo zawiłą i skomplikowaną, jednakże pokazuje ona na kilka cech systemu monitoringu:

  • jest to system, czyli powinniśmy posiadać narzędzia, które pozwolą na automatyzację procesu monitorowania oraz przechowywania pomiarów,
  • system dokonuje pomiarów, czyli wykonujemy czynności, których celem jest uzyskanie wartości (najczęściej liczbowej lub stanu) mierzonej cechy. Efektem pomiaru nie powinna być wartość typu: ciepło, zimno, dobrze, źle,
  • pomiary dokonujemy ciągle lub systematycznie, co implikuje konieczność zastosowania automatyzacji całego procesu monitoringu, obserwujemy stan wybranych cech i właściwości środowiska co oznacza, że wiemy jakie parametry monitorujemy,
  • uzyskujemy informacje o aktualnym stanie środowiska ponieważ zawsze występują czynniki zewnętrzne mogące niekorzystanie wpłynąć na stan naszego środowiska.

 

W jakim celu należy monitorować ?


Zgodnie z definicją, celem monitoringu jest dostarczenie informacji o aktualnym stanie i tendencjach zmian. Te dwie informacje pokazują, że system monitoringu środowiskowego możemy wykorzystać do dwóch celów:

  • informowania o przekroczeniach bezpiecznych wartości mierzonych parametrów,
  • analizowania danych w celu znajdowania trendów oraz informacji pozwalających na optymalizację pracy infrastruktury.

Przekroczenia bezpiecznych wartości mierzonych parametrów prowadzą zazwyczaj do awarii systemów informatycznych, dlatego monitoring środowiskowy jest elementem proaktywnego działania na rzecz zapobiegania awariom w środowiskach informatycznych.

Możliwość analizowania zebranych danych jest niejako dodatkową funkcjonalnością systemu monitoringu wynikającą z możliwości przechowywania i agregowania informacji o pomiarach i stanowi istotny element w procesie optymalizacji infrastruktury serwerowni oraz środowisk informatycznych.

System monitoringu jako narzędzie zapobiegania awariom


Szacuje się, że w 2014 roku rynek centrów danych na świecie był wart ponad 6 mld dolarów. W 2013 roku na całym świecie było ponad 500 tys. centr przetwarzania danych.

Szacuje się, że jeśli wszystkie centra przetwarzania danych w świecie miałyby przerwę w pracy przez jedną godzinę w tym samym czasie, straty z tego powodu osiągnęłyby wartość 69 tryliona dolarów. Ze względu na lawinowy wzrost ilości danych przetwarzanych przez centra danych, znacznie wzrosły koszty przerwy w działaniu takich obiektów. Średni koszt minut przerwy w działaniu centrum przetwarzania danych w 2013 roku wzrósł o 41% w porównaniu do 2010 r.

Przerwy w centrach przetwarzaniach danych, w większości przypadków są spowodowane przez:

  • awarie układu chłodzenia,
  • awarie systemów zasilania awaryjnego,
  • awarie sprzętu IT.

Błędy w systemach chłodzenia w większości przypadków są spowodowane poprzez awarie agregatów, urządzeń klimatyzacyjnych oraz wycieki wody lodowej. Każda awaria systemu klimatyzacji prowadzi bezpośrednio do obniżenia jakości parametrów środowiskowych w serwerowni, w szczególności temperatury i wilgotności.

Awarie systemów zasilania awaryjnego, w zdecydowanej większości przypadków, są spowodowane utratą pojemności baterii zasilających systemy UPS. Utrata pojemności baterii po upływie czasu jest zjawiskiem normalnym, jednak przechowywanie akumulatorów w nieodpowiednich warunkach środowiskowych prowadzi do drastycznego skrócenia ich życia.

Awarie sprzętu IT są spowodowane nie tylko przez zużycie komponentów serwerów i systemów pamięci masowej. Sprzęt IT, który pracuje w środowisku, w którym parametry środowiskowe nie są prawidłowo utrzymywane ma znacznie ograniczoną żywotność. Nieprawidłowe wartości parametrów, takich jak temperatura czy wilgotność powietrza w pomieszczeniu serwerowni mogą w być konsekwencją zarówno awarii jak i błędów w konfiguracji infrastruktury.

Należy również pamiętać, że system monitoringu może ustrzec przed awariom również w środowiskach, w których zaimplementowano rozwiązania podnoszące odporność infrastruktury na awarie. Przykładem może być pomieszczenie serwerowni, w którym zastosowano redundantny system klimatyzacji. Jednak jak się okazało, w obydwu instalacjach nie zastosowano modułu grzałki karteru sprężarki w zewnętrznych agregatach. Efektem była jednoczesna awaria obydwu instalacji podczas mroźnej zimy prowadząca do przegrzania infrastruktury serwerowej i w konsekwencji przerwy w świadczeniu usług IT.

Innym przykładem pokazującym konieczność stosowania systemu monitoringu środowiskowego może być pomieszczenie serwerowni, w którym znajdowała się infrastruktura serwerowo-sieciowa podtrzymywana przez system UPS z dodatkowymi bateriami. Dodatkowe baterie umożliwiały pracę całego systemu przez wiele godzin bez zasilania z sieci. Planując takie rozwiązanie zapomniano, że podczas awarii prądu, wyłączony zostanie system klimatyzacji, który nie jest podtrzymywany przez system UPS. Konsekwencją wielogodzinnej przerwy w zasilaniu ( zerwane linie energetyczne w wyniku letnich burzy), było przegrzanie systemów serwerowych, ich automatyczne wyłączenie oraz awaria systemu pamięci masowej

System monitoringu jako narzędzie optymalizacji


Największą część kosztów operacyjnych centrów przetwarzania danych stanowią koszty energii elektrycznej. Analizując zużycie energii centrów danych można zauważyć, że średni koszt energii elektrycznej rozkłada się w następujący sposób:

  • 10% - straty energii związane z dystrybucją energii
  • 50% - zużycie energii przez urządzenia IT,
  • blisko 40% - zużycie energii elektrycznej dla systemów chłodzenia,
  • poniżej 1% - innych systemów, takich jak oświetlenie, BMS.

dystrybucja energii

urządzenia IT

systemy chłodzenia

pozostałe systemy

Przedstawione dane pokazują, jak ważne jest utrzymanie optymalnych warunków środowiskowych, takich jak temperatura, przepływ powietrza w centrach przetwarzania danych czy serwerowniach. Utrzymywanie niskich temperaturach prowadzi do znacznego zwiększenia zużycia energii, ale z drugiej strony, utrzymanie zbyt wysokiej temperaturę znacznie zwiększa zużycie infrastruktury IT i prowadzi do jej awarii. Właściwe zarządzanie systemami klimatyzacji umożliwia znaczne obniżenie kosztów energii elektrycznej, przy zachowaniu gwarancji bezpiecznych wartości parametrów środowiskowych.

Prawidłowo wdrożony system monitoringu pozwala również na tworzenie profili cieplnych szaf serwerowych oraz zainstalowanych w nich urządzeń. Obserwowanie m.in. różnic w temperaturach zarówno na wlocie jak i wylocie szaf serwerowych umożliwia zidentyfikowanie urządzeń, które generują zbyt dużo ciepła w stosunku do innych urządzeń. Korelacja takiej informacji z obciążeniem systemów informatycznych zainstalowanych na takich urządzeniach może pomóc uzasadnić wymianę urządzeń na urządzenia nowszej generacji charakteryzujące się niższym poborem mocy. Biorąc pod uwagę, że w dłuższym horyzoncie czasowym ceny energii elektrycznej będą rosnąć taka wymiana może pozwolić na zmniejszenie kosztów utrzymania infrastruktury informatycznej.

W przypadku posiadania prawidłowo wdrożonego systemu monitoringu, który umożliwia przechowywanie i przetwarzanie zebranych informacji, możliwa jest optymalizacja na podstawie zebranych danych. Jednak w wielu przypadkach, gdzie wdrożono systemy monitoringu w starszej technologii, nie ma możliwości przechowywania zebranych pomiarów. W takich przypadkach próbuje się wdrożyć dodatkowe systemy oparte o rejestratory parametrów (ang. DataLogger), które potrafią zebrać, przechować i przetworzyć dane. Warto zauważyć, że takie narzędzia nie posiadają dodatkowych funkcjonalności jakie posiada system monitoringu. Stąd warto przekalkulować czy nie jest bardziej opłacalne wdrożenie nowoczesnego systemu monitoringu pracującego jako system zapobiegania awariom oraz jako narzędzie do gromadzenia i analizy danych pomiarowych.monitoringu pracującego jako system zapobiegania awariom oraz jako narzędzie do gromadzenia i analizy danych pomiarowych.

Należy pamiętać, że monitoring parametrów środowiskowych powinien być procesem ciągłym prowadzącym do stałego zbierania wartości mierzonych parametrów i ich analizowania. Pracujące w serwerowniach czy też centrach przetwarzania danych systemy informatyczne w sposób ciągły zmieniają swoje obciążenie , w zależności np. od obciążenia generowanego przez użytkowników. Infrastruktura informatyczna podlega również procesowi ciągłej modernizacji oraz wymianie co powoduje, że charakterystyka pracy każdego obiektu jest inna i nie da się zaplanować najbardziej wiarygodnego interwału czasu, w którym dokonanie pomiarów pozwoli na przeprowadzenie analizy i wyciągnięcie wniosków dot. np. możliwości obniżenie zużycia prądu.

Ostatnio do projektowania serwerowni oraz centrów przetwarzania danych coraz częściej wykorzystywane są narzędzia wykorzystujące metody numeryczne do rozwiązywania zagadnień mechaniki płynów (ang. Computational Fluid Dynamics). Narzędzia te pozwalają na zasymulowanie pracy serwerowni dla zadanych parametrów tj. m.in. kształt pomieszczenia, ilość i rodzaj serwerów, typ i moc klimatyzacji itp. Należy jednak pamiętać, że tak tworzone modele mają stałe zadane parametry wejściowe takie jak moc zainstalowanego sprzętu IT, moc urządzeń klimatyzacji itp. Modele te nie uwzględniają dynamiki pracy systemów IT, która ma miejsce podczas normalnej pracy systemów. Stąd monitoring rzeczywistych parametrów środowiskowych jest niezbędny dla uzyskania rzeczywistej wiedzy o aktualnym stanie infrastruktury.

Gdzie należy stosować monitoring ?


Infrastruktura informatyczna, wspiera realizację procesów biznesowych i jakakolwiek przerwa w jej działaniu prowadzi o przerwy w pracy części lub całości przedsiębiorstwa. Dlatego monitoring środowiskowy infrastruktury IT powinno się wdrażać we wszystkich miejscach, obiektach w których zainstalowana jest infrastruktura sieciowo-serwerowa.

Należy zwrócić uwagę, że monitoring środowiskowy nie powinien być sprowadzany do instalacji systemu w głównej serwerowni firmy. Monitoringowi powinny podlegać wszystkie miejsca w których zainstalowana jest infrastruktura teleinformatyczna firmy, np. oddziały, filie, punkty/węzły dostępowe, itp. System monitoringu powinien wspierać wdrożenia zarówno w pojedynczych obiektach jak i w infrastrukturze rozproszonej.

Jakie parametry powinno się monitorować ?


Uogólniając, powinno się uwzględniać wszystkie możliwe parametry mogące mieć wpływ na ciągłość pracy infrastruktury serwerowni oraz infrastruktury informatycznej.

Do najbardziej znanych parametrów środowiskowych mierzonych w pomieszczeniach serwerowni oraz centrów przetwarzania danych należą:

  • temperatura,
  • wilgotność.

Monitorowanie temperatury jest jednym z podstawowych tematów w monitoringu środowiska w centrach danych i serwerowniach. Utrzymanie odpowiedniego poziomu temperatury zapobiega przegrzaniu i zapewnia sprzęt normalnych warunków eksploatacji urządzeń. Przyczynia się również do optymalizacji kosztów energii elektrycznej wykorzystywanej przez systemy klimatyzacji do chłodzenia infrastruktury.

W centrach przetwarzania danych i serwerowniach monitorowania wilgotności jest tak samo ważne, jak monitoring temperatury. Utrzymanie odpowiedniego poziomu wilgotności może zapobiec wystąpieniu wyładowań elektrostatycznych (ESD) przy zbyt niskiej wilgotności, jak i kondensacji i korozji elementów przy zbyt wysokiej wilgotności.

W obiektach typu centrum przetwarzania danych do standardowo monitorowanych parametrów należą również:

  • pomiar obciążenia linii energetycznych zasilających szafy serwerowe,
  • wyciek płynów,
  • obecność dymu,
  • poziom paliwa w zbiorniku agregatu,
  • otwarcie drzwi w szafach serwerowych.

Pomiar prądu płynącego w linii energetycznych jest jednym z najważniejszych aspektów planowania ciągłości działania serwerowni oraz centrów przetwarzania danych. Przeciążenie linii energetycznych może spowodować przerwę w dostarczaniu prądu do systemów informatycznych, a w konsekwencji spowodować przerwę w świadczeniu usług. W większości przypadków, pomiary są wykonywane w listwach zasilających (ang. Power Distribution Unit) oraz na poziomie głównej rozdzielni elektrycznej obiektu. Jednak nie należy zapominać o monitoringu obciążenia linii zasilających w rozdzielniach elektrycznych niższego poziomu czy też w szynoprzewodach.

W części obiektów można spotkać rozwiązania monitoringu środowiskowego opartego dodatkowo o:

  • czujniki przepływu powietrza,
  • czujniki wstrząsów,
  • czujniki natężenia dźwięku.

Monitorowanie przepływu powietrza w pomieszczeniu serwerowni lub centrum przetwarzania danych umożliwia optymalną konfigurację urządzeń klimatyzacyjnych i pozwala na prawidłowe rozmieszczenie urządzeń z wysokim zapotrzebowaniem na chłodzenie. W rezultacie, aktywne monitorowanie przepływu powietrza daje możliwość optymalizacji całkowitego kosztu energii elektrycznej używanej do chłodzenia systemów informatycznych.

Czujniki wstrząsu pozwalają wykryć ruch lub ingerencję w sprzęt znajdujący się wewnątrz szaf serwerowych. Ponadto, w przypadku posiadania pomieszczenia serwerowni w okolicy
hal produkcyjnych przemysłu ciężkiego, czujniki mogą wykryć wstrząsy w pobliżu wrażliwych elementów wyposażenia, takich jak np. urządzenia pamięci masowej.

W większości przypadków urządzenia informatyczne sygnalizują problemy lub awarie za pomocą słyszalnych dźwięków i/lub poprzez zwiększenie prędkości wentylatorów. Te nieprawidłowości są wykrywane przez czujniki natężenia dźwięku umożliwiając tym samym znacznie szybszą reakcję na potencjalne uszkodzenia sprzętu.

Jak powinno się monitorować ?


Jeszcze nie tak dawno systemy monitoringu środowiskowego nie były elementem wyposażenia infrastruktury serwerowni czy też centrum przetwarzania danych ale były ściśle powiązane z projektem budowlanym obiektu, w którym znajdowały się pomieszczenia serwerowni. Taka sytuacja powodowała, że tak zaimplementowany system nie pozwalał na uzyskanie wiarygodnych informacji o stanie infrastruktury serwerowej. Dodatkowo powodowało to wiele kłopotów przy późniejszej modernizacji systemu monitoringu w celu dostosowania do zmieniającej się infrastruktury informatycznej.

Konieczność stosowania dodatkowego okablowania lub przeprowadzania prac modernizacyjnych w obrębie serwerowni powodują, że zazwyczaj miejsca pomiaru wrażliwych parametrów nie są wybierane w sposób umożliwiający uzyskanie jak najbardziej wiarygodnych i potrzebnych informacji, ale są wynikiem ograniczeń technologicznych stawianych przez stosowane systemy monitoringu.

Nowoczesne systemy monitoringu oparte o technologie bezprzewodowe pozwalają na montaż monitoringu w miejscach pozwalających na uzyskania najbardziej wartościowych informacji o parametrach środowiskowych serwerowni lub centrum przetwarzania danych.

Pomieszczenie serwerowni lub centrum przetwarzania danych można w uproszczeniu podzielić na trzy strefy:

  • strefę szaf serwerowych,
  • obszar serwerowni,
  • strefę podłogi technicznej.

 

Strefa szaf serwerowych oraz korytarzy zamkniętych


Strefa szaf serwerowych oraz zamkniętych korytarzy jest bezpośrednio odpowiedzialna za monitorowanie środowiska najbliżej infrastruktury IT. Wykrywanie zagrożeń w tym obszarze jest obsługiwane przez następujące czujniki:

  • temperatury,
  • wilgotności,
  • poziomu hałasu,
  • wstrząsu.

Zgodnie z zaleceniami Amerykańskiego Towarzystwa Inżynierów Ogrzewnictwa, Chłodnictwa i Klimatyzacji (ang. American Society of Heating, Refrigerating, and Air-Conditioning Engineers), każda szafa serwerowa powinna być monitorowana przez co najmniej 6 czujników temperatury (górny, środkowy, dolny zarówno z przodu jak i z tyłu szafy) w celu zapewnienia odpowiedniego poziomu bezpieczeństwa dla urządzeń zainstalowanych w szafie.

W typowych wdrożeniach zalecane jest, aby monitorować temperaturę każdej szafy w co najmniej trzech punktach:

  • z przodu w dolnej części szafy serwerowej, by sprawdzić temperaturę powietrza na wlocie do szafy,
  • z przodu w górnej części szafy, aby sprawdzić, czy chłodne powietrze dociera do górnej części szafy,
  • z tyłu na górze szafy, by sprawdzić maksymalną temperaturę, która jest generowana przez urządzenia zamontowane w szafie.

Powszechnie przyjmuje się, że temperatura powietrza nawiewanego do szaf w konfiguracji zimnego korytarza powinna wynosić od 18 °C - 27 °C. Temperatura wychodząca z szafy nie powinna być większa niż temperatura powietrza wlotowego plus około 20 °C.

Obszar serwerowni


Obszar serwerowni jest odpowiedzialny za warunki środowiskowe w całej serwerowni. Kluczowe parametry jakie są monitorowane w tym obszarze to:

  • temperatura,
  • wilgotność,
  • przepływ powietrza,
  • wykrywanie dymu.

Zgodnie z zaleceniami ASHRAE, wilgotność pomieszczenia serwerowni powinna się zawierać pomiędzy 40% i 60% wilgotności względnej. Zbyt suche powietrze może spowodować pojawienie się wyładowań elektrostatycznych (ESD). Zbyt wilgotne powietrze powoduje skraplanie się pary wodnej (przekroczenie punktu rosy), a tym samym powoduje rozpoczęcie procesu korozji elementów.

Temperatura powietrza w całej serwerowni mocno zależy od tego czy serwerowni lub centrum przetwarzania danych wykorzystuje się system zamkniętych korytarzy. W przypadku korzystania z zamkniętych zimnych korytarzy, temperatura powietrza w serwerowni może osiągnąć 37 °C. Jednakże tak wysokie temperatury pozostawiają mały margines w przypadku awarii systemu klimatyzacyjnego lub przechodzenia zasilania całego obiektu na zasilanie rezerwowe.

Te aspekty powodują, że monitorowanie parametrów środowiskowych w zamkniętych korytarzach oraz całej serwerowni wraz z ich trendami jest konieczne, w celu zapewnienia odpowiednich warunków pracy dla infrastruktury IT.

Strefa podniesionej podłogi technicznej oraz innych urządzeń


Strefa podniesionej podłogi technicznej oraz innych urządzeń określa zwykle systemy i urządzenia bezpośrednio wspierające pracę infrastruktury serwerowni lub centrum przetwarzania danych. Kluczowymi parametrami jakie powinno się monitorować w tym obszarze są:

  • wycieki płynów,
  • obciążenie linii energetycznych.

Wyciek płynu jest prawdopodobnie najbardziej znanym zagrożeniem dla centrum przetwarzania danych i serwerowni, więc jest również jednym z najważniejszych aspektów, o których warto pamiętać. Wyciek może być spowodowany przez system klimatyzacji, przecieki dachu, rozszczelnienie rur z wodą w pobliżu serwerowni. Wycieki są często niewidoczne, ponieważ większość serwerowni posiada podniesioną podłogę techniczną, więc właściwa instalacja czujnika wykrywania wody w pobliżu potencjalnego źródła wycieku jest ważnym elementem wdrożenia systemu monitoringu środowiskowego.

Czy to się opłaca?


System monitoringu środowiskowego powinien być wdrożony w każdym środowisku informatycznym. Stanowi on niezbędny element dla poprawnego działania procedur zapewnienia
ciągłości pracy środowisk informatycznych w przedsiębiorstwach.

W dłuższej perspektywie czasu wdrożenie nowoczesnego systemu monitoringu środowiska pracy systemów informatycznych pozwala nie tylko na zmniejszenie kosztów obsługi awarii ale umożliwia również optymalizację kosztów utrzymania całej infrastruktury.