Pobierz najnowszy numer

Newsletter

Zapisz się do naszego Newslettera, aby otrzymywać informacje o nowościach z branży!

Jesteś tutaj

Ciągłość działania w życiu codziennym

Printer Friendly and PDF

Świat ciągle pędzi do przodu. To, co jeszcze kilka lat temu wydawało się możliwe jedynie w filmach typu science-fiction, coraz częściej staje się dostępne dla każdego z nas: wyszukiwanie informacji w niezliczonej ilości zbiorów bez wychodzenia z domu przy wykorzystaniu sieci Internet, możliwość dokonywania zakupów za pośrednictwem komputera czy chociażby realizacja transakcji za pomocą kawałka plastiku w postaci karty płatniczej. Dziś już nikogo nie zaskakują takie zdobycze techniki, jak komputer, bankomat czy telefon komórkowy, które na stałe wpisały się w życie codzienne i są powszechnie wykorzystywane. Wielu z nas używa takich urządzeń na co dzień, nie zastanawiając się nawet nad tym, w jaki sposób funkcjonują i jak prowadzone są działania mające na celu zapewnienie ciągłości działania każdego z systemów. Dopiero w momencie wystąpienia awarii uniemożli­wiającej korzystanie z sieci Internet, pojawienia się trudności z dokonaniem płatności kartą, gdy mamy koszyk pełen zakupów, a w portfelu niewystarczającą sumę pieniędzy, w przypadku niemożności wykonania połączenia telefonicznego właśnie wtedy, gdy jest ono konieczne, jesteśmy zdenerwowani brakiem ciągłości działania systemów informatycznych w danym sektorze usług. 

Stały rozwój usług elektronicznych stawia przed ich dostawcami coraz większe wyzwania. Przy bezlitosnej walce konkurencyjnej w świecie wolnego rynku nie ma miejsca na pomyłki lub podejmowanie prowizorycznych działań. Każdy – nawet najmniejszy – błąd może spowodować, iż klienci utracą zaufanie do firmy i wybiorą ofertę konkurencji. Konieczność realizacji usług na wysokim poziomie i ciągłe podnoszenie ich jakości – a co zatem idzie i bezpieczeństwa – powoduje, iż za utrzymanie poprawnej pracy urządzeń i systemów odpowiadają sztaby wykwalifikowanych specjalistów, którzy muszą być dostępni zawsze wtedy, gdy jest to niezbędne.

W zależności od stopnia krytyczności systemów informatycznych przyjmowane są różne scenariusze działań koniecznych do podjęcia w sytuacji wystąpienia zagrożenia ciągłości ich funkcjonowania, co ma swoje odbicie w sposobie organizacji pracy służb serwisowych. Zanim jednak stworzony zostanie grafik godzin pracy i dyżurów, konieczne jest wykonanie prac analitycznych, których celem będzie dobór optymalnego wariantu, który z jednej strony będzie jak najbardziej efektywny, a z drugiej pozwoli na wyeliminowanie zbędnych kosztów.

Podstawowym zadaniem, które należy wykonać przed stworzeniem harmonogramu pracy, jest konieczność przeprowadzenia identyfikacji ryzyk, czyli po pierwsze iwentaryzacji systemów i usług objętych serwisem, po drugie określenia stopnia krytyczności każdego z nich. Stopień krytyczności może być wyznaczony na odstawie wielu zmiennych, ale najważniejszy jest czas w funkcji kosztu (rzeczywistego lub założonego) ewentualnego przestoju danego systemu, a także yznaczenie granicy, po której przekroczeniu koszt ten wzrasta lawinowo. Na jego wykres składają się nie tylko straty wymierne, wynikające z braku możliwości zrealizowania operacji klientów – które można wyliczyć w prosty sposób, mnożąc średnią liczbę operacji dokonywanych w ciągu godziny przez zysk z tych operacji generowany w sytuacji poprawnego funkcjonowania systemów – ale również koszty niewymierne (niepoliczalne), związane z utratą zaufania klientów do firmy oraz ryzykiem ich przejścia do konkurencji. Im krótszy jest czas od wystąpienia awarii do momentu przekroczenia poziomu akceptowalnej wartości strat, tym system jest bardziej krytyczny.

 
ciaglosc_dzialania.jpg

Po przeprowadzeniu takiej analizy systemy informatyczne dzieli się – według przyjętych w danym podmiocie kryteriów
– na grupy ryzyka (krytyczności). Na potrzeby artykułu przyj­miemy podział na trzy grupy krytyczności systemów, zależny od wartości granicznej akceptowalnychstrat:

  1. systemy, które wartość graniczną osiągają przed upływem jednej godziny od momentu wystąpienia awarii,
  2. systemy, które wartość graniczną osiągają w czasie pomiędzy jedną godziną a czterema godzinami od wystąpienia awarii,
  3. systemy, które wartość graniczną osiągają w czasie powyżej czterech godzin od momentu wystąpienia awarii.

Dla systemów z każdej z tych grup przyjmowane są inne założenia do opracowania planu pracy służb serwisowych odpowiedzialnych za przywrócenie systemów do poprawnej pracy. Dla systemów grupy III wystarczający jest jednozmia­nowy system pracy z zastosowaniem uzupełnienia w postaci ustalenia dyżurów, czyli gotowości pracowników do przyjaz­du na miejsce wystąpienia awarii. Przy wyborze konkretnego pracownika przyjmuje się zazwyczaj, by miejsce jego zamiesz­kania nie znajdowało się dalej niż dwie godziny drogi od miej­sca wystąpienia potencjalnej awarii. Oczywiście pracownicy pełniący taki dyżur powinni zostać odpowiednio wcześniej wyposażeni w środki łączności, umożliwiające odebranie in­formacji o awarii danego systemu. Przy obecnym poziomie rozwoju techniki informacja o wystąpieniu zagrożenia nie­koniecznie musi być przekazana przez człowieka. Coraz czę­ściej wykorzystywane są skrypty, powodujące automatyczne wysłanie informacji tekstowej za pomocą wiadomości SMS. Wiele systemów jeszcze przed wystąpieniem awarii potrafi wykryć anomalie i automatycznie wysłać informację pocztą elektroniczną na wskazany adres serwisowy, dzięki czemu administrator może zjawić się na miejscu zagrożenia jesz­cze przed wystąpieniem samej awarii, a podjęte przez niego działania mogą jej zapobiec. Na rynku dostępne są, w coraz bardziej korzystnych cenach, usługi umożliwiające odbiera­nie wiadomości e-mail za pomocą zwykłych telefonów ko­mórkowych lub dedykowanych urządzeń, które umożliwiają zarówno wykonywanie połączeń telefonicznych, jak również odbieranie poczty elektronicznej w podobny sposób, jak dzieje się to w przypadku wiadomości SMS, bez konieczno­ści każdorazowego łączenia się z siecią Internet. Takie roz­wiązania znacząco skracają czas od momentu otrzymania informacji do jej przeczytania przez administratora. Systemy z grupy ryzyka II powinny być objęte większym reżimem czasowym. Administratorzy odpowiedzialni za te systemy, oprócz narzędzi wymienionych przy okazji syste­mów klasy trzeciej, powinni mieć również możliwość zdal­nego połączenia z siecią wewnętrzną firmy, by móc możli­wie w jak najkrótszym czasie rozpocząć działania mające na celu likwidację nieprawidłowości i przywrócenie po­prawności pracy systemów. Najczęściej wykorzystywanym narzędziem jest bezpośrednie połączenie zewnętrznego komputera pracownika serwisu z siecią wewnętrzną firmy przy wykorzystaniu zdalnego pulpitu. Aby było ono bez­pieczne (zabezpieczone przed możliwością podsłuchania przesyłanych informacji lub ewentualnym przechwyceniem nazw użytkowników i haseł), stosuje się szereg rozwiązań bazujących na połączeniach wykorzystujących tunele VPN (ang. Virtual Private Network – wirtualna sieć prywatna). Dane przesyłane w ten sposób pomiędzy komputerem ser­wisanta a administrowanym zdalnie serwerem są szyfrowa­ne i bardzo trudne do podsłuchania przez nieuprawnione osoby. Ponadto odpowiednio skonfigurowany VPN pozwa­la na uruchomienie odpowiednich polityk na komputerze, z którego są wykonywane połączenia z siecią wewnętrzną firmy, i na czas trwania połączenia możliwe jest zablokowa­nie niektórych usług, co chroni zasoby firmy przed poten­cjalnym wypływem danych (np. GG, możliwości przegląda­nia stron WWW, odbierania i wysyłania prywatnej poczty elektronicznej). Dla zwiększenia poziomu bezpieczeństwa, oprócz uwierzytelnienia w postaci loginu – nazwy użytkow­nika – i hasła, stosowane są fizyczne lub programowe toke­ny do generacji haseł dynamicznych (zmiennych w czasie). Dodatkową zaletą rozbudowanych systemów, umożliwiają­cych połączenie poprzez tunel VPN, jest możliwość moni­torowania i zdalnej weryfikacji pracy administratorów za­równo pod kątem operacji wykonywanych w obsługiwanych systemach, jak również bezpieczeństwa (sposób i czas lo­gowania, informacja, do jakich systemów dany użytkownik próbował się zalogować, czy wyłącznie do tych, do których ma uprawnienia, itp.). Funkcjonalności te mają szczegól­ne znaczenie w sytuacji, gdy opieka nad systemami spra­wowana jest przez pracowników podmiotu zewnętrznego, świadczącego usługi wsparcia dla naszej firmy. Możliwość zdalnego połączenia z siecią wewnętrzną firmy powoduje, iż komputer połączony w ten sposób staje się praktycznie równoważny komputerom wewnętrznym, a wykonanie przez zalogowanego do sieci użytkownika niepożądanych operacji może spowodować zagrożenie dla pracy innych systemów wewnętrznych lub wypływ wrażliwych informacji na zewnątrz.

Dla systemów z grupy krytyczności I najczęściej stosowany jest ciągły, całodobowy system pracy administratorów, któ­rzy prowadzą działania na miejscu, dbając na bieżąco o po­prawność pracy systemów. Jest to system pracy najbardziej kosztowny, jednak – biorąc pod uwagę konieczność zapew­nienia stałej dostępności usług dla klientów – w konsekwen­cji najbardziej opłacalny. Reasumując, należy również pamiętać o bardzo ważnej za­sadzie, mającej ogromny wpływ na skrócenie czasu wyelimi­nowania zagrożenia. Zadania dla każdej z omówionych grup ryzyka winny być przeprowadzone efektywnie w sytuacji wy­stąpienia awarii, dla każdego z systemów, każdy z procesów powinien być opisany i na bieżąco aktualizowany. Dla jak największej liczby mogących wystąpić zdarzeń należy przy­gotować szczegółowe procedury informowania i reakcji, by pod presją czasu w sytuacji wystąpienia zagrożenia pracow­nik mógł podejmować trafne decyzje i realizował w pierwszej kolejności takie działania, które zminimalizują czas przesto­ju systemów.

Krzysztof Białek

Zabezpieczenia Nr 3/4/2008

Wszelkie prawa zastrzeżone. Kopiowanie tekstów bez zgody redakcji zabronione / Zasady użytkowania strony