Ciągłość działania w życiu codziennym

23/07/2008

Świat ciągle pędzi do przodu. To, co jeszcze kilka lat temu wydawało się możliwe jedynie w filmach typu science-fiction, coraz częściej staje się dostępne dla każdego z nas: wyszukiwanie informacji w niezliczonej ilości zbiorów bez wychodzenia z domu przy wykorzystaniu sieci Internet, możliwość dokonywania zakupów za pośrednictwem komputera czy chociażby realizacja transakcji za pomocą kawałka plastiku w postaci karty płatniczej. Dziś już nikogo nie zaskakują takie zdobycze techniki, jak komputer, bankomat czy telefon komórkowy, które na stałe wpisały się w życie codzienne i są powszechnie wykorzystywane. Wielu z nas używa takich urządzeń na co dzień, nie zastanawiając się nawet nad tym, w jaki sposób funkcjonują i jak prowadzone są działania mające na celu zapewnienie ciągłości działania każdego z systemów. Dopiero w momencie wystąpienia awarii uniemożliwiającej korzystanie z sieci Internet, pojawienia się trudności z dokonaniem płatności kartą, gdy mamy koszyk pełen zakupów, a w portfelu niewystarczającą sumę pieniędzy, w przypadku niemożności wykonania połączenia telefonicznego właśnie wtedy, gdy jest ono konieczne, jesteśmy zdenerwowani brakiem ciągłości działania systemów informatycznych w danym sektorze usług.

Stały rozwój usług elektronicznych stawia przed ich dostawcami coraz większe wyzwania. Przy bezlitosnej walce konkurencyjnej w świecie wolnego rynku nie ma miejsca na pomyłki lub podejmowanie prowizorycznych działań. Każdy – nawet najmniejszy – błąd może spowodować, iż klienci utracą zaufanie do firmy i wybiorą ofertę konkurencji. Konieczność realizacji usług na wysokim poziomie i ciągłe podnoszenie ich jakości – a co zatem idzie i bezpieczeństwa – powoduje, iż za utrzymanie poprawnej pracy urządzeń i systemów odpowiadają sztaby wykwalifikowanych specjalistów, którzy muszą być dostępni zawsze wtedy, gdy jest to niezbędne.

W zależności od stopnia krytyczności systemów informatycznych przyjmowane są różne scenariusze działań koniecznych do podjęcia w sytuacji wystąpienia zagrożenia ciągłości ich funkcjonowania, co ma swoje odbicie w sposobie organizacji pracy służb serwisowych. Zanim jednak stworzony zostanie grafik godzin pracy i dyżurów, konieczne jest wykonanie prac analitycznych, których celem będzie dobór optymalnego wariantu, który z jednej strony będzie jak najbardziej efektywny, a z drugiej pozwoli na wyeliminowanie zbędnych kosztów.

Podstawowym zadaniem, które należy wykonać przed stworzeniem harmonogramu pracy, jest konieczność przeprowadzenia identyfikacji ryzyk, czyli po pierwsze iwentaryzacji systemów i usług objętych serwisem, po drugie określenia stopnia krytyczności każdego z nich. Stopień krytyczności może być wyznaczony na odstawie wielu zmiennych, ale najważniejszy jest czas w funkcji kosztu (rzeczywistego lub założonego) ewentualnego przestoju danego systemu, a także yznaczenie granicy, po której przekroczeniu koszt ten wzrasta lawinowo. Na jego wykres składają się nie tylko straty wymierne, wynikające z braku możliwości zrealizowania operacji klientów – które można wyliczyć w prosty sposób, mnożąc średnią liczbę operacji dokonywanych w ciągu godziny przez zysk z tych operacji generowany w sytuacji poprawnego funkcjonowania systemów – ale również koszty niewymierne (niepoliczalne), związane z utratą zaufania klientów do firmy oraz ryzykiem ich przejścia do konkurencji. Im krótszy jest czas od wystąpienia awarii do momentu przekroczenia poziomu akceptowalnej wartości strat, tym system jest bardziej krytyczny.

Po przeprowadzeniu takiej analizy systemy informatyczne dzieli się – według przyjętych w danym podmiocie kryteriów
– na grupy ryzyka (krytyczności). Na potrzeby artykułu przyjmiemy podział na trzy grupy krytyczności systemów, zależny od wartości granicznej akceptowalnychstrat:

systemy, które wartość graniczną osiągają przed upływem jednej godziny od momentu wystąpienia awarii,
systemy, które wartość graniczną osiągają w czasie pomiędzy jedną godziną a czterema godzinami od wystąpienia awarii,
systemy, które wartość graniczną osiągają w czasie powyżej czterech godzin od momentu wystąpienia awarii.

Dla systemów z każdej z tych grup przyjmowane są inne założenia do opracowania planu pracy służb serwisowych odpowiedzialnych za przywrócenie systemów do poprawnej pracy. Dla systemów grupy III wystarczający jest jednozmianowy system pracy z zastosowaniem uzupełnienia w postaci ustalenia dyżurów, czyli gotowości pracowników do przyjazdu na miejsce wystąpienia awarii. Przy wyborze konkretnego pracownika przyjmuje się zazwyczaj, by miejsce jego zamieszkania nie znajdowało się dalej niż dwie godziny drogi od miejsca wystąpienia potencjalnej awarii. Oczywiście pracownicy pełniący taki dyżur powinni zostać odpowiednio wcześniej wyposażeni w środki łączności, umożliwiające odebranie informacji o awarii danego systemu. Przy obecnym poziomie rozwoju techniki informacja o wystąpieniu zagrożenia niekoniecznie musi być przekazana przez człowieka. Coraz częściej wykorzystywane są skrypty, powodujące automatyczne wysłanie informacji tekstowej za pomocą wiadomości SMS. Wiele systemów jeszcze przed wystąpieniem awarii potrafi wykryć anomalie i automatycznie wysłać informację pocztą elektroniczną na wskazany adres serwisowy, dzięki czemu administrator może zjawić się na miejscu zagrożenia jeszcze przed wystąpieniem samej awarii, a podjęte przez niego działania mogą jej zapobiec. Na rynku dostępne są, w coraz bardziej korzystnych cenach, usługi umożliwiające odbieranie wiadomości e-mail za pomocą zwykłych telefonów komórkowych lub dedykowanych urządzeń, które umożliwiają zarówno wykonywanie połączeń telefonicznych, jak również odbieranie poczty elektronicznej w podobny sposób, jak dzieje się to w przypadku wiadomości SMS, bez konieczności każdorazowego łączenia się z siecią Internet. Takie rozwiązania znacząco skracają czas od momentu otrzymania informacji do jej przeczytania przez administratora. Systemy z grupy ryzyka II powinny być objęte większym reżimem czasowym. Administratorzy odpowiedzialni za te systemy, oprócz narzędzi wymienionych przy okazji systemów klasy trzeciej, powinni mieć również możliwość zdalnego połączenia z siecią wewnętrzną firmy, by móc możliwie w jak najkrótszym czasie rozpocząć działania mające na celu likwidację nieprawidłowości i przywrócenie poprawności pracy systemów. Najczęściej wykorzystywanym narzędziem jest bezpośrednie połączenie zewnętrznego komputera pracownika serwisu z siecią wewnętrzną firmy przy wykorzystaniu zdalnego pulpitu. Aby było ono bezpieczne (zabezpieczone przed możliwością podsłuchania przesyłanych informacji lub ewentualnym przechwyceniem nazw użytkowników i haseł), stosuje się szereg rozwiązań bazujących na połączeniach wykorzystujących tunele VPN (ang. Virtual Private Network – wirtualna sieć prywatna). Dane przesyłane w ten sposób pomiędzy komputerem serwisanta a administrowanym zdalnie serwerem są szyfrowane i bardzo trudne do podsłuchania przez nieuprawnione osoby. Ponadto odpowiednio skonfigurowany VPN pozwala na uruchomienie odpowiednich polityk na komputerze, z którego są wykonywane połączenia z siecią wewnętrzną firmy, i na czas trwania połączenia możliwe jest zablokowanie niektórych usług, co chroni zasoby firmy przed potencjalnym wypływem danych (np. GG, możliwości przeglądania stron WWW, odbierania i wysyłania prywatnej poczty elektronicznej). Dla zwiększenia poziomu bezpieczeństwa, oprócz uwierzytelnienia w postaci loginu – nazwy użytkownika – i hasła, stosowane są fizyczne lub programowe tokeny do generacji haseł dynamicznych (zmiennych w czasie). Dodatkową zaletą rozbudowanych systemów, umożliwiających połączenie poprzez tunel VPN, jest możliwość monitorowania i zdalnej weryfikacji pracy administratorów zarówno pod kątem operacji wykonywanych w obsługiwanych systemach, jak również bezpieczeństwa (sposób i czas logowania, informacja, do jakich systemów dany użytkownik próbował się zalogować, czy wyłącznie do tych, do których ma uprawnienia, itp.). Funkcjonalności te mają szczególne znaczenie w sytuacji, gdy opieka nad systemami sprawowana jest przez pracowników podmiotu zewnętrznego, świadczącego usługi wsparcia dla naszej firmy. Możliwość zdalnego połączenia z siecią wewnętrzną firmy powoduje, iż komputer połączony w ten sposób staje się praktycznie równoważny komputerom wewnętrznym, a wykonanie przez zalogowanego do sieci użytkownika niepożądanych operacji może spowodować zagrożenie dla pracy innych systemów wewnętrznych lub wypływ wrażliwych informacji na zewnątrz.

Dla systemów z grupy krytyczności I najczęściej stosowany jest ciągły, całodobowy system pracy administratorów, którzy prowadzą działania na miejscu, dbając na bieżąco o poprawność pracy systemów. Jest to system pracy najbardziej kosztowny, jednak – biorąc pod uwagę konieczność zapewnienia stałej dostępności usług dla klientów – w konsekwencji najbardziej opłacalny. Reasumując, należy również pamiętać o bardzo ważnej zasadzie, mającej ogromny wpływ na skrócenie czasu wyeliminowania zagrożenia. Zadania dla każdej z omówionych grup ryzyka winny być przeprowadzone efektywnie w sytuacji wystąpienia awarii, dla każdego z systemów, każdy z procesów powinien być opisany i na bieżąco aktualizowany. Dla jak największej liczby mogących wystąpić zdarzeń należy przygotować szczegółowe procedury informowania i reakcji, by pod presją czasu w sytuacji wystąpienia zagrożenia pracownik mógł podejmować trafne decyzje i realizował w pierwszej kolejności takie działania, które zminimalizują czas przestoju systemów.

Krzysztof Białek

Zabezpieczenia Nr 3/4/2008

Pobierz
najnowszy numer

Jesteś tutaj

Ciągłość działania w życiu codziennym

Najnowsze artykuły

Najnowsze aktualności

Najczęściej czytane

Statystyki

Czasopismo

Na skróty

Pobierz najnowszy numer

Newsletter

Formularz wyszukiwania

Jesteś tutaj

Ciągłość działania w życiu codziennym

Najnowsze artykuły

Najnowsze aktualności

Najczęściej czytane

Statystyki

Czasopismo

Na skróty

Pobierz
najnowszy numer