Pobierz najnowszy numer

Newsletter

Zapisz się do naszego Newslettera, aby otrzymywać informacje o nowościach z branży!

Jesteś tutaj

Czy twoje archiwa cyfrowe to tykająca bomba zegarowa?

Printer Friendly and PDF

leadArchiwa taśmowe, mimo iż przewiduje się wycofanie ich z użycia i ich rynkową śmierć, wciąż mają się dobrze i pozostają jedną z dominujących kopalni danych, między innymi kluczowych dokumentów biznesowych. Przeprowadzone niedawno przez Enterprise Strategy Group (ESG) badanie pokazuje, że 82 procent organizacji wciąż stosuje popularne taśmy w swych procedurach backupowych. Co ciekawe, niektóre z firm tworzą kopie swoich starych dokumentów wyłącznie na taśmach.

Mimo iż coraz więcej firm używa dysków w procesach backupowych przeprowadzanych online, rozmiary danych przechowywanych na offsite’owych taśmach wzrastają, głównie z powodu zwiększającej się ilości gromadzonych informacji cyfrowych. Jak wskazują naukowcy, ilość ta może dochodzić nawet do jednego zetabajta. Dlatego też właściwa polityka zarządzania danymi i upewnienie się, że tylko istotne informacje są magazynowane w odpowiednim czasie i na najbardziej adekwatnych nośnikach, takich jak dyski czy taśmy, jest dla firm istotne bardziej niż dotychczas.

Wiele firm nadal nie uwzględnia właściwej polityki zarządzania danymi w swych strategiach, co powoduje, że wiele danych jest niepotrzebnie przechowywanych na zasobach taśmowych. Wzmaga to niebezpieczeństwo utraty danych i niekorzystnie odbija się na ich budżecie, gdy pojawiają się problemy z dostępem do kluczowych informacji. Niestety wciąż zbyt wiele organizacji ma nadzieję, że przypadki utraty danych z ich zasobów cyfrowych nie będą miały miejsca, a zasoby offline’owe będą dostępne o każdej porze dnia i nocy.

Obecnie specjaliści rozróżniają kilka najważniejszych zagrożeń związanych z dostępem do danych, takich jak między innymi: błąd człowieka, awaria nośników danych (niszczejące z wiekiem taśmy), awaria oprogramowania czy przestarzałe formaty zapisu, które nie są kompatybilne z systemami stosowanymi obecnie. Istotne staje się wsparcie specjalistów, którzy ułatwiają firmom prawidłowe przechowywanie danych lub ich odzyskanie. Dzieje się to szczególnie wtedy, gdy w grę wchodzą dziesiątki tysięcy plików.

3

Fot. 1. Specjalista Kroll Ontrack podczas odzyskiwania danych w laboratorium Kroll Ontrack

Co istotne, organizacje nie powinny polegać na fałszywym poczuciu bezpieczeństwa, jakie dają m.in. archiwa taśmowe, lecz korzystać z doświadczenia firm, które od lat pomagają środowiskom biznesowym w prawidłowym prowadzeniu bibliotek archiwalnych danych. Największe laboratoria odzyskiwania danych i informatyki śledczej proponują obecnie efektywne i relatywnie tanie usługi zarządzania informacjami, a także odzyskiwania i migracji informacji z taśm. Używają one najnowszych dostępnych technologii. Na jaką pomoc mogą więc liczyć obecnie firmy? Pomoc ta może obejmować:

  • przeprowadzanie operacji na nawet najbardziej egzotycznych urządzeniach,
  • przeprowadzenie operacji na niemal wszystkich rodzajach oprogramowania i nośników,
  • odzyskiwanie danych z fizycznie zniszczonych nośników,
  • przeprowadzanie zdalnych operacji na danych udostępnionych online (bez konieczności fizycznego kontaktu z nośnikiem danych).

Zarządzanie cyklem życia danych i jego wpływna archiwa cyfrowe

By dokładnie nakreślić problem archiwów, należy przede wszystkim poznać cykl życia informacji danej organizacji. Jest to konieczne, by zrozumieć, dlaczego tak istotne są kwestie prowadzenia właściwej polityki ochrony danych firmowych. Amerykańskie Stowarzyszenie Przemysłu Sieci Składowania Danych (www.SNIA.org) definiuje Zarządzanie Cyklem Życia Informacji jako:

  • zasady, procesy, praktyki, usługi i narzędzia używane do zestrojenia biznesowej wartości informacji z najbardziej właściwą i efektywną kosztowo infrastrukturą od czasu powstania informacji do jej końcowego umiejscowienia,
  • uporządkowanie informacji zgodnie z zapotrzebowaniem biznesowym poprzez zarządzanie zasadami i poziomami usług powiązanymi z aplikacjami, metadanymi i danymi.

Ciekawe jest to, iż określenie „nośnik danych” nie jest zawarte w definicji SNIA. Mimo iż definicja jest odpowiednia dla innych dyscyplin technicznych, takich jak zabezpieczanie informacji, bezpieczeństwo, architektura przedsiębiorstwa itd., jest stworzona także po to, by pouczyć organizacje o strategiach zarządzania informacją, taktykach i wykorzystywanych metodach.

Istnieje wiele podstawowych pytań, które są nierozerwalnie związane z koncepcją korporacyjnego zarządzania danymi. Jakie dane organizacja aktualnie przechowuje? Czy są one zlokalizowane na miejscu, czy u sprzedawcy powierzchni do przechowywania danych, a jeśli tak, to na której taśmie? Które dane są faktycznie niezbędne do utrzymania ciągłości biznesu lub do celów prawnych, a które są zduplikowane lub niepotrzebne? Pewne informacje, takie jak opatentowane rysunki, prototypy, wzory, nigdy nie tracą aktualności i mogą być przechowywane. Jeśli te i innego rodzaju dane muszą być zachowywane przez coraz dłuższe okresy, to jak zapewnić ich dostępność, gdy bieżąca technologia stanie się przestarzała i nie będzie można dłużej ponosić kosztów operacyjnych, by zachować zdezaktualizowane systemy tylko i wyłącznie w celu ich przywrócenia?

Jeśli przedsiębiorstwo nie zarządza odpowiednio cyklem życia informacji, przechowuje zbędne dane w przestarzałych systemach. W praktyce informacje o typach zarządzania są rzadko śledzone, co niepotrzebnie generuje koszty i potęguje ryzyko.

4

Fot. 2. Eksperci odzyskiwania danych w laboratorium Kroll Ontrack

Zgodnie z ostatnim badaniem Enterprise Strategy Group (ESG) 82 procent przedsiębiorstw wciąż używa taśm do całościowego lub częściowego tworzenia kopii zapasowych w firmie. Raport stwierdza: „zmiana nastąpi, gdy więcej firm będzie używać dysków w procesach tworzenia kopii zapasowych lokalnie, jednak oczekuje się, że pojemność taśm będzie rosnąć”. Mimo to coraz więcej firm chce właściwej ochrony, częściowo z powodu zwiększenia ilości kluczowych danych firmowych.

Zaprzestanie używania taśm jako ochrony nowo powstałych informacji jest odległe, mimo iż przewiduje się ich wycofanie. Ciągle pozostają one dominującym środkiem składowania informacji historycznych – szczególnie istotnych biznesowych wpisów, z których niektóre mogą być zobowiązujące, jeżeli kategoryzowane są jako regulujące lub dotyczące kwestii prawnych.

Problem dostępności danych

Organizacje rutynowo tworzą kopie zapasowe i przechowują informacje, gdyż wydaje im się, że wykonywane procesy archiwizacji danych są wystarczające, a dane są dzięki nim bezpieczne. Należy jednak pamiętać też o tym, że wiele czynników może utrudniać odzyskanie danych, a niektóre z nich nie są identyfikowalne, dopóki organizacja nie znajdzie się w czysto reaktywnym kryzysie, podczas którego rozpoczyna walkę w poszukiwaniu alternatywy. Firma ma obowiązek rozsądnie chronić istotne dane z uwagi na wymogi prawne, niezależnie od kwestii technicznych. Co więcej, jest jasne, że zarządzanie danymi w sposób, który czyni to trudnym, jeśli nie niemożliwym, nie zwalnia firmy z obowiązku ich odzyskania. Niektóre organizacje mają nadzieję, że ich archiwa nie będą przeszkodą i będzie istniała możliwość ich wykorzystania, gdy tylko zajdzie taka potrzeba.

Przejdźmy do najbardziej powszechnych zagrożeń dostępu, które wymieniają specjaliści.

  1. Błędy oprogramowania archiwizującego dane – dotyczą oprogramowania archiwującego dane, które jest skonfigurowane poprawnie. Proces przebiega sprawnie, jednak bieżące kopie zapasowe nie są weryfikowane.
  2. Błędy nośników do przechowywania danych – to najczęściej błędy urządzeń do odczytywania taśm bądź błędy spowodowane uszkodzeniem taśmy. Zapisana na taśmie informacja nie może zostać odczytana z powodu błędów logicznych w zapisie. Istnieje znacząca różnica pomiędzy danymi z ostatniej kopii zapasowej a danymi z ostatniego miejsca, przy którego odczycie pojawia się błąd.
  3. Błędy człowieka – to powszechne błędy, takie jak przypadkowe ponowne zainicjowanie taśmy lub nieaktywowanie dodatkowych opcji przed rozpoczęciem tworzenia kopii zapasowej.
  4. Objętość danych i ich dostępność – dotyczy czystego wolumenu danych i zdolności do znalezienia określonej zawartości w korporacji. Jak dowiedzieć się, czy dane zostały utracone lub brakuje ich? Na przykład – kiedy firmy dokonują fuzji, dane operacyjne, księgowe i klienckie obu firm muszą zachować ciągłość, aby były dostępne. Zróżnicowane scenariusze tworzenia kopii zapasowych musza zostać zharmonizowane.
  5. Starzenie się systemów i nośników – dotyczy potrzeby utrzymania ważnych danych, konwertowania starych, statycznych systemów do innego formatu lub nowszej technologii. Audytorzy mogą wnioskować o podporządkowanie starych wpisów danych (np. w przypadku jednego banku nastąpiło podporządkowanie 17 000 zestawów wpisów z lat 80. XX wieku; taśmy były dostępne, jednak oprogramowanie i napędy nie są już w powszechnym użyciu).
  6. Katastrofy naturalne – szkody powstałe na skutek pożaru, działania wody, błota, bardzo niskich lub wysokich temperatur lub innych czynników naturalnych są często powodem skażenia taśm, ich uszkodzenia i tym samym braku możliwości odczytania ich w podstawowym zakresie.

Cztery porady dotyczące zarządzania ustrukturyzowanym drzewem bazy informacji, gdy istnieje ryzyko związane z dostępnością danych

W szerszym kontekście procesu zarządzania długością życia informacji organizacje poszukują ekspertów w dziedzinie zarządzania danymi, aby pomogli im zarządzać ­przechowywanymi informacjami w sposób bardziej wydajny, pozwalający zredukować obciążenie załogi działu IT i infrastruktury. Jako część rozwiązania należy rozważyć poniższe porady.

Porada pierwsza: Zdefiniuj plan

Powodzenie planu projektu dotyczącego przekształcania przechowywanych danych zależy od zidentyfikowania i zrozumienia projektowanych możliwości i wyzwań. Dlatego też mogą one być planowane odpowiednio. Na przykład:

  1. Jak wygląda struktura danych? Czy wszystkie dane przechowywane w systemach przechowywania danych i media zostały zidentyfikowane?
  2. Czy firma posiada doświadczenie w dostarczaniu rozwiązań w otoczeniu zupełnie różnych systemów?
  3. Jaki jest cel danego projektu i dostępny budżet?
  4. Czy występują prawne lub kontrolne wymagania terminów?

Rejestrowanie rodzajów nośników i ich stanu jest tak ważne, jak określenie, który rodzaj nośnika jest najbardziej odpowiedni w danym przypadku. Nawet w przypadku pozornie nieodwracalnego uszkodzenia nośnika (spowodowanego np. działaniem wody lub ognia) można poddać nośnik procesowi odzyskiwania danych. Jest duża szansa na to, że uda się odzyskać dane. Zazwyczaj istnieje także możliwość zaaranżowania długookresowej polityki tworzenia kopii zapasowych. W przypadku uszkodzenia nośnika należy działać szybko, zanim nośniki rzeczywiście staną się całkowicie bezużyteczne, np. z powodu korozji. Jest to bardzo ważne. Jeśli przenoszone do nowych formatów lub na nowe nośniki dane nie mogą opuścić murów firmy, konwersja musi być przeprowadzona na miejscu lub też przestarzałe serwery muszą zostać przebudowane w taki sposób, aby poprzednie prawa dostępu mogły być w pełni odtworzone. Definiowanie projektu, jego zakresu oraz identyfikacja zasobów technicznych i ludzkich jest czynnością, której nie można pominąć lub wykonać jedynie częściowo.

Porada druga: Analiza danych

Firma powinna zidentyfikować zawartość nośników, aby w późniejszym czasie móc podejmować decyzje dotyczące zbierania, niszczenia i dopasowywania danych odczytywalnych w celu osiągnięcia zgodności z wymogami prawa. W zależności od potrzeb biznesowych, skanowanie, katalogowanie lub indeksowanie nośników może pomóc organizacji w skupieniu uwagi na istotnych nośnikach. Jednakże przeznaczone dla firm oprogramowanie do backupu jest stworzone do zarządzania dużymi ilościami danych, a nie w celu identyfikacji zapisanej zawartości. Jest ono kompleksowe i wymaga relacyjnej bazy danych, potrzebnej do zarządzania m.in. parametrami tworzenia kopii zapasowej, sesjami, zaplanowanymi zadaniami, błędami. Mimo iż oprogramowanie do tworzenia kopii zapasowej systematycznie śledzi to, co jest zapamiętywane, szczegółowe informacje o aktualnej zawartości kopii zapasowej mogą być trudne do uzyskania. Typowym przykładem jest przejęcie biznesu. W kilka lat po zakupie, podczas procesu sądowego i procesu wydobywania danych, wszystkie długoterminowe dane firmowe muszą zostać zbadane i wydobyte przez biegłego sądowego. Bez oryginalnego oprogramowania do tworzenia kopii zapasowej lub wyposażenia w określone urządzenie nagrywające identyfikacja zawartości może okazać się największą przeszkodą i jednym z najbardziej kosztownych elementów projektu.

Katalogowanie i indeksowanie mają różne znaczenia wśród dostawców nośników do tworzenia kopii zapasowych w długim terminie. Katalog długoterminowych kopii zapasowych zazwyczaj odnosi się do sesji tworzenia kopii zapasowych na zestawie nośników. Niektórzy dostawcy usług związanych z tworzeniem kopii zapasowych zapisują identyfikujące metadane na taśmie. Wzrasta jednak liczba dostawców oprogramowania do tworzenia kopii zapasowych, którzy umieszczają ID nośników, ID kopii zapasowej lub ID sesji na nośnikach, które są odniesieniem do oprogramowania relacyjnych baz danych. Ponadto kopie zapasowe sesji, które są linearne w swym zasięgu i w których dane są zapisane jednocześnie na nośniku, stają się rzadkie. By utrzymać w kopii zapasowej poziom operacji IOP (wejścia/wyjścia operacji na sekundę) i wydajności systemu, wiele platform tworzących kopie zapasowe stosuje tzw. zapis rozproszony i fragmentację danych. W tym przypadku wiele strumieni danych i procesów jest wykonywanych równolegle. Aby na nośniku można było zapisać wiele kopii zapasowych, oprogramowanie będzie przechowywać jedną sesję w określonym rozmiarze przestrzeni w MB lub GB, a następnie przełączy się na inny strumień tworzenia kopii zapasowej. Jedynym wyróżnikiem tego, co jest aktualnie zapisywane na nośniku, jest ID nośnika, ID kopii zapasowej lub ID sesji – relacyjna baza danych przechowuje resztę przypisanych metadanych. Dokonując odczytu zawartości taśmy, na której znajduje się kopia zapasowa, administrator może jednak stanąć w obliczu niejasnych informacji, które otrzyma, korzystając z linii poleceń komend. Różne znaczenia i terminologie mogą utrudnić oszacowanie zestawów nośników informacji lub kopii zapasowych. Dane wyjściowe z linii poleceń mogą zostać zinterpretowane jako „indeksowanie nośnika kopii zapasowej”. Wtedy też wszystkie z zamontowanych nośników są wyświetlone, a ich status jest widoczny, jednak administratorowi bazy lub menedżerowi projektu konsolidacji nośników nie wyświetla się zawartość nośników. Firmy zajmujące się zarządzaniem danymi, które dostarczają usługi dostępu do danych, mogą zidentyfikować taśmy z sesjami i następnie dostarczyć raportowanie na wyższym poziomie, wskazując dokładną zawartość, która jest zapisana na długoterminowej kopii zapasowej. Indeksowanie może być dokonane poprzez bezpośredni odczyt taśmy. Nie jest konieczne posiadanie oprogramowania, które pierwotnie zostało użyte do stworzenia kopii zapasowej. Dzięki pracy poza warstwą oprogramowania tworzącego kopie zapasowe i zaufaniu do metadanych bazy danych zarządzanie danymi może dostarczyć firmie kompletnego spisu pozyskanych lub skompilowanych plików. Taki poziom szczegółowej analizy sprawi, że projekt konsolidacji danych zmieści się w zaplanowanym budżecie.

Porada trzecia: Zarządzanie i udoskonalanie danych

Organizacje regularnie tworzą kopie zapasowe – przyrostowe (codziennie/co tydzień) i pełne (na koniec miesiąca). Pomimo tego, że jest to powszechna praktyka branżowa, w rezultacie tworzy się wiele kopii tych samych danych. Bazując na poprzednich analizach i wiedzy przedsiębiorstwa o procedurach tworzenia kopii zapasowych, można nadal zbierać odpowiednie pakiety danych i – zakładając, że nie ma ograniczeń prawnych – wykasować duplikaty danych. Jeśli dane te muszą zostać utrzymane, kopie zapasowe mogą być skonsolidowane poprzez przeniesienie ich na taśmy o większej pojemności. Niepotrzebne pliki systemowe mogą także zostać usunięte.

Porada czwarta: Poddaj rewizji potrzeby konwersji danych oraz metody, które są wykorzystywane w celu ich przeprowadzenia

Definiując zasięg projektu, firma może mieć potrzebę konwersji danych i/lub ich przekształcenia. Istotne jest przy tym zrozumienie stopnia kompleksowości zaangażowania w celu utrzymania projektu w terminie i w ryzach budżetu.

Prosta konwersja

Niektóre z konwersji są proste i nie wymagają skomplikowanych działań. Należy do nich m.in. kopiowanie plików z jednej platformy komputerowej (tym samym są one odczytywalne na innej platformie). Inne konwersje mogą wymagać większej wiedzy technicznej. Chodzi tutaj na przykład o rozważenie różnic w wykazach cyfrowej zawartości pomiędzy wysokowydajnymi stacjami roboczymi, komputerami średniego szczebla i komputerami biurowymi. Komputery IBM i AS/400 używają kodu EBCDIC reprezentującego alfabet, podczas gdy w większości przypadków normą jest kod ASCII. Utrzymanie dostępności informacji w bazach danych wymaga ich konwersji z kodu EBCDIC na ASCII lub eksportu tychże informacji z bazy danych do zwykłych plików z rozszerzeniem .csv.

Kompleksowa konwersja i przekształcenie danych

Bardziej kompleksowa konwersja może polegać na przekształceniu pól w bazie danych. Na przykład przemysł kart płatniczych zgodnie wymaga ukrycia danych posiadacza karty w procesie przechowywania numerów kart kredytowych. W tym wypadku ekspert w dziedzinie zarządzania danych może rozszerzyć i wyciągnąć zawartość, znaleźć numery posiadacza karty i zastosować znaki maskujące (takie jak „X”) na stosownych danych.

Paweł Odor
Autor jest głównym specjalistą polskiego oddziału Kroll Ontrack, największej na świecie firmy zajmującej się odzyskiwaniem i kasowaniem danych oraz informatyką śledczą

Zabezpieczenia 6/2010

Wszelkie prawa zastrzeżone. Kopiowanie tekstów bez zgody redakcji zabronione / Zasady użytkowania strony