Wstęp
Wiem, że tak jak ja nie mogłeś się już doczekać tego właśnie artykułu, czyli kolejnej części o BCP 🙂 Ostatnio udało nam się dotrzeć do mniej więcej połowy tematu. Dziś będziemy go kontynuować, a zaczniemy sobie od odpowiedzialności w BCP. Jeśli jakoś przypadkiem zdarzyło się tak, że przeoczyłeś poprzedni artykuł, to zapraszam Cię tu: link.
Odpowiedzialności w BCP
W planie przywracania do działania jest dużo ważnych ról do obsadzenia. Zadania, jakie trzeba będzie wykonać w wypadku wystąpienia awarii czy katastrofy, to między innymi: przygotowanie schronienia dla pracowników, sprawdzenie, które zasoby zostały zniszczone czy przywrócenie krytycznych procesów i systemów. I wiele innych tematów, które trzeba załatwić, gdy coś się wydarzy. Do tego musimy mieć przygotowane odpowiednie osoby, które zajmą się przydzielonymi do nich zadaniami.
Poniżej opiszę Ci kilka ról, jakie powinny się znaleźć i zostać przydzielone w ramach BCP. Pamiętaj jednak, że ten opis nie jest obowiązującym wyznacznikiem. Nie zawsze role muszą się tak dokładnie nazywać. W różnych organizacjach nazwy ról mogą być różne, tak jak i obowiązki do nich przypisane. Ja daję Ci tu jedynie przykłady. Czasami będzie się zdarzać, że do jednej z tych ról będzie przypisane więcej funkcji, a czasem będzie to rozdrobnione. Analizę, jak te funkcje powinny być przypisane, musi przeprowadzić sama organizacja i przystosować pod siebie.
Ale zanim jeszcze zacznę Ci wymieniać same role, chciałbym Ci powiedzieć, że wszystkie te pozycje powinny być obsadzone przez osoby, które będą dostępne w czasie katastrofy. Jest wiele powodów, dla których dana osoba może nie być w stanie pomóc w trakcie przywracania w ramach BCP, przykładowo:
- Choroba
- Opieka nad bliskimi
- Brak możliwości przemieszania się
- Bycie poza siedzibą (np. urlop za granicą)
- Brak możliwości komunikacji (brak zasilania, zepsuty telefon itp.)
- Strach (nie będziesz myślał o pracy, podczas gdy na głowy Twoich bliskich wali się dach)
Dlatego zawsze powtarzam, że powinien istnieć odpowiedni podział obowiązków – tak, by nie było sytuacji, w której dana osoba nie jest w stanie przejąć tematu. I wszystko leży aż do jej powrotu i nic bez niej nie może się zadziać. To jest najgorsza z możliwych sytuacji. Dlatego w razie wystąpienia zagrożenia na takim stanowisku powinny się znajdować dwie osoby: jedna główna, która zawsze się tym zajmuje oraz jedna „zapasowa”, przeszkolona, aby poradzić sobie w sytuacji, gdyby ta pierwsza nie mogła obsadzić tej roli w razie katastrofy.
Role
Przejdźmy teraz do ról. Ale jeszcze, słowem wstępu, pamiętaj, że osoby na poniższych rolach będą działać w stresie – a dużo ciężej pracuje się z nieznajomymi niż ze znajomymi. Wiec wypadałoby, żeby wszyscy się znali, wtedy szybciej i sprawniej będzie im się współpracowało. Ale do tego przejdziemy już przy testach. A teraz – role:
- Koordynator incydentu
- Grupa do odpowiedzi na incydent
- Osoba od komunikacji
- Osoba od dokumentacji
- Prawnik
- Osoba zajmująca się sprawdzaniem zasobów po zdarzeniu
- Osoba odpowiedzialna za systemy i aplikacje
- Osoba odpowiedzialna za bezpieczeństwo informacji
- Osoba odpowiedzialna za szkolenia
Tak jak wspomniałem, są to przykładowo określone role i może ich być dużo, dużo więcej (a na pewno nie mniej – te role są bardzo ogólnie opisane). Na przykład przy Systemach i Aplikacjach możemy wydzielić role Administratorów krytycznych aplikacji oraz Administratorów krytycznych systemów. Dodatkowo możemy określić odpowiedzialność kierowniczą – na przykład osoby, która ma za zadanie skontaktować się z danymi administratorami w czasie incydentu.
Można też dalej iść w dół. Tu starałem się opisać jak najogólniej, jakie role powinny się na tej liście znaleźć. A obowiązki i ich podział na podrzędne role należy już do organizacji.
Procedura przywracania
Procedura przywracania daje kluczowemu personelowi informacje, jakie – z punktu widzenia BCP – usługi i krytyczne funkcjonalności powinny zostać przywrócone i w jakiej kolejności. Procedura ta stworzona jest zgodnie z wcześniej przygotowanym BIA. Powinna się ona rozwijać wraz z technologią obsługującą dane rozwiązania, aby można było na niej jak najbardziej polegać w odzwierciedleniu do rzeczywistości.
Taka procedura składa się z setek stron dokumentu, często są w niej też podlinkowane podprocedury czy procedury dotyczące danego rozwiązania. Dlatego osobiście uważam, że BCP jest jednym z najbardziej skomplikowanych dokumentów w całej organizacji. Angażuje też praktycznie każdego, minimum po jednej osobie z każdego szczebla w organizacji. I te wszystkie dokumenty i strony są tylko po to, by przywrócić aplikacje czy system do działania.
Procedura kontynuowania operacji
Ta procedura ma więcej wspólnego z procesami biznesowymi niż z samym systemami. Aczkolwiek obie są ze sobą połączone, ponieważ procedura kontynuacji krytycznych procesów musi iść ręka w rękę z procedurą przywracania.
Dla przykładu systemy czy serwery mogą być w jednej lokalizacji, a procesy – w innej. I może zdarzyć się tak, że padną systemy, ale ludziom nic się nie stanie. Na przykład wszystkie systemy, które padły, są wyoutsourcowane. Przy okazji zapraszam Cię do artykułu o outsourcingu – dowiesz się tam więcej o nim i o zagrożeniach z nim związanych (Tutaj masz link). W takiej sytuacji, gdy oberwały systemy, trzeba w jakiś sposób zapewnić ich działanie osobom, które ich potrzebują do kontynuacji biznesu – czyli trzeba wesprzeć część procesową, która poniosła szkody.
Może też zdarzyć się odwrotna sytuacja, w której to coś się stanie z główną lokalizacją i to ludzie nie będą w stanie pracować. W tym momencie to proces się wywali. Dlatego musisz ten proces mieć spisany i musisz przedstawić w niniejszej procedurze, jak na każdym etapie procesu jesteś w stanie uniknąć zagrożeń. I tu znowu podlinkuję Ci artykuł o unikaniu zagrożeń, jeśli nie pamiętasz, jakie są formy unikania zagrożenia. Tutaj znajdziesz artykuł.
Jeśli do tej pory jeszcze nie zdawałeś sobie sprawy z tego, jak skomplikowany to dokument, to już teraz chyba widzisz, jak dużo jest do przemyślenia.
Procedura naprawy
Gdy negatywne zdarzenie już wystąpiło, to często skutkiem jest potrzeba przeniesienia się do alternatywnej lokalizacji. Przynajmniej tak było kiedyś, a nadal tak jest w firmach produkcyjnych. Gdy mamy spółkę IT, nie musimy się tym już przejmować.
A to dlaczego, zapytasz. Dlatego, bo teraz praktycznie wszyscy, którzy mogą, przenoszą się do chmury i pracują zdalnie. Moim zdanie – poza ryzykami w wypadku chmury publicznej – jest to znakomite rozwiązanie. Sam już od początku tego szaleństwa z zamykaniem ludzi w domu pracuję zdalnie i nie zamieniłbym tego na pracę z biura. Choćby mi dawali więcej, to wolę dostać mniej, niż męczyć się z dojazdami, marnować cenny czas na dojazd do biura i wcześniejsze przygotowania.
Tak, jeżdżę też czasami do biura, ale głównie dla towarzystwa. I gdy jestem w biurze, to więcej czasu spędzam na gadaniu niż na robocie. Ale mam to tak przemyślane, by w domu pogonić w dwa dni najwięcej tematów, jak się da, a później pojechać do pracy z ludźmi pogadać i spokojniej popracować. Ale w sumie nie o tym miało być 😉 Wracając do tematu, hot i cold site nie będą potrzebne, jeśli ludzie są w stanie zrobić to samo z domu.
Ale choć w dzisiejszych czasach rozwiązanie home office daje sporo wygód, to i tak potrzebujemy niejednej procedury, by ustalić, jak taka praca ma wyglądać z domu. Jeśli już to mamy, będzie nam łatwiej, ale jeśli nie, to musimy stworzyć ustalenia i wszystkich z nimi zapoznać.
Celem jest, by w wypadku incydentu wszystko przebiegło zgodnie z planem. Tzn. zawsze coś wysypie, bo nie da się wszystkiego przemyśleć i założyć wszystkich możliwości, które mogą zaistnieć, ale będąc przygotowanym na wiele różnych możliwości, łatwiej nam będzie coś skleić na kolanie z gotowców niż tworzyć w trakcie takiej sytuacji.
Przemyślenia odnośnie BCP
Jeśli BCP ma być efektywne, trzeba rozważyć bardzo wiele zmiennych. Tak jak już pisałem, może się zdarzyć, że kluczowy personel nie będzie obecny z jakiegoś powodu – wyżej wymieniłem kilka przykładów takich sytuacji. Trzeba mieć pod ręką kontakt zarówno do tej osoby, jak i do osoby, która ją zastąpi (najlepiej w formie drzewka, by było wiadomo, kogo kiedy poinformować). Pamiętaj, że nie tylko kluczowy personel musi zostać poinformowany. Osoba od kontaktu musi poinformować na przykład managera, który obsługuje dany proces, a on znowu musi poinformować swój personel o zaistniałej sytuacji. Jak widzisz, już sam kontakt zaczyna się robić ścieżką zdrowia i coraz bardziej skomplikowanym tematem.
Osoba odpowiedzialna za kontakt czasami też będzie musiała się skontaktować z zewnętrznymi dostawcami. Poniżej wypiszę krótką listę osób, z którymi taka osoba musiałaby się skontaktować. Oczywiście taki kontakt często będzie potrzebny tylko wtedy, gdy dany incydent będzie dotyczył tylko naszej firmy, a nie np. całego regionu. Bo katastrofa może dotyczyć całego regionu i trzeba ludzi wysłać do domu zawczasu, a służby czy ludzie z zewnątrz będą znali już ogólną sytuację.
Lista
- Kluczowi dostawcy — Kontakt ten może dotyczyć na przykład dostawców prądu, gazu czy dostawców materiałów. Jeśli zerwie się linia energetyczna, to dla bezpieczeństwa swojego jak i innych należy zadzwonić, by elektrownia odcięła daną część swojej sieci. W przypadku materiałów, po co one mają nam przyjeżdżać, jak nie jesteśmy w stanie wyprodukować produktu końcowego. Dostawca zaleje nas materiałem i co wtedy?
- Kluczowi klienci — W wypadku klientów, których wartość jest dla nas wyższa od innych klientów, należy ich poinformować o problemach, by zachować z nimi dobrą relację.
- Policja/Straż pożarna — I inne służby wzywamy w sytuacjach, kiedy są niezbędne do pomocy z danym tematem.
- Ubezpieczalnie — Dużo firm jest ubezpieczonych od różnych sytuacji i zdarzeń, więc często trzeba się skontaktować z takim ubezpieczycielem na przykład po to, by zrobił wycenę.
- Media — Gdy będzie to niezbędne, czasem też trzeba będzie się skontaktować z mediami. Ale to raczej wyznaczona osoba w organizacji musi być gotowa, gdyby to z nią się skontaktowały media.
- Właściciele akcji firmy — Często jest tak, że ktoś posiada akcje firmy, ale nie należy do niej, ma je zakupione i tylko nimi operuje. A nie jest w firmie bezpośrednio. Sam inwestuję w akcje. Ale to nie portal finansowy:) Taka osoba też musi być poinformowana o stanie firmy, ponieważ de facto posiada jej jakąś część.
Osoby odpowiedzialne za kontakt zewnętrzny powinna mieć listę mieszczącą się do kieszeni lub do portfela, a najlepiej w laminacie :). Nie potrzeba tam dużo informacji, jedynie nazwa + numer telefonu i będzie dobrze 😉
Pamiętaj też o zapewnieniu w pracy wody, jedzenia, koców, latarek i baterii, by w sytuacji jakiejś katastrofy być gotowym. Czasem też trzeba będzie załatwić transport pracownika, gdy się zdarzy jakiś incydent. Taką sytuację też musisz wziąć pod uwagę i odpowiednio się do niej przygotować.
Testowanie przywracania
Dokument, jak to dokument, może wyglądać pięknie, być w przygotowany w super elegancki sposób. Ale dopóki nie zostanie przetestowany i sprawdzony w praktyce, nie ma wartości. Dlatego należy wykonywać go i sprawdzać, czy to, co zapisaliśmy, ma realne odwzorowanie w rzeczywistości.
W wielu przypadkach test wykaże rozmaite wady takiego planu, ale to dobrze – będziesz miał okazję go poprawić. W wypadku, gdy plan został w jakiś sposób poprawiony, należy wykonać test ponownie, by sprawdzić, czy wprowadzone zmiany realnie rozwiązały dane zagadnienie, które należało poprawić. Poniżej opiszę Ci rodzaje testów, jakie należy wykonać, wraz z ich opisem, byś wiedział, co i jak.
Typy testów
- Przegląd dokumentacji — przegląd dokumentacji to przegląd wszystkich bądź części dokumentów zawartych w BCP – takich, jak procedury, plany i inna dokumentacja. Zazwyczaj taka dokumentacja jest sprawdzana jedna po drugiej przez osoby odpowiedzialne za dany dokument, tak, aby nanieść odpowiednie zmiany. Oczywiście jest na to wyznaczony z góry czas, aby nanoszenie zmian nie potrwało przypadkiem roku 😉 Celem takiego przeglądu jest sprawdzenie dokładności i kompletności dokumentacji. Gdy już osoba odpowiedzialna za dany dokument naniesie zmiany, szef projektu BCP musi się z nim zapoznać i spojrzeć krytycznym okiem, zanim zatwierdzi dokumentację do dalszych testów.
- Omówienie — Jest to podobny proces do powyższego, tylko w tamtym procesie wykonują go poszczególne osoby odpowiedzialne za dany dokument. A tutaj zbiera się grupa, która przechodzi przez dokument i o nim dyskutuje. Jest to na pewno dłuższy proces niż ten powyżej. Często jest tak, że niektóre tematy się skraca, bo naprawdę ten proces się wydłuża 😉 Lider grupy, która dyskutuje, powinien zbierać notatki odnośnie tego, co zostało zaznaczone podczas takiej dyskusji. Dzięki takiej dyskusji też można znaleźć wiele miejsc do poprawy.
- Symulacja — Jak sama nazwa wskazuje, robimy symulację jakiegoś zdarzenia i sprawdzamy, czy procedury przywrócenia zadziałają. By zwiększyć wartość takiej symulacji trzeba wybrać zdarzenie, które ma dużą szansę wystąpienia. Symulacja może iść dalej, nie musi dotyczyć tylko na przykład wyłączenia serwera. Można też przygotować taką symulację, że serwer znajdujący się u nas padł, ponieważ było trzęsienie czy tego typu katastrofa i kluczowy personel musi iść do salki, w której to będzie kontaktował się z odpowiednimi wyznaczonym osobami w takiej sytuacji. Kreatywność nie zna granic 😉 Im więcej aspektów poruszy dana symulacja, tym lepsze wyniki uzyska. Dobry wynik symulacji zaś to taki, gdzie znaleźliśmy błędy, że tak po raz wtóry podkreślę 😉
- Test równoległy — Tu mamy tak naprawdę przetestowanie całego planu DRP wraz z BCP. Celem takiego testu jest sprawdzenie znajomości procedur u personelu w wypadku negatywnie oddziałującego zdarzenia. Nazwa tego testu pochodzi od tego, że testujemy na identycznym środowisku odwzorowanym na produkcji, ale nie na samej produkcji. W wypadku testu równoległe systemy IT ustawiane są tak, by odwzorowały prawdziwe zdarzenie – po to, by zobaczyć, czy zespół IT będzie w stanie przywrócić normalne działanie. Po takim teście dowiesz się:
- Czy procedury są zgodne i działają odpowiednio
- Czy personel wie, jak postępować z procedurami
- Czy w rzeczywistości możliwości przywracania przez IT działają
- Test przecięcia — Ten test najbardziej odzwierciedla sytuacje realnego incydentu. To on jest w stanie odpowiedzieć, czy, jeśli coś padnie, to później na pewno wstanie. Ten test jest łatwiejszy do odwzorowania, bo nie zawsze jest 1-1 produkcja z backup wiec możesz być trudne do odwzorowania. Tylko musisz pamiętać, że taki test może realnie wpłynąć na pracę biznesu i może ją po prostu sparaliżować na czas testu. Często, jeśli już jest robiony, to dzieje się to w piątek i pracownicy wiedzą o nim dużo wcześniej oraz są gotowi na to, że będą siedzieć w weekend i naprawiać zniszczenia 😉
Dokumentacja rezultatów testu
Jakikolwiek test wykonujesz, wszystko trzeba udokumentować (m.in. wszelkie spotkania). Najważniejsze jest, by podczas testu znaleźć miejsca do poprawy. Aby to zrobić, musisz dokumentować wszystko, to pomoże w znalezieniu luk, które można zapełnić bądź rezultatów, które można poprawić.
Zapisanie pomoże też zobaczyć postępy w rozwoju planu, ponieważ będziesz mógł go porównać do poprzedniego udokumentowanego testu. A pamiętaj, liczy się postęp, nie perfekcja 🙂
Co powinno zawierać BCP
Poniżej przedstawię Ci zwięzłą listę, co taki plan kontynuacji biznesu powinien zawierać:
- Dokumentacja dotycząca projektu — To znaczy wszystkie dokumenty, które zostały stworzone na początku projektu, czyli plan projektu, zakres projektu, potwierdzenie wsparcia od zarządu.
- Dokumenty analizy:
- BIA, czyli Business Impact Analysis — tu znajdziesz więcej o niej
- Analiza zagrożeń i Analiza ryzyka — tu znajdziesz więcej o nich
- Analiza krytyczności
- Dokumenty zatwierdzonego przywracania — typu RTO (recovery time objective) i RPO (recovery point objective)
- Dokumenty w odpowiedzi na zdarzenie — Są to dokumenty potrzebne do tego, by przywrócić normalne działanie systemu. Poniżej przykłady takich dokumentów:
- Plan przywrócenia biznesu — Określa wszelkie aktywności potrzebne do przywrócenia krytycznych funkcjonalności biznesu.
- Plan komunikacji w wypadku zdarzenia — To już opisałem dość dobrze powyżej 🙂
- Lista kontaktów — Drzewko kontaktów, by wiedzieć, z kim się skontaktować w jakiej sprawie.
- DRP — o DRP dowiesz się więcej tu. Kolejnym dokumentem, który będziemy tworzyć, będzie DRP, więc czekaj na kolejne artykuły.
- Plan przywracania operacji — Opis aktywności, które są wymagane bądź krytyczne z punktu widzenia biznesowej funkcjonalności. Nazywając to prostymi słowami, są to krytyczne procesy.
- Plan odpowiedzi na incydenty bezpieczeństwa
- Test BCP — BCP trzeba testować i trzeba udokumentować zarówno ten test, jak i przebieg, czy znaleziono jakieś miejsca do poprawy i tak dalej.
- Przegląd Dokumentu — Trzeba go robić minimum raz w roku. Ale też przy każdej zmianie najlepiej jest przeprowadzić test i sprawdzić, co można poprawić i nałożyć zmiany.
Przeszkól personel
Pamiętaj też o przeszkoleniu personelu, bo to, że coś istnieje, nie ma znaczenia, dopóki ludzie o tym nie wiedzą i nie wiedzą też, jak z tego korzystać. Przeszkolenie to wykonanie po kolei każdego testu po to, aby można było się z tego nauczyć. Pamiętaj, ludzie najlepiej uczą się z praktyki. Ty na pewno też.
Podsumowanie
Jak widzisz, temat BCP jest bardzo skomplikowany. Samo jej stworzenie potrzebuje zaangażowania wielu osób w organizacji. Ale stworzenie tego typu dokumentu jest super, masz dużo możliwości, samo poznanie organizacji dzięki takiemu dokumentowi jest prostsze. A kreatywność, którą możesz wykorzystać, jest wielka: musisz zastanowić się, jakie są zagrożenia, które są krytyczne, jak wrócić z takiej krytycznej sytuacji. A później masz możliwość przetestowania swojej teorii. Jara mnie ten temat, mam nadzieję, że i Ciebie tak samo wciągnę w tę otchłań 🙂
Mam nadzieję, że oba te artykuły Ci pomogły zrozumieć jak napisać takie BCP 😉
Pozdrawiam – Pusz 🙂
The form you have selected does not exist.