Per tūkstantį sutrikdytų skrydžių, oro uoste priversti nakvoti keleiviai ir visą savaitgalį Hitrou ir Gatviko oro uostuose tvyrojęs chaosas – tai „British Airways“ IT sistemų nesklandumų pasekmės. Kol vieni apžvalgininkai skaičiuoja, kad savo keleiviams „British Airways“ greičiausiai turės sumokėti per 100 milijonų svarų sterlingų (daugiau kaip 114 milijonų eurų) kompensacijų, IT specialistai spėlioja, kokios priežastys lėmė, kad vienai didžiausių Europos oro linijų nepavyko apsaugoti savo svarbiausių IT sistemų nuo tokio incidento, bei vardija, ko kiekviena organizacija gali pasimokyti iš šios nelaimės.
Elektros problemos gali sužlugdyti bet kurį
Kol kas dėl IT sistemų veiklos sutrikimų „British Airways“ kaltina nutrūkusį elektros tiekimą ir plačiau nelaimės aplinkybių nekomentuoja. „Blue Bridge“ IT paslaugų valdymo skyriaus vadovas Mindaugas Maraulas pastebi, kad elektros tiekimo sutrikimas iš tikrųjų gali ilgam sutrikdyti visos IT infrastruktūros, o drauge – ir nuo jos priklausomų IT sistemų darbą. „Kaip rodo patirtis, net sugedęs elektros lizdas gali sukelti trumpą sujungimą, „nuvilnijantį“ per visą elektros grandinę ir paveikia visų įrenginių – pradedant nuo spausdintuvų ir baigiant kompiuteriais bei serveriais – darbą.“
„Tačiau jei nuo tokios nelaimės nėra apsaugotas nė vienas, būtina jai pasiruošti – t. y. turėti dubliuotą (vadinamąją active-active) arba „atsarginę“ (vadinamąją active-passive) infrastruktūrą. Dubliuota infrastruktūra reiškia, kad sistemos vienu metu veikia keliuose duomenų centruose, tuo tarpu turint „atsarginę“ infrastruktūrą, sistema veikia viename duomenų centre, o kitame būna „visada pasiruošusi“ – tokiu būdu sugedus vienai infrastruktūros daliai, galima iškart įjungti antrą. Jei pavyksta padaryti tai sklandžiai ir greitai, o atsarginė duomenų kopija – nepasenusi, dingusi elektra neturės įtakos sistemų veikimui. Didžiausias iššūkis ištikus net nesudėtingai IT problemai – greitas jos sprendimas.“
Geras planas nebūtinai gerai veikia
Ką reikėtų daryti, jeigu staiga dingtų elektra arba ištiktų bet kokia kita problema, dėl kurios iš rikiuotės išeitų IT sistemos, paprastai aprašoma IT veiklos atkūrimo (angl. IT disaster recovery, DR) plane, kurį turėtų turėti kiekviena organizacija. Kai kurie apžvalgininkai iškart po „British Airways“ nelaimės retoriškai klausė, koks yra šios bendrovės IT veiklos atkūrimo planas ir kodėl jis nebuvo sklandžiai įgyvendintas.
„Šiuo metu žinoma informacija ir techninės detalės apie „British Airways“ situaciją nėra pakankamos, kad galėtume įvertinti darbą įgyvendinant IT veiklos atkūrimo planą. Tačiau mažai tikėtina, kad tokia bendrovė šio plano neturėtų. Tačiau negalima pamiršti, kad geras planas ne visuomet gerai suveikia – viskas priklauso ir nuo techninės įrangos, ir nuo komandos pasirengimo reaguoti į tokį incidentą“, – sako M. Maraulas.
IT incidentus reikėtų repetuoti
Viena svarbiausių IT veiklos atkūrimo plano dalių – testavimas, kurio metu imituojami galimi incidentai. Pavyzdžiui, testavimo metu gali būti imituota ir „British Airways“ ištikusi bėda – elektros dingimas.
„Nuolat naudojama IT infrastruktūra tiesiog išjungiama ir stebima, kaip vyksta sistemų atstatymo procesas – tuomet ir paaiškėja, ar atsarginės duomenų kopijos – tvarkingos, ar IT inžinieriai žino, ką daryti, ar atsarginė IT infrastruktūra – tinkamai parengta ir t. t. Kai kada per testavimą atskleidžiamos didžiulės problemos ir telieka pasidžiaugti, kad tai – tik suplanuotas bandymas, o ne reali nelaimė. Visgi laikytis gerosios praktikos ir dažnai testuoti savo IT sistemas pavyksta ne visiems“, – sako M. Maraulas.
„Testuojant sistemas reikia būti pasirengusi tam, kad jos iš tikrųjų neveiks ir išbandymo neišlaikys – o tai reiškia ilgo ir brangaus klaidų taisymo ir sistemų tobulinimo pradžią. Be to, kiek truks pats testavimas nustatyti sunku, nes tai priklauso nuo daugybės veiksnių – tarp jų ir sistemų sudėtingumo. Pavyzdžiui, jeigu tai sudėtingos sistemos, kurias ilgą laiką kūrė daugybė žmonių – panašu, kad būtent tokios yra „British Airways“ sistemos – jų testavimas gali užtrukti“, – pastebi „Blue Bridge“ atstovas.
Ar gali toks likimas ištikti ir mažesnę aviacijos kompaniją? Žvelgiant į British Airways atvejį, krizę lėmė ne kompanijos dydis, tačiau jos pasiruošimas tokiam atvejui. Kokio dydžio kompanija bebūtų, svarbu nuolatos testuoti savo sistemas, išdėlioti įvairius krizių scenarijus bei veiksmų planus, kaip po jų atsigauti.