Felietony

Kolejna taka awaria może być znacznie poważniejsza. Oto co musimy z tym zrobić

Jakub Szczęsny
Kolejna taka awaria może być znacznie poważniejsza. Oto co musimy z tym zrobić
19

Przede wszystkim, chcę przeprosić osoby, które mogą być zirytowane pewnymi uproszczeniami. To konieczne, aby przyczyny, skutki, rozwiązania i refleksje z ostatniej awarii zrozumieli wszyscy nasi czytelnicy. Globalna awaria systemów informatycznych związana z błędem w programie Falcon od CrowdStrike (ów podmiot zajmuje się cyberbezpieczeństwem), który objawił się po krytycznej aktualizacji systemów Windows, obnażyła rażącą nieudolność dużych firm w tworzeniu i zarządzaniu swoimi infrastrukturami.

Prawdziwymi ofiarami tej sytuacji wcale nie są linie lotnicze, przeróżne średnie i duże przedsiębiorstwa, banki, tylko ich klienci. Tak, wszyscy ci, którzy dziś nie mogli zalogować się do bankowości elektronicznej, nie polecieli na wakacje, czy nie załatwili jakiejś ważnej sprawy. Mieliśmy doskonałą wręcz demonstrację tego, co mogłoby się stać w trakcie nagłego, globalnego "blackoutu" ważnych usług chmurowych. Niech powodem będzie cokolwiek: powszechny błąd, cyberatak — wszystko leży.

Już pojawiają się doniesienia o tym, że naprawa może potrwać nawet kilka dni. Przez kilka dni prawdziwe ofiary — klienci — będą odczuwać skutki tego bałaganu. W tym czasie straty notować będą wszelkie firmy polegające na urządzeniach z Windowsem i rozwiązaniami bezpieczeństwa od CrowdStrike. Już po kilku godzinach mówiło się o poważnych stratach w handlu, co będzie, gdy ta awaria potrwa kilka dni? Za bardzo ufamy technologiom. Uważamy, że jak już dochrapaliśmy się usług chmurowych u jednego dostawcy, to już wszystko jest okej. Nie, nie jest okej. Nie ma usługi, która jest kompletnie bezawaryjna. Blackout może stać się zawsze.

Nie prowadzę ogromnego przedsiębiorstwa, ale pliki projektowe (dla) moich klientów trzymam w dwóch miejscach i dzisiaj uratowało mi to skórę. Ze względu na przyspawanie do Windowsa, rzeczy z mojego komputera lądują od razu w OneDrive. I uwierzcie mi, dziś mógłbym mieć problem z dostępem do nich — ale nie miałem, bo jednocześnie te same pliki pojawiają się na Google Drive. Zupełnie krytyczne dane lądują natomiast dodatkowo na NAS-ie. I tu przechodzimy do istotnego punktu.

Redundancja i georedundancja — a po co to komu?

Co prawda Microsoft i inne firmy tego typu działa w różnych regionach, ma swoje centra danych w różnych miejscach. Redundancja oznacza, że nasze dane lub usługi istnieją w kilku miejscach jednocześnie. Spójrzcie na mój przykład: ja też dokonałem redundancji. Gdyby padł Google Drive, miałbym cały czas dostęp do OneDrive i odwrotnie. Georedundancja to już właściwie taktyka zakładająca, że te same pliki i usługi znajdują się w różnych centrach danych, często rozsianych po całym świecie. Tyle że zasadniczo nieliczne firmy z redundancji korzystają. Dlaczego? Bo to ogromne koszty.

Zatrzymajmy się chwilę przy Microsofcie. Nawet w przypadku aktualizacji krytycznych powinien on w trakcie testów wykryć kolizję między zmianami a działaniem pakietu Falcon. Tyle że protokół testów w Microsofcie prawdopodobnie jest dziurawy — tak samo, jak program Windows Insider, który jest według mnie... żartem. Docelowo miał on spowodować, że aktualizacje dla Windows będą przetestowane najlepiej na świecie: na różnych konfiguracjach sprzętowych i programowych. Okazało się, że z testowych kompilacji i uaktualnień cieszą się głównie entuzjaści na maszynach wirtualnych, co właściwie mija się z sensem tego programu. Microsoft przeoczył naprawdę krytyczny błąd, który co prawda nie jest jego winą, ale mógł go zidentyfikować, gdyby tylko jego protokół testowy działał.

Microsoft poradził sobie z problemem relatywnie szybko, jednak firmy korzystające z ich usług miały znacznie większe trudności. Wiele przedsiębiorstw nie jest odpowiednio przygotowanych do zarządzania własną infrastrukturą IT. Co więc robią tam zespoły IT? Piją kawkę i śpią? A może nie mają narzędzi, możliwości odpowiednio zareagować i wynika to z oszczędności?

Wróćmy do redundancji — tutaj swego rodzaju lekiem na to jest model multi-cloud. Dlaczego jednak nie jest on standardem? To zwyczajnie kosztowne i skomplikowane. Zarządzanie usługami w różnych chmurach wymaga nie tylko dużych inwestycji w infrastrukturę, ale także w specjalistów IT, którzy potrafią sprawnie zarządzać takim środowiskiem. Multi-cloud to większa niezawodność i elastyczność, ale jego wdrożenie i zarządzanie nim jest wyzwaniem, którego wiele firm wciąż się obawia. Nawet jeżeli szef działu IT zaleca takie rozwiązanie, to księgowy się uprze i powie: "nie mamy na to pieniędzy", bo zadowoleni muszą być inwestorzy, muszą widzieć zysk, a nie głównie koszty wynikające z inwestycji w coś, co nie przynosi przychodów. W tym momencie wiele firm pluje sobie w brodę, bo założę się, że w którymkolwiek z przedsiębiorstw, które dziś "padły", do tego typu decyzji doszło. I właśnie te przedsiębiorstwa dziś tracą pieniądze. Tak, można dzisiaj korzystać równocześnie z Azure i Amazon Web Services. I co ciekawe, robią to głównie nowsze firmy, które od początku myślały o takim modelu. Problem jest ze skostniałymi gigantami, które mają mnóstwo własnego, nieużywanego poza nimi oprogramowania, które też trzeba dostosować do nowych standardów. I jest problem, bo to generuje kolejne koszty.

Jak wskazuje Statista, tylko 32% firm korzysta z modelu multi-cloud. Wychodzi na to, że większość przedsiębiorstw ryzykuje awarię taką, jak ta dzisiejsza. Można to wytłumaczyć kosztami, ale z drugiej strony — przedsiębiorstwa, w których dziś doszło do "blackoutu", ponoszą przeogromne straty związane z niemożnością działania usług. Gdyby korzystali z multiclouda, po awarii Azure'a, mogliby wszystko "przenieść" do AWS-a lub do Oracle'a, IBM'a, czy jeszcze gdzieś indziej.

Dzisiejsza awaria to bolesna, ale wartościowa lekcja dla całej branży IT. Ujawniono — w bardzo brutalny sposób — gdzie znajdują się luki w strukturze systemów utrzymujących działanie usług wielu niemałych firm. Branża musi przygotować się na to, że takie rzeczy mogą się powtarzać — mamy niezbyt ciekawą sytuacją geopolityczną i potężnych w sieci wrogów. Równie dobrze, dzisiejsza awaria mogłaby być powodem ataku hakerów. Skoordynowane działanie kilku grup mogłoby wyłączyć większość z tego, co jest nam na co dzień bardzo bliskie i na czym polegamy.

Uzależniliśmy się od technologii. Jeżeli ktoś "wyciągnie wtyczkę", to nas po prostu nie ma. Nie wybierzemy pieniędzy, nie zatankujemy na stacji benzynowej, nie użyjemy karty. W ciągu doby dojdzie do zamieszek i rozkradania sklepów, po 48 godzinach ludzie będą już walczyć na ulicach i przetrwanie. Przynajmniej takie jest moje zdanie o społeczeństwie, w które wyewoluowaliśmy: homo digital.

Każda awaria może mieć ogromne konsekwencje. Trzeba przyznać, że ta dzisiejsza uderzyła nas na tyle mocno, że to odczuliśmy, ale nie na tyle, byśmy zupełnie się załamali. Wyciągnijmy — jako branża i jako społeczeństwo — z tego lekcję. Potraktujcie ten tekst jako refleksję nad naszym uzależnieniem od usług w sieci i jednocześnie — próbę wskazania rozwiązania, które zabezpieczy nas w przyszłości. Kolejna taka okazja może się już nie wydarzyć, bo po kolejnym blackoucie usług może być bardzo trudno się pozbierać. I jako społeczeństwo i jako gospodarki.

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu