Dark, bug i dirty data spędzają sen z powiek dyrektorom IT. Są dla nich jak zakaźna choroba dla epidemiologa; jak rozrzucone puzzle dla cierpiącego na nerwicę natręctw; jak herezja dla fundamentalisty. Pod przykryciem wymuskanych biur i starannie zaprojektowanej infrastruktury komputerowej kryje się nieokiełznany bałagan, chaos w czystej postaci. Ujarzmić go pomoże sztuczna inteligencja?
Mogą być skarbem, który wyniesie działalność firmy na wyższy poziom. Ich umiejętna monetyzacja sprawia, że wykresy w raportach kwartalnych szybują w górę, a temu, w jaki sposób je pozyskujemy, coraz dokładniej przyglądają się urzędnicy. Mowa oczywiście o danych, które już jakiś czas temu okrzyknięto ropą XXI wieku – walutą przyszłości cenniejszą od samego złota. Według IDC, dla firm w obecnych czasach stworzenie skutecznych kanałów przepływu cyfrowych informacji i czerpanie z nich wymiernych korzyści powinno być takim samym standardem, jak dostęp do elektryczności.
Ciemna strona danych
Dane są mocą, bez której coraz trudniej funkcjonować w cyfrowej gospodarce. Ta moc posiada ciemną stronę: niekontrolowany przyrost danych. Jest to problem, którego nie można ignorować nawet w obliczu malejących kosztów ich przechowywania. – Pracownicy korporacji ślepo budują bezdenne jezioro danych. W wielu przypadkach zachęca do tego korporacyjna mantra "zachowaj wszystko, na wszelki wypadek" – alarmuje Gartner, globalna firma consultingowa. Wiadomości e-mail, dokumenty, spakowane pliki, zarchiwizowane treści z internetu, nieskończone i porzucone aplikacje, fragmenty kodu – te i inne treści można scharakteryzować jako Dark Data. Pod tym terminem kryją się wszystkie zalegające na serwerach zasoby informacyjne, których firmy w żadnej sposób nie wykorzystują. Są one problematyczne nie tylko ze względu na ogromne koszty utrzymania, lecz również dlatego, że stanowią swoisty bałagan i utrudniają pracownikom odnajdywanie właściwych zasobów.
Zdaniem Alana Dayleya, dyrektora badań w Gartnerze, przechowywanie ich w takiej formie to zamach na efektywność pracy, który w niektórych przypadkach może przełożyć się na chroniczne marnowanie możliwości biznesowych. Ciemna strona takich danych, zakurzonych i pozbawionych struktury, polega również na tym, że na dobrą sprawę nie wiadomo, co w sobie kryją. Mogą być jak puszka Pandory, lecz również okazać się żyłą złota. Jedno jest pewne – przechowywane w „zamrażarce” są drogim w utrzymaniu generatorem problemów. Osoby decyzyjne powinny zadać sobie pytanie: „Czy moją firmę stać na utrzymanie takiego generatora?”.
Według Piotra Prajsnara z Cloud Technologies, należy podjąć realne kroki w kierunku optymalizacji sposobu gromadzenia i przetwarzania cyfrowych informacji.
– Problem jest złożony i dotyczy większości dużych organizacji. Dobra wiadomość jest taka, że rozwiązanie leży w zasięgu ręki. Nie obejdzie się jednak bez działania na wielu płaszczyznach, od pozyskania specjalistów w dziedzinie data science, poprzez wdrożenie odpowiednich narzędzi analitycznych, po zmianę polityki zapisywania i przechowywania danych. Ta ostatnia ma zapobiegać powstawaniu dark data, a profilaktyka jest przecież o niebo lepsza niż leczenie – dodaje założyciel wiodącej polskiej firmy działającej w obszarze Big Data marketingu.
Jego opinia znajduje uzasadnienie w najnowszym raporcie Data Genomics Index. Wynika z niego, że w roku 2017 liczba firmowych plików skatalogowanych jako nieznane wzrosła w stosunku do roku 2016 o 51 proc. W obliczu takiego stanu rzeczy słusznym wydaje się prowadzenie odpowiedniej klasyfikacji cyfrowych zasobów i przyporządkowanie dostępu do nich poszczególnym pracownikom, którzy dzięki regularnym szkoleniom rozumieją politykę danych przedsiębiorstwa.
Należy również pamiętać, że spora część zbiorów dark data pozostaje poza zasięgiem analityków z prostego powodu: ich jakość jest za słaba, by posłużyły za źródło wartościowych spostrzeżeń – nawet dla sztucznej inteligencji. Doskonale widać to na przykładzie firmy Black Swan, która pracowała z ponad kilkudziesięcioma liniami lotniczymi, pomagając im przewidzieć preferencje pasażerów – od repertuaru wideo po wydawane posiłki. Za każdym razem najwięcej zasobów pochłaniało oczyszczenie i przystosowanie zbiorów do analizy.
– Ponad 60 proc. jedzenia serwowanego w trakcie lotów trafia do kosza, a informacje na ten temat przechowywane są w fatalny sposób, w odmiennych arkuszach i formatach. Z tego powodu aż 90 proc. pracy przy takim projekcie polega na formatowaniu danych, by można było zrobić z nich użytek – objaśnia Steve King, CEO w Black Swan Data.
Brudna robota
O ile dark data można określić mianem „zmarnowanego potencjału”, o tyle już dirty data bardziej przypomina internetowego trolla big data marketingu. Jeżeli ze zbiorów dark data można wydobyć cenne informacje, wzorce i zależności, to w przypadku dirty data mamy do czynienia z totalnym cyfrowym bezładem.
Firmy specjalizujące się w analityce Big Data mają dziś twardy orzech do zgryzienia: jak przechytrzyć coraz mądrzejsze boty, swoim zachowaniem precyzyjnie naśladujące człowieka. Skuteczność prowadzonych analiz zależy od ich identyfikacji, a przecież ogromna część sieciowego ruchu generowana jest przez tego typu oprogramowanie. W efekcie, za naszymi plecami, w ciszy światłowodów odbywa się wojna algorytmów. Po jednej stronie mamy oprogramowanie mające sztucznie podbijać statystyki stron internetowych, wyklikiwać reklamy i wprowadzać dezinformację. Po drugiej stronie znajdziemy m.in. dostawców technologii i firmy trudniące się w online marketingu, którym zależy na realnych wynikach.
– Analityka danych to zaawansowany proces. Pracujemy w środowisku, w którym nie sposób się odnaleźć bez odpowiedniej technologii i kompetencji. Umiejętność oddzielenia fałszywych informacji od tych naprawdę wartościowych jest tu na wagę złota. Bierzemy pod uwagę nie tylko błędy człowieka i szum generowany przez plagę botów, lecz również aktualność danych i kontekst w jakim zostały wygenerowane. Analizując dane spływające z ponad miliardów urządzeń z całego świata odsiewamy wszystko to, co nieistotne, pozostawiając niewielką ilość kluczowych informacji – tłumaczy Piotr Prajsnar, a wniosek nasuwa się sam: bezwartościowe dane należy zwyczajnie kasować.
Tymczasem okazuje się, że większość firm ma z tym duży problem. Notorycznie gromadzą one zarchiwizowane kopie informacji, które nie zostały zaktualizowane i tym samym straciły swoją biznesową wartość. Płacą krocie za dane, których już dawno powinny były się pozbyć.
Spleśniałe megabity
Utrzymywane na serwerach przeterminowane, nieaktualne, fałszywe i bezużyteczne informacje to inaczej „Bug Data” – cichy zabójca oszczędności. Raport Data Genomics Index wskazuje, że ilość gigabajtów zajętych przez firmowe backupy wzrosła w 2017 r. o 98 proc., a w ciągu ostatnich 10 lat rozmiar nowych plików tego typu zwiększył się o 2,586 proc. W roku minionym średnia wielkość pliku backupowego wyniosła 36,2 MB. Mimowolnymi sponsorami tego rozrostu są przedsiębiorstwa wykazujące ignorancję w obszarze zarządzania danymi. Do ich przechowywania najczęściej wykorzystują profesjonalne centra danych, wydające ogromne sumy na cyberochronę. Ilość danych zabezpieczonych w ten sposób ma wzrosnąć do końca dekady aż pięćdziesięciokrotnie – wynika z najnowszych prognoz firmy analitycznej Cybersecurity Ventures. Kuriozalny wydaje się fakt, że ich lwią część już dziś można zaklasyfikować jako bezużyteczną. Pleśniejące relikty niepamiętnych projektów i kopie kopii nieaktualnych rejestrów z roku na rok pochłaniają coraz więcej firmowych zasobów. Bez radykalnych zmian w sposobie zarządzania ta tendencja będzie się tylko pogłębiać.
Niemniej, bug data pod żadnym pozorem nie powinno się traktować lekkomyślnie. Odpowiednia segregacja i utylizacja takich zbiorów jest o tyle istotna, że mogą one zawierać wrażliwe informacje, związane z personaliami czy historią operacji finansowych spółki, które dostawszy się w ręce cyberprzestępców spowodują dotkliwe straty – zarówno finansowe, jak i wizerunkowe.
In AI We Trust
U kogo szukać ratunku przed lawiną mrocznych, nieustrukturyzowanych danych? Gdzie nie spojrzeć sunie ona nieubłaganie, zanurzając niezliczone terabajty w chaosie. Wystrzelone pod niebiosa flary dyrektorów IT gasły bez odzewu do czasu pojawienia się na rynku narzędzi analitycznych opartych o sztuczną inteligencję. Wraz z rozwojem uczenia maszynowego zyskaliśmy wgląd w kolejne warstwy dark data. Inteligentne algorytmy coraz lepiej radzą sobie z nieustrukturyzowanymi zbiorami, potrafią identyfikować zawarte w nich informacje, rozpoznawać wzory i zależności.Platformy DMP penetrują internet, dokładnie analizują aktywność jego użytkowników i znajdując powiązania pomiędzy np. wiekiem, płcią, przeglądanymi stronami w sieci i decyzjami zakupowymi. A co najlepsze, robią to dużo lepiej niż człowiek.
_____________________
Autor:
Marcel Płoszczyński - Account Executive w agencji inPlus Media, entuzjasta nowych technologii i sympatyk blockchainowej rewolucji. Przetwarza kawę na linijki tekstu, a w czasie wolnym grasuje w okolicach równika. Specjalizuje się w komunikacji zewnętrznej, którą prowadzi dla firm z branż technologicznej i marketingowej.
inPlus Mediato stworzona przez pasjonatów technologii agencja PR, która wierzy w dobre i wartościowe treści. Doradza zarówno największym korporacjom, jak i startupom z branży IT, w jaki sposób skutecznie komunikować się z rynkiem.
Artykuły eksperckie na Antyweb. Sprawdź najlepsze teksty:
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu