35

W dżemie siła drzemie, czyli o potencjale Big Data

Bardzo miło jest mi poinformować, że przy współpracy z działem badań NK rozpoczynamy na Antyweb cykl artykułów o Big Data. Chcemy przybliżyć te zagadnienie czytelnikom, pokazać o co chodzi w Big Data i pokazać na przykładach do czego dane są wykorzystywane. Autorem tekst jest Edward Mężyk. Czym jest Big Data? Wydaje się, że większość przedstawicieli […]

Bardzo miło jest mi poinformować, że przy współpracy z działem badań NK rozpoczynamy na Antyweb cykl artykułów o Big Data. Chcemy przybliżyć te zagadnienie czytelnikom, pokazać o co chodzi w Big Data i pokazać na przykładach do czego dane są wykorzystywane.

Autorem tekst jest Edward Mężyk.

Czym jest Big Data? Wydaje się, że większość przedstawicieli branży potrafi zdefiniować te pojęcie. Zapewne na różne sposoby. Dowodzą tego artykuły, które wciąż powstają na ten temat. Jednak najwyższa pora, aby napisać kilka słów na temat tego, co może wnieść w praktyce do firmy ten niezwykle modny nurt

Podejrzewam, że większość z nas niejednokrotnie widziała prezentację o tym, jakie to wspaniałe jest Big Data lub jak wiele może wnieść do organizacji. Ale człowiek z natury jest nie ufny i o ile niezostaną mu przytoczone konkretne przykłady, to nie uwierzy. Dlatego też warto opisać co i jakiej firmie udało się osiągnąć poprzez użycie narzędzia, jakim jest Big Data.

Bez owijania w bawełnę oraz zbędnego „Buzzwordu”, poniżej przedstawiam case’y z życia wzięte.

Rubicon i Petabajty danych

Nie uciekając daleko od rynku reklamowego, możemy przyjrzeć się Rubiconowi. Ta jedna z największych firm na globalnym rynku reklamy internetowej, zajmująca się rozwiązaniami RTB (Real Time Bidding) od lat posiada rozwiązania przypisywane do nurtu Big Data. Korzystając z wiedzy zdobytej przez ich pracowników w Yahoo, z powodzeniem korzystają z technologii Hadoopa. I mimo zbierania ogromnej ilości danych, mieli problemy z raportowaniem. Ich klientom brakowało raportów dotyczących nie tylko prowadzonych kampanii, ale też raportów agregujących tak potężną ilość danych. Co ciekawe, Rubicon nie miał problemów z generowaniem raportów ze względu na brak mocy obliczeniowej, a ze względu na brak stabilności Hadoopa, który przy tak dużych zapytaniach zwyczajnie się zawiesza. Na rynku RTB, gdzie spartańskie reżimy w czasie odpowiedzi serwerów są krytyczne, zawieszanie się systemu oznacza poważne zagrożenie całego biznesu. I pomimo posiadania danych, Rubicon miał poważny orzech do zgryzienia. W tym miejscu należy podkreślić, że posiadanie samego Big Data nie koniecznie musi przynosić zysk. Niewłaściwie wykorzystane Big Data lub braki w jego konfiguracji, mogą prowadzić do poważnych braków w realizacji potrzeb klientów. Z pomocą Rubiconowi przyszedł dopiero MapR oraz Greenplum. Te dwa rozwiązania są również dość popularne na rynku. Jednak ich zastosowanie odmienne niż w większości firm miało przynieść stabilizacje dla ogromnego zbioru danych Rubicona. Od momentu wdrożenia tych rozwiązań, spółka zbudowała system, który przetwarza niesłychanie stabilnie ponad 1PB (Petabajt) danych. Big Data w takim środowisku stało się wręcz niezbędną koniecznością, a nie miłym dodatkiem przynoszącym od czasu do czasu samorodki złota.

Źródło: Raport Forrester „Pattern of Big Data”

Barclays a handel danymi…klientów

Aby nie ograniczać się tylko do branży reklamowej, pójdźmy w stronę biznesów znanych i opisanych w nie jednej książce. Jeden z najstarszych biznesów na świecie – bankowość. Twarda, wyrachowana, zabezpieczona, godna zaufania instytucja, w której każdy szczegół jest opisany ścisłą procedurą. Jak w takich twardych strukturach można wdrożyć coś, co z natury jest bardzo nieokreślone, łamie wszelkie paradygmaty bezpieczeństwa i poufności? Jak się okazuje, jest to możliwe. Jeden z największych banków na Wyspach Brytyjskich nie tak dawno rozesłał do swoich 13 milionów klientów (4 razy więcej niż PKO BP) listy, w których otwarcieprzyznaje się, że od 9 października tego roku będzie sprzedawał dane o nich. Co więcej, oznajmił wręcz, że wśród sprzedawanych danych mogą pojawić się zdjęcia klientów, nagrane rozmowy, historia interakcji przez media społecznościowe, a nawet dane lokalizacyjne zebrane z urządzeń mobilnych, o których użytkownik powiadomił bank. Wydaje się, że jest to ruch wręcz irracjonalny. Wyobraźmy sobie, że nasze dane są sprzedawane osobom trzecim, rządom, firmom: w tym nasze zdjęcia, dane finansowe, metody płatności, miejsca płatności itp. Chciałoby się wręcz wykrzyczeć „SKANDAL!”. Jednak zarząd banku nie widzi w tym nic złowrogiego. Oczywiście, w listach rozsyłanych do klientów pojawia się zapewnienie, że sprzedawane dane będą zagregowane i nie będzie możliwe zidentyfikowanie konkretnej osoby na ich podstawie. Niemniej jednak zastanawiające jest, dlaczego jeden z największych banków, w jednym z najstabilniejszych państw na świecie, postanawia wykonać tak ryzykowny ruch? Jak ogromny potencjał musi nieść za sobą handel danymi? Tym bardziej, że już nie tylko banki na wyspach inwestują w Big Data. Banki na naszym rodzimym rynku czynią to samo. Wystarczy przytoczyć wypowiedzi vice-prezesa Alior Banku, lub przejrzeć listy osób na konferencjach branżowych. Banki bardzo chętnie pojawiają się na każdym evencie Big Data’owym.

Źródło: http://www.guardian.co.uk/business/2013/jun/24/barclays-bank-sell-customer-data

T-Mobile USA i nowe podejście sprzedażowe

Oczywiście firmy z branży telekomunikacyjniej nie pozostają w tyle. T-Mobile, mimo ogromnej siły w Europie, na rynku USA zajmuje dopiero czwartą (ok. 33 mln użytkowników) pozycję, będąc daleko w tyle za pierwszą dwójką (ponad 100 mln użytkowników). Jest to oczywiście bardzo dobrą motywacją do znajdywania metod na podnoszenie jakości swoich usług. W tym przypadku T-Mobile, który bardzo dobrze wykorzystuje dane, skupił się na zminimalizowaniu użytkowników odchodzących z sieci. W tym celu zebrano w jednym miejscu dane pochodzące praktycznie ze wszystkich dostępnych w firmie źródeł o użytkowniku:

  • Dane o klientach (demograficzne, te które operator zbiera o kliencie),
  • Dane o produktach i usługach,
  • Dane o satysfakcji klientów ze świadczonych usług przez T-Mobile,
  • Dane finansowe o klientach (rachunki, formy płatności, oraz plany taryfowe),
  • Dane z sieci logistycznej operatora (gdzie i jak są wysyłane akcesoria, aparaty, dodatki do umów),
  • Dane surowe pochodzące z sieci operatora (logi rozmów, czasy rozmów, obciążenie sieci itp.).

Zebrane w ten sposób dane zaczęto analizować  w odniesieniu do celów biznesowych firmy.  No dobrze, ale jak te wszystkie dane odnoszą się do odejść klientów od operatora? Na podstawie analiz uzyskano model, który łączy w sobie trzy główne źródła: billingi, analizy sentymentu klientów oraz dane o przerwanych rozmowach przez błędy sieciowe. Model ten pozwolił przewidzieć T-Mobile USA, którzy klienci są na granicy zmiany operatora. Na tej podstawie stworzono specjalny system  „Quick View”, przeznaczony dla sieci sprzedażowej operatora.  Umożliwia on wszelkim jednostkom sprzedażowym sieci błyskawiczny podgląd na klientów zagrożonych odejściem. System ten, do najbardziej intratnych, „zagrożonych” klientów, z automatu wysyłał specjalne oferty z nowymi planami taryfowymi.

Efektem takiego działania było zmniejszenie ilości odejść od operatora o 50% w ciągu jednego kwartału od momentu wdrożenia systemu. Od tamtego czasu T-Mobile USA regularnie szczyci się osiągnięciami działu analiz Big Data’owych. Osiągnięcie tak dużej zmiany w tak krótkim czasie obiegło rynek bardzo szybko. Inni operatorzy, natychmiast zaczęli naśladować podejeście konkurencji.

Źródło: http://www.bigdata-startups.com/BigData-startup/t-mobile-usa-cuts-downs-churn-rate-with-big-data/

Netflix i fabryka hitów

Wydawałoby się, że na rynku rozrywki multimedialnej wszystko jest skalkulowane i przewidywalne. Niestety, technika przenikająca się ze sztuką czasem potrafi zaskoczyć. Jak wielu z was zna „House of Cards” w wersji made in USA? Podejrzewam, że nie jednej osobieta pozycja jest całkiem dobrze znana.  Zresztą, wiele osób twierdzi, że jest to jedna z najlepszych produkcji ostatnich czasów. I jak to w showbiznesie: bywa, że coś, po czym najmniej byśmy się tego spodziewali odniesie sukces, a najdroższe produkcje mogą okazać się klapą. W tym przypadku jednak producenci szczycą się tym, że jeszcze zanim seria weszła do produkcji, to już wiedzieli, że to będzie hit. A wszystko za sprawą Big Data. Netflix monitoruje bardzo dokładnie swoich użytkowników (ponad 33 mln). Rejestruje ponad 30 milionów odtwarzań dziennie, w tym każde zatrzymanie, przewijanie, pause, oceny filmów oraz oczywiście każdy przypisany do mateiału tag. Na tej podstawie szefostwo firmy stworzyło model, w którym połączenie reżysera D.Finchera, aktora K.Spacey oraz brytyjskiej wersji „House of cards” okazało się idealną produkcją. Parafrazując wypowiedź Jonathan’a Friedland CCO (chief communications officer) Netflixa – „Ponieważ mamy bezpośrednią relację z naszymi użytkownikami i wiemy, co nasi klienci lubią oglądać, mieliśmy trochę pewności, że znajdziemy chętnych na obejrzenie „Hous of Cards””. Netlfilx jest pionierem w showbiznesie, ale bardzo szybko znajduje sobie naśladowców. Jeszcze niedawno największe sieci oraz eksperci myśleli, że znalezienie hitu to wiedza z pogranicza alchemii, a teraz internetowy operator pokazuje, że raczej z pogranicza algrytmiki i technologii.

Źródło: http://www.nytimes.com/2013/02/25/business/media/for-house-of-cards-using-big-data-to-guarantee-its-popularity.html?pagewanted=all&_r=0

Przykład z rodzimego rynku

Jako, że zawodowo jestem związany z NK, często znajomi zadają mi pytanie, jak to się dzieje, że NK (dawniej Nasza-klasa.pl) po szczytowym okresie jej popularności w 2009 r., nie zaliczyła mediowego szumu wokół jej krachu finansowego? Odpowiedź na to pytanie jest dość prosta: nigdy takiego krachu nie było.. Jednym z ważnych czynników, który na to wpłynął jest inwestycja w bardzo śmiały projekt hurtowni danych. Był to 2010 rok i nie wiele osób wtedy słyszało o Hadoopie, czy bazach kolumnowych (dzisiaj nagminnie wykorzystywanych w tworzeniu Big Data). Od tamtego czasu ilość użytkowników polskiego portalu społecznościowego spadła prawie o połowę, jednak przychody spółki wręcz wzrosły. Okazuje się, że zostało to osiągnięte poprzez zwiększenie wykorzystania 1 odsłony ponad dwukrotnie. Tzn., że jedna wygenerowana odsłona przynosi dwa razy więcej środków niż 3 lata temu. NK od lat pracuje nad lepszym targetowaniem użytkowników. Portal, dla którego ważną gałęzią przychodową jest reklama display, zaczął znacznie lepiej docierać do użytkowników, zmniejszył drastycznie ilość „pustych” odsłon. Wszystko to przy użyciu Hadoopa oraz VactorWise’a,  

O Autorze :

Edward Mężyk

SONY DSC

Codziennie spędza minimum 8h z ludźmi, którzy stworzyli jedną z pierwszych i największych Hurtowni Danych w Polsce (a może i w Europie). Od 2008 roku manager start-upów IT, w 2010 podjął się próby zarządzania hurtownią danych w nurcie Big Data, utrzymaniem i budową systemu ankietowego oraz wszystkich narzędzi do przeprowadzania badań opinii w internecie. Próbuje do dzisiaj. Prywatnie znany z pracoholizmu, porzucenia doktoratu z informatyki na rzecz pracy, AGILE (czyt. Edziajala) oraz żółtej czapki. Oczywiście wszystkiego się wypiera;)