Praca w IT

Data Scientist: jak nim zostać? Co warto wiedzieć o tej pracy?

Albert Lewandowski
Data Scientist: jak nim zostać? Co warto wiedzieć o tej pracy?
5

Liczba urządzeń produkujących dane stale rośnie. Według raportu DOMO, w 2020 roku, każdy z nas będzie przeciętnie „wytwarzał” 1,7 MB informacji na sekundę, a łączna liczba danych na świecie przekroczy 45 zetabajtów. Tak duże zbiory, aż proszą się o dokładną analizę i sprawdzenie jakie informacje się za nimi kryją. Dodając do tego rozwijające się możliwości sztucznej inteligencji i uczenia maszynowego, dochodzimy wprost do Data Science. Coraz więcej firm opiera swoje kluczowe procesy biznesowe na analityce danych. Czy warto zatem rozwijać się zawodowo w tym kierunku? Co powinniśmy wiedzieć o pracy Data Scientist?

Data Science – o co w ogóle chodzi?

Jeszcze kilka lat temu Data Science było mglistym terminem, często używanym jako buzzword. Jednak zagadnienia związane z analizą danych są coraz częściej wykorzystywane w biznesie, a zawód Data Scientist określany jest jako „zawód przyszłości”. 

Wśród przykładów zastosowania Data Science warto skupić się na tych najpopularniejszych. Liderem wykorzystania Data Science w biznesie jest Amazon, który dzięki analizie danych precyzyjnie określa preferencje zakupowe klientów czy proponuje najbardziej atrakcyjną cenę zakupu danego towaru. Kolejnym przykładem jest Uber, wykorzystujący analizę danych do obliczenia ceny przejazdu oraz dopasowania do danego kursu odpowiedniego kierowcy. Świetnym przykładem jest też Spotify. Trzeba przyznać, że ich system rekomendacji wypada naprawdę dobrze i widać, jak analizy danych pozwalają  doskonale dopasować proponowany content do gustu muzycznego użytkownika. Nie można zapomnieć też o Facebooku, który kieruje do odbiorców przekaz reklamowy odpowiednio dobrany do ich aktywności na portalu. Z wykorzystywaniem Data Science możemy spotkać się już praktycznie wszędzie, od sklepów spożywczych, operatorów komórkowych po firmy ubezpieczeniowe czy banki.

Data Scientist - czego oczekuje rynek?

W dobie rosnących zbiorów danych i szybkiego rozwoju usług do ich analizy, segment Data Science przeżywa prawdziwy rozkwit. Wszystko wskazuje na to, że ten trend będzie się utrzymywał. Jak podaje raport IDC, za cztery lata wydatki firm na analitykę danych wzrosną do ponad 203 mld dol. Równolegle będzie rosnąć zapotrzebowanie na Data Scientistów.

Specjaliści Data Science to osoby o bardzo szerokich kompetencjach, które łączą wiedzę biznesową, z matematyką, statystyką i programowaniem. Ich głównym zadaniem jest przełożenie zgromadzonych danych na realną wartość biznesową. Niezwykle ważna jest znajomość statystyki oraz biegłe poruszanie się po zagadnieniach matematycznych. Nie bez powodu w wielu ogłoszeniach firmy wspominają, że chętnie przyjmą osoby z doktoratem z matematyki, choć naturalnie studia nie są tu warunkiem koniecznym. Data Scientist musi również znać któryś z języków programowania. Prym wiodą Python i R, choć ostatnio w ogłoszeniach można natknąć się także na wzmianki o znajomości Scali, która może przydać się w przypadku korzystania z popularnego Spark z biblioteką MLlib. Nieocenione pozostaje też doświadczenie pracy z SQL i bazami noSQL, jak np. Cassandra czy MongoDB. Coraz częściej firmy oczekują od kandydatów znajomości algorytmów uczenia maszynowego, które przydają się przy tworzeniu predykcji czy też trenowaniu modeli. Do tego dochodzi również wiedza biznesowa, która pozwala ocenić wartość danych dla organizacji.

Wywiad z Data Scientistami

Zapytaliśmy członków zespołu 3Soft o szczegóły związane z pracą jako Data Scientist. 

Adam Staszczyk

Senior Data Scientist w 3Soft. Od 7 lat zawodowo związany z modelowaniem statystycznym oraz ilościową analizą danych. 

Absolwent Inżynierii finansowej na Uniwersytecie Ekonomicznym w Katowicach oraz Matematyki na Uniwersytecie Śląskim w Katowicach. Swoją wiedzę i kompetencje z zakresu analizy danych poszerza w ramach studiów doktoranckich w Katedrze Metod Statystyczno-Matematycznych na wydziale Ekonomii Uniwersytetu Ekonomicznego w Katowicach. 

Paweł Sroka

Senior Data Scientist w 3Soft. Od 3 lat zawodowo związany z analizą danych. Absolwent Uniwersytetu Ekonomicznego w Katowicach na kierunkach Informatyka i Ekonometria oraz Analiza Gospodarcza. 

Jak opisalibyście swoje codzienne obowiązki?

Adam Staszczyk, Senior Data Scientist w 3Soft: Praca Data Scientist w dużym uogólnieniu polega na rozwiązywaniu postawionych przed nim praktycznych oraz teoretycznych problemów, a co za tym idzie jest pracą twórczą i do pewnego stopnia koncepcyjną. Druga strona medalu to przełożenie koncepcji na konkretną implementację w wybranym przez siebie środowisku analitycznym. Codzienną pracę określiłbym jako mix tych dwóch aspektów – jest to nieprzerwany ciąg proponowania pewnych rozwiązań, ich wdrażania i testowania czy przynoszą oczekiwane i faktyczne rezultaty. Wszystko to nie może się również obejść bez odpowiedniego raportowania całego procesu.

Paweł Sroka, Senior Data Scientist w 3Soft: Bardzo często dane które otrzymujemy od naszych klientów, w pierwotnej ich wersji, nie nadają się do dalszej pracy. Należy takie dane w odpowiedni sposób przygotować, by były wartościowe dla projektu. Proces przygotowania danych zajmuje  większą część naszej pracy. Do tego dochodzi również research, spotkania z klientami, wykresy oraz modelowanie.

Jakie umiejętności techniczne są kluczowe, aby zostać Data Scientist?

AS: Data Science, jak chyba mało która dziedzina, ma charakter interdyscyplinarny. Jest to obszar znajdujący się pomiędzy informatyką (rozumianą jako najnowsze rozwiązania technologiczne), programowaniem, statystyką i ilościową analizą danych. Z tego też względu nie sposób wyobrazić sobie specjalistę z zakresu DS, który nie korzysta z R lub Python w codziennej pracy. Przydaje się też na pewno obeznanie z bazami i hurtowniami danych, umiejętność sprawnego ich przeszukiwania,  pozyskiwania danych do analizy a niekiedy nawet optymalizacji zapytań pod kątem uprodukcyjnienia efektów swojej pracy. To wszystko okraszone powinno być pewną znajomością czy zrozumieniem rozwiązań technologicznych z obszaru big data. Wreszcie znajomość przynajmniej podstawowych zagadnień z zakresu statystyki aby na tej podstawie budować swój warsztat pracy.

PS: Według mnie największe znaczenie ma mix kompetencji - znajomość metod statystycznych, matematyka, logiczne myślenie i oczywiście programowanie.

Jakie umiejętności miękkie są przydatne w  pracy Data Scientist?

AS: Jako najważniejszy wskazałbym w zasadzie jeden aspekt, który charakteryzuje dobrego Data Scientist – umiejętność komunikacji i jasnego formułowania myśli. Rozumiem tu zarówno komunikację ze współpracownikami, ponieważ rzadko kiedy powierzone nam zadania wykonywane są zupełnie solo, ale również komunikację z klientem czy ogólniej osobą która przyjmuje wyniki naszych prac. Wliczyć w to należy również umiejętność klarownej komunikacji poprzez tworzone przez siebie raporty i wizualizacje.

PS: Zgadzam się z Adamem, że komunikacja ma kluczowe znaczenie, ale dodałbym jeszcze odpowiedzialność, dociekliwość i empatię. 

Co spowodowało, że postanowiłeś zostać Data Scientist?

AS: To co spowodowało, że zacząłem iść w takim kierunku znajduje się gdzieś na przecięciu osobistych zainteresowań oraz zwyczajnego życiowego pragmatyzmu. Jestem osobą, która zawsze wykazywała zainteresowanie szeroko pojętymi metodami matematycznymi i statystycznymi, a do tego pisanie kodów daje mi dużo satysfakcji. Poprzez pragmatyzm natomiast rozumiem dwa aspekty. Po pierwsze problemy stawiane w codziennej pracy przed specjalistą z zakresu Data Science zawsze są problemami życiowymi, tj. odpowiadającymi na realne, biznesowe potrzeby klienta. To powoduje, że wyniki mojej pracy nie są jedynie „do szuflady” – mam faktyczne poczucie wpływania na procesy decyzyjne. Drugim aspektem pragmatycznego podejścia jest zwyczajnie fakt, że Data Science jest obszarem, który bardzo dynamicznie się rozwija co daje możliwości ciekawej, perspektywicznej i ambitnej pracy.

Jak oceniasz perspektywy rozwoju?

AS: Patrząc z perspektywy osobistej Data Science pozwala na wszechstronne poszerzanie horyzontów oraz zdobywanie wiedzy z wielu ciekawych obszarów. Sam rozwój osobisty w zakresie Data Science, rozumiany jako poszerzanie swojej wiedzy z zakresu wykorzystywanych metod i technologii, jest niejako immanentą cechą tej dziedziny i ciężko wyobrazić sobie specjalistę z tego zakresu którego warsztat pracy zatrzymał się dekadę temu. Wreszcie granice rozwoju Data Science, jako interdyscplinarnej dziedziny nauki, wraz z rozwojem technologii (zarówno software’u jak i hardware’u) wydają się być nieograniczone.

PS: Branża IT jest stosunkowo elastyczna. Można wybrać wiele ścieżek rozwoju w zakresie analizy danych, od stanowiska Analityka Danych poprzez Data Scientist („naukowca” od danych ?) , kończąc  na specjalizacji związanej z sieciami neuronowymi. Pozostaje jeszcze  wiele obszarów i technologii do odkrycia.

Z jakimi technologiami głównie pracujesz?

AS: W przeważającej części swoją codzienną pracę wykonuję z wykorzystaniem środowiska R w połączeniu z platformą H2O (zarówno poprzez R API jak i interfejs webowy). Pracując z R naturalnie korzystam z wielu ogólnie dostępnych i sprawdzonych pakietów do przetwarzania i modelowania. Mógłbym jeszcze w tym miejscu wskazać na Apache Hive’a od strony pozyskiwania oraz przetwarzania danych, ponieważ akurat takie rozwiązanie jest stosowane przez firmę.

PS: Do tego zestawu dodałbym jeszcze Python, Xgboost, Hadoop, Spark, relacyjne i nierelacyjne bazy danych.

Co polecasz do nauki i treningu osobom, które chcą zostać Data Scientist?

AS: Wydaje mi się, że do tematu najlepiej podejść dwutorowo. Osobiście, osobom które są zupełnie nowe w temacie, na start poleciłbym z jednej strony lekturę dobrej książki i poznanie tematu od strony teoretycznej – nie chodzi o 100% opanowanie tematu, a bardziej o zapoznanie się ogólnie z metodami i świadomość istnienia pewnych rozwiązań – z drugiej zaś postawienie przed sobą praktycznego problemu do rozwiązania w oparciu o ogólnodostępne zbiory danych, bo nie ma lepszego sposobu na naukę niż konieczność zmierzenia się z konkretnym problemem. Dodatkowo życzę dużo uporu w dążeniu do celu. Zagadnienia z obszaru Data Science potrafią być bardzo niewdzięczne. Na 10 potencjalnie fajnych pomysłów 9 najprawdopodobniej się nie sprawdzi i taki stan rzeczy potrafi prowadzić do rosnącej frustracji.

O firmie 3Soft

Naszą misją jest pomaganie przedsiębiorstwom we wprowadzaniu podejścia Data-Driven Business. Od ponad 15 lat wspieramy największe przedsiębiorstwa w uzyskaniu i utrzymaniu przewagi konkurencyjnej poprzez wykorzystanie dedykowanych systemów informatycznych. Oferujemy rozwiązania z zakresu Artificial Intelligence, Data Management oraz Business Automation. 

Projektujemy i uruchamiamy platformy informatyczne pozwalające gromadzić, przetwarzać i analizować duże zbiory danych. Specjalizujemy się w dostarczaniu rozwiązań dla klientów z branży finansowej i retail. Dzięki wiedzy, doświadczeniu i pasji ponad 85-osobowego zespołu realizujemy zaawansowane technologicznie i biznesowo projekty, wydobywając z dużych zbiorów danych wartość biznesową.

Nasz sukces opieramy na wsłuchiwaniu się w potrzeby klientów, podążaniu za mega trendami, ciągłym rozwoju i wykorzystaniu nowych technologii. Pozwala nam to utrzymać pozycję Lidera w branży.

Data Scientist – zawód przyszłości

Dla wielu osób Data Science może być świetnym kierunkiem rozwoju. Pozwala na pracę w dynamicznie rozwijającym się segmencie, umożliwia łączenie wiedzy biznesowej ze statystyką i programowaniem. Co prawda, wymaga szerokiej wiedzy, jednak w zamian zapewnia naprawdę ciekawe zadania i atrakcyjne zarobki.

Co sądzicie o pracy jako Data Scientist?

Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu