Zasady Nauki O Danych


Część 1, Jak brzmieć jak analityk danych : zawiera wprowadzenie do podstawowej terminologii używanej przez naukowców zajmujących się danymi oraz przedstawia rodzaje problemów, które będziemy rozwiązywać.

Część 2, Typy danych : przygląda się różnym poziomom i typom danych oraz sposobom manipulowania każdym typem. Zaczniemy zajmować się matematyką potrzebną do nauki o danych.

Część 3, Pięć kroków nauki o danych : przedstawia pięć podstawowych kroków prowadzenia nauki o danych, w tym manipulację danymi i czyszczenie, oraz szczegółowo przedstawia przykłady każdego kroku.

Część 4, Matematyka podstawowa : pomaga nam odkryć podstawowe zasady matematyczne, które kierują działaniami naukowców zajmujących się danymi, poprzez oglądanie i rozwiązywanie przykładów w rachunku różniczkowym, algebrze liniowej i nie tylko.

Część 5 , Niemożliwe lub nieprawdopodobne : delikatne wprowadzenie do prawdopodobieństwa, to spojrzenie dla początkujących na teorię prawdopodobieństwa i sposób jej wykorzystania do zrozumienia naszego losowego wszechświata.

Część 6, Prawdopodobieństwo zaawansowane : wykorzystuje zasady z poprzedniego rozdziału oraz wprowadza i stosuje twierdzenia, takie jak twierdzenie Bayesa, w nadziei na odkrycie ukrytego znaczenia w naszym świecie.

Część 7, Statystyka podstawowa : zajmuje się typami problemów, które próbuje wyjaśnić wnioskowanie statystyczne, wykorzystując podstawy eksperymentowania, normalizacji i losowego doboru próby.

Część 8, Statystyki zaawansowane: wykorzystuje testowanie hipotez i przedział ufności w celu uzyskania wglądu w nasze eksperymenty. Bardzo ważna jest również umiejętność wybrania odpowiedniego testu oraz interpretacji wartości p i innych wyników.

Zaawansowane statystyki

Zajmiemy się wnioskowaniem o całych populacjach na podstawie pewnych próbek danych. Będziemy używać testów hipotez wraz z różnymi testami estymacji, aby lepiej zrozumieć populacje na danych próbkach danych. Kluczowe tematy, które omówimy, to:

•  Szacunki punktowe
•  Przedziały ufności
•  Centralne twierdzenie graniczne
•  Testowanie hipotez


Szacunki punktowe

Przypomnijmy, że w poprzedniej części wspomnieliśmy, jak trudno było uzyskać parametr populacji; więc musieliśmy użyć przykładowych danych, aby obliczyć statystykę, która była oszacowaniem parametru. Kiedy dokonujemy tych szacunków, nazywamy je szacunkami punktowymi. Oszacowanie punktowe to oszacowanie parametru populacji na podstawie danych z próby. Szacunków punktowych używamy do oszacowania średnich populacji, wariancji i innych statystyk. Aby uzyskać te szacunki, po prostu stosujemy funkcję, którą chcemy zmierzyć dla naszej populacji, do próbki danych. Załóżmy na przykład, że istnieje firma która ma 9000 pracowników i interesuje nas ustalenie średniej długości przerw pracowników w ciągu jednego dnia. Ponieważ prawdopodobnie nie możemy zapytać każdej osoby, weźmiemy próbkę z 9000 osób i weźmiemy średnią z próby. Ta średnia z próby będzie naszym oszacowaniem punktowym. Poniższy kod jest podzielony na trzy części:
•  Użyjemy rozkładu prawdopodobieństwa, zwanego rozkładem Poissona, aby losowo wygenerować 9000 odpowiedzi na pytanie: przez ile minut dziennie zwykle robisz sobie przerwy? Będzie to reprezentować naszą "populację". Pamiętaj, z Części 6, Prawdopodobieństwo zaawansowane, że zmienna losowa Poissona jest używana, gdy znamy średnią wartość zdarzenia i chcemy modelować rozkład wokół niej. Zauważ, że ta średnia wartość nie jest zwykle znana. Obliczam to, aby pokazać różnicę między naszym parametrem a naszą statystyką. Ustawiłem również losowy ziarno, aby zachęcić do powtarzalności (pozwala nam to za każdym razem uzyskać te same liczby losowe).
•  Weźmiemy próbkę 100 pracowników (za pomocą metody losowej próby Pythona) i znajdziemy punktową ocenę średniej (nazywaną średnią z próby).Zauważ, że jest to nieco ponad 1% naszej populacji.
•  Porównaj naszą średnią próby (średnią próby 100 pracowników) ze średnią naszej populacji.

Rzućmy okiem na następujący kod:

np.random.seed(1234)
long_breaks = stats.poisson.rvs(loc=10, mu=60, size=3000)
# represents 3000 people who take about a 60 minute break

Zmienna long_breaks reprezentuje 3000 odpowiedzi na pytanie: ile średnio minut robisz przerwy? i te odpowiedzi będą dłuższe. Zobaczmy wizualizację tego rozkładu, pokazaną w następujący sposób:

pd.Series(long_breaks).hist()



Widzimy, że nasza średnia 60 minut znajduje się na lewo od rozkładu. Ponadto, ponieważ zbadaliśmy tylko 3000 osób, nasze kosze są najwyższe, około 700-800 osób. Teraz weźmy model 6000 osób, które robią sobie średnio około 15 minut przerwy. Ponownie użyjmy rozkładu Poissona do symulacji 6000 osób, jak pokazano:

short_breaks = stats.poisson.rvs(loc=10, mu=15, size=6000)
# represents 6000 people who take about a 15 minute break pd.Series(short_breaks).hist()



Ok, mamy więc rozkład dla osób, które robią dłuższe przerwy i rozkład dla osób, które robią sobie krótsze przerwy. Ponownie zauważ, jak nasza średnia długość 15-minutowej przerwy spada na lewą stronę rozkładu i zauważ, że najwyższy pasek ma około 1600 osób.

breaks = np.concatenate((long_breaks, short_breaks))
# put the two arrays together to get our "population" of 9000 people

Zmienna breaks jest połączeniem wszystkich 9000 pracowników, zarówno biorących udział w długich, jak i krótkich przerwach. Zobaczmy całą dystrybucję osób na jednej wizualizacji:

pd.Series(breaks).hist()



Widzimy, że mamy dwa garby. Po lewej stronie mamy większy garb ludzi, którzy robią sobie około 15 minut przerwy, a po prawej mniejszy garb ludzi, którzy robią sobie dłuższe przerwy. Później przyjrzymy się dokładniej temu wykresowi. Całkowitą średnią długość przerwy możemy znaleźć, uruchamiając następujący kod:

breaks.mean()
# 39.99 minutes is our parameter.

Nasza średnia długość przerwy w firmie wynosi około 40 minut. Pamiętaj, że nasza populacja to zatrudniony w całej firmie 9000 osób, a nasz parametr to 40 minut. W prawdziwym świecie naszym celem byłoby oszacowanie parametru populacji, ponieważ z wielu powodów nie mielibyśmy zasobów, aby zapytać każdego pracownika w ankiecie o jego średnią długość przerwy. Zamiast tego użyjemy oszacowania punktowego. Tak więc, aby wyrazić naszą opinię, chcemy zasymulować świat, w którym pytamy 100 przypadkowych osób o długość ich przerw. Aby to zrobić, weźmy losową próbkę 100 pracowników spośród 9000 symulowanych pracowników, jak pokazano:

sample_breaks = np.random.choice(a = breaks, size=100)
# taking a sample of 100 employees

Teraz weźmy średnią z próby i odejmijmy ją od średniej populacji i zobaczmy, jak daleko byliśmy:

breaks.mean() - sample_breaks.mean()
# różnica między średnimi to 4,09 minuty, nieźle!

Jest to niezwykle interesujące, ponieważ mając tylko około 1% naszej populacji (100 z 9000), byliśmy w stanie uzyskać w ciągu 4 minut nasz parametr populacji i uzyskać bardzo dokładne oszacowanie naszej średniej populacji. Nie jest zły! Tutaj obliczyliśmy oszacowanie punktowe dla średniej, ale możemy to również zrobić dla parametrów proporcji. Proporcjonalnie mam na myśli stosunek dwóch wartości ilościowych. Załóżmy, że w firmie liczącej 10 000 osób nasi pracownicy są w 20% biali, 10% czarni, 10% Latynosi, 30% Azjaci, a 30% identyfikuje się jako inni. Weźmiemy próbkę 1000 pracowników i zobaczymy, czy ich proporcje rasowe są podobne.

employee_races = (["white"]*2000) + (["black"]*1000) +\
(["hispanic"]*1000) + (["asian"]*3000) +\
(["other"]*3000)

employee_races reprezentuje naszą populację pracowników. Na przykład w naszej firmie liczącej 10 000 osób 2000 osób to biali (20%), a 3000 to Azjaci (30%). Weźmy losową próbkę 1000 osób, jak pokazano:

demo_sample = random.sample(employee_races, 1000) # Sample 1000 values
for race in set(demo_sample):
print( race + " proportion estimate:" )
print( demo_sample.count(race)/1000. )

Otrzymany wynik byłby następujący:

hispanic proportion estimate:
0.103
white proportion estimate:
0.192
other proportion estimate:
0.288
black proportion estimate:
0.1
asian proportion estimate:
0.317

Widzimy, że szacunki proporcji rasy są bardzo zbliżone do proporcji populacji bazowej. Na przykład w naszej próbce uzyskaliśmy 10,3% dla Latynosów, a odsetek populacji dla Latynosów wynosił 10%.


Rozkłady próbkowania

W Części 7 wspomnieliśmy, jak bardzo lubimy, gdy dane mają rozkład normalny. Jednym z powodów jest to, że wiele testów statystycznych (w tym te, których użyjemy w tym rozdziale) opiera się na danych, które mają normalny wzorzec, a większość danych ze świata rzeczywistego nie jest normalnych (zaskoczenie? ). Weźmy na przykład dane o przerwach dla naszych pracowników, możesz pomyśleć, że po prostu chciałem tworzyć dane za pomocą rozkładu Poissona, ale miałem ku temu powód - szczególnie chciałem nienormalnych danych, jak pokazano:

pd.DataFrame(breaks).hist(bins=50,range=(5,100))



Jak widać, nasze dane zdecydowanie nie są zgodne z rozkładem normalnym, wydają się być bimodalne, co oznacza, że występują dwa szczyty czasów przerwy, około 25 i 70 minut. Ponieważ nasze dane nie są normalne, wiele najpopularniejszych testów statystycznych może nie mieć zastosowania, jednak jeśli będziemy postępować zgodnie z podaną procedurą, możemy utworzyć normalne dane! Myślisz, że jestem szalony? Cóż, przekonaj się sam. Po pierwsze, będziemy musieli wykorzystać tak zwany rozkład próbkowania, który jest rozkładem oszacowań punktowych kilku próbek o tej samej wielkości. Nasza procedura tworzenia rozkładu próbkowania będzie następująca:

1. Pobierz 500 różnych próbek czasów przerwy o rozmiarze 100 każda.
2. Zrób histogram tych 500 różnych oszacowań punktowych (ujawniając ich rozkład).

Liczba elementów w próbie (100) była dowolna, ale wystarczająco duża, aby stanowić reprezentatywną próbę populacji. Liczba pobranych przeze mnie próbek (500) była również dowolna, ale wystarczająco duża, aby zapewnić zbieżność naszych danych do rozkładu normalnego:

point_estimates = []
for x in range(500): # Generate 500 samples
sample = np.random.choice(a= breaks, size=100)
#take a sample of 100 points
point_estimates.append( sample.mean() )
# add the sample mean to our list of point estimates
pd.DataFrame(point_estimates).hist()
# look at the distribution of our sample means



Spójrz! Rozkład próbkowania średniej próbki wydaje się być normalny, mimo że pobraliśmy dane z bazowego rozkładu populacji bimodalnej. Należy zauważyć, że słupki na tym histogramie reprezentują średnią długość przerwy 500 próbek pracowników, z których każda zawiera 100 osób. Innymi słowy, rozkład próbkowania to rozkład kilku szacunków punktowych. Nasze dane zbliżyły się do rozkładu normalnego z powodu czegoś, co nazywa się centralnym twierdzeniem granicznym, które mówi, że rozkład próbkowania (rozkład oszacowań punktowych) zbliża się do rozkładu normalnego, gdy zwiększamy liczbę pobranych próbek.

Co więcej, w miarę jak pobieramy coraz więcej próbek, średnia rozkładu prób będzie zbliżać się do rzeczywistej średniej populacji, jak pokazano:

breaks.mean() - np.array(point_estimates).mean()
# .047 minutes difference

Jest to w rzeczywistości bardzo ekscytujący wynik, ponieważ oznacza, że możemy zbliżyć się nawet do oszacowania jednopunktowego, biorąc wiele oszacowań punktowych i wykorzystując centralne twierdzenie graniczne!

Ogólnie rzecz biorąc, w miarę zwiększania liczby pobieranych próbek, nasze oszacowanie zbliża się do parametru (wartości rzeczywistej).


Część 9, Przekazywanie danych : wyjaśnia, w jaki sposób korelacja i przyczynowość wpływają na naszą interpretację danych. Będziemy również wykorzystywać wizualizacje, aby dzielić się naszymi wynikami ze światem.

Część 10, Jak stwierdzić, czy Twój toster się uczy : podstawy uczenia maszynowego, skupia się na definicji uczenia maszynowego i przygląda się praktycznym przykładom, jak i kiedy stosuje się uczenie maszynowe. Wprowadzono podstawowe zrozumienie znaczenia ewaluacji modelu.

Część 11, Prognozy nie rosną na drzewach, prawda? : przygląda się bardziej skomplikowanym modelom uczenia maszynowego, takim jak drzewa decyzyjne i predykcje bayesowskie, w celu rozwiązywania bardziej złożonych zadań związanych z danymi.

Część 12, Poza podstawami : przedstawia niektóre z tajemniczych sił kierujących naukami o danych, w tym stronniczość i wariancję. Sieci neuronowe są wprowadzane jako nowoczesna technika uczenia głębokiego.

Część 13, Studia przypadków : wykorzystuje szereg studiów przypadków w celu utrwalenia idei nauki o danych. Będziemy wielokrotnie śledzić cały przepływ pracy w zakresie analizy danych od początku do końca, aby znaleźć różne przykłady, w tym prognozy cen akcji i wykrywanie pisma ręcznego.


Dlaczego Data Science?

Dzisiejsze organizacje borykają się z tym, jak nadać sens nadmiernej ilości rozbieżnych danych.

Zdolność do przekształcenia morza danych w praktyczne spostrzeżenia może mieć głęboki wpływ - od przewidywania najlepszego nowego leczenia cukrzycy po identyfikację i udaremnianie zagrożeń bezpieczeństwa narodowego. Dlatego firmy i agencje rządowe spieszą się, aby zatrudnić specjalistów ds. analizy danych, którzy mogą w tym pomóc.

Ekstrapolując i udostępniając te spostrzeżenia, naukowcy zajmujący się danymi pomagają organizacjom w rozwiązywaniu irytujących problemów. Połączenie informatyki, modelowania, statystyki, analityki i umiejętności matematycznych - wraz z rozsądkiem biznesowym - naukowcy zajmujący się danymi odkrywają odpowiedzi na główne pytania, które pomagają organizacjom podejmować obiektywne decyzje.

Rola i obowiązki analityka danych

Naukowcy zajmujący się danymi ściśle współpracują z interesariuszami biznesowymi, aby zrozumieć ich cele i określić, w jaki sposób dane można wykorzystać do osiągnięcia tych celów. Projektują procesy modelowania danych, tworzą algorytmy i modele predykcyjne w celu wyodrębnienia danych potrzebnych biznesowi, a także pomagają analizować dane i udostępniać spostrzeżenia współpracownikom. Chociaż każdy projekt jest inny, proces gromadzenia i analizowania danych zasadniczo przebiega zgodnie z poniższą ścieżką:

1. Zadaj właściwe pytania, aby rozpocząć proces odkrywania
2. Pozyskaj dane
3. Przetwórz i wyczyść dane
4. Integracja i przechowywanie danych
5. Wstępne badanie danych i eksploracyjna analiza danych
6. Wybór jednego lub więcej potencjalnych modeli i algorytmów
7. Zastosowanie techniki nauki o danych, takie jak uczenie maszynowe, modelowanie statystyczne i sztuczna inteligencja
8. Mierz i poprawiaj wyniki
9. Przedstaw końcowy wynik interesariuszom
10. Wprowadź poprawki na podstawie informacji zwrotnych
11. Powtórz ten proces, aby rozwiązać nowy problem

Popularne stanowiska pracy Data Scientist

Najbardziej powszechne kariery w nauce o danych obejmują następujące role:

Naukowcy zajmujący się danymi [Data Scientists]: projektują procesy modelowania danych w celu tworzenia algorytmów i modeli predykcyjnych oraz wykonywania niestandardowych analiz

Analitycy danych [Data Analysts] : manipulują dużymi zbiorami danych i wykorzystują je do identyfikowania trendów i wyciągania znaczących wniosków w celu podejmowania strategicznych decyzji biznesowych

Inżynierowie danych [Data Engineers]: czyść, agreguj i organizuj dane z różnych źródeł i przesyłaj je do hurtowni danych.

Specjaliści Business Intelligence [Business Intelligence Speialists]: identyfikuj trendy w zestawach danych

Architekci danych [Data Architects] : projektuj, twórz i zarządzaj architekturą danych organizacji

Chociaż role naukowców i analityków danych są często ze sobą powiązane, ich obowiązki są w rzeczywistości zupełnie inne. Mówiąc prościej, naukowcy zajmujący się danymi opracowują procesy modelowania danych, podczas gdy analitycy danych analizują zestawy danych, aby identyfikować trendy i wyciągać wnioski. Ze względu na to rozróżnienie i bardziej techniczny charakter nauki o danych, często uważa się, że rola naukowca zajmującego się danymi jest wyższa niż rola analityka danych; jednak oba stanowiska mogą być osiągalne z podobnym wykształceniem.

Niezbędne umiejętności do nauki o danych

Większość analityków danych wykorzystuje w swojej codziennej pracy następujące podstawowe umiejętności:

Analiza statystyczna: identyfikacja wzorców w danych. Obejmuje to posiadanie dobrego wyczucia wykrywania wzorców i wykrywania anomalii.

Uczenie maszynowe: wdrażaj algorytmy i modele statystyczne, aby umożliwić komputerowi automatyczne uczenie się na podstawie danych.

Informatyka: zastosuj zasady sztucznej inteligencji, systemów baz danych, interakcji człowiek / komputer, analizy numerycznej i inżynierii oprogramowania.

Programowanie: pisz programy komputerowe i analizuj duże zbiory danych, aby znaleźć odpowiedzi na złożone problemy. Naukowcy zajmujący się danymi muszą umieć pisać kod pracujący w różnych językach, takich jak Java, R, Python i SQL.

Narracja danych: przekazuj przydatne informacje za pomocą danych, często dla odbiorców nietechnicznych.

Naukowcy zajmujący się danymi odgrywają kluczową rolę w pomaganiu organizacjom w podejmowaniu rozsądnych decyzji. W związku z tym potrzebują "umiejętności miękkich" w następujących obszarach.

Intuicja biznesowa: łącz się z interesariuszami, aby w pełni zrozumieć problemy, które chcą rozwiązać. Myślenie analityczne. Znajdź analityczne rozwiązania abstrakcyjnych problemów biznesowych.

Krytyczne myślenie: zastosuj obiektywną analizę faktów przed wyciągnięciem wniosków.

Dociekliwość: wyjrzyj poza to, co jest na powierzchni, aby odkryć wzorce i rozwiązania w danych.

Umiejętności interpersonalne: komunikuj się z różnymi odbiorcami na wszystkich poziomach organizacji.

Analiza danych a nauka o danych: podział

Podczas gdy analitycy danych i naukowcy zajmujący się danymi pracują z danymi, główna różnica polega na tym, co z nimi robią. Analitycy danych analizują duże zbiory danych, aby identyfikować trendy, opracowywać wykresy i tworzyć prezentacje wizualne, aby pomóc firmom w podejmowaniu bardziej strategicznych decyzji. Z drugiej strony naukowcy zajmujący się danymi projektują i konstruują nowe procesy modelowania i produkcji danych przy użyciu prototypów, algorytmów, modeli predykcyjnych i niestandardowych analiz.

Usługi w analizie danych

Odpowiedzialność analityków danych może być różna w różnych branżach i firmach, ale zasadniczo analitycy danych wykorzystują dane do wyciągania znaczących spostrzeżeń i rozwiązywania problemów. Analizują dobrze zdefiniowane zbiory danych za pomocą arsenału różnych narzędzi, aby odpowiedzieć na konkretne potrzeby biznesowe: np. dlaczego sprzedaż spadła w danym kwartale, dlaczego kampania marketingowa wypadła lepiej w niektórych regionach, jak ubytek wewnętrzny wpływa na przychody itp.

Analitycy danych mają szereg dziedzin i tytułów, w tym (między innymi) analityk baz danych, analityk biznesowy, analityk badań rynku, analityk sprzedaży, analityk finansowy, analityk marketingowy, analityk reklamy, analityk sukcesu klienta, analityk operacyjny, analityk cen i analityk ds. strategii międzynarodowej. Najlepsi analitycy danych mają zarówno wiedzę techniczną, jak i zdolność do przekazywania wyników ilościowych współpracownikom lub klientom bez wykształcenia technicznego.

Typowe tło

Analitycy danych mogą mieć doświadczenie w matematyce i statystyce lub mogą uzupełniać wiedzę nieilościową, ucząc się narzędzi potrzebnych do podejmowania decyzji za pomocą liczb. Niektórzy analitycy danych decydują się na zdobycie wyższego stopnia, na przykład magistra analityki, aby rozwijać swoją karierę.

Umiejętności i narzędzia

Najważniejsze umiejętności analityka danych obejmują eksplorację danych / hurtownię danych, modelowanie danych, R lub SAS, SQL, analizę statystyczną, zarządzanie bazami danych i raportowanie oraz analizę danych.

Role i obowiązki

Analitycy danych są często odpowiedzialni za projektowanie i utrzymywanie systemów danych i baz danych, używanie narzędzi statystycznych do interpretowania zbiorów danych oraz przygotowywanie raportów, które skutecznie komunikują trendy, wzorce i prognozy na podstawie odpowiednich ustaleń.

Usługi w Data Science

Z drugiej strony naukowcy zajmujący się danymi szacują nieznane, zadając pytania, pisząc algorytmy i budując modele statystyczne. Główną różnicą między analitykiem danych a naukowcem zajmującym się danymi jest intensywne kodowanie. Naukowcy zajmujący się danymi mogą porządkować niezdefiniowane zestawy danych przy użyciu wielu narzędzi jednocześnie i budować własne systemy i struktury automatyzacji.

Typowe tło

Drew Conway, ekspert w dziedzinie nauk o danych i założyciel Alluvium, opisuje analityka danych jako osobę posiadającą wiedzę matematyczną i statystyczną, umiejętności hakerskie i merytoryczną wiedzę. W związku z tym wielu analityków danych posiada stopnie naukowe, takie jak magister nauk o danych.

Umiejętności i narzędzia

Należą do nich uczenie maszynowe, tworzenie oprogramowania, Hadoop, Java, eksploracja danych / hurtownia danych, analiza danych, Python i programowanie obiektowe

Role i obowiązki

Naukowcy zajmujący się danymi mają zwykle za zadanie projektowanie procesów modelowania danych, a także tworzenie algorytmów i modeli predykcyjnych w celu wyodrębnienia informacji potrzebnych organizacji do rozwiązywania złożonych problemów.

Wybór między analizą danych a karierą w naukach o danych

Kiedy już dobrze zrozumiesz różnice między analityką danych a nauką o danych - i będziesz w stanie określić, na czym polega każda kariera - możesz zacząć oceniać, która ścieżka jest dla Ciebie odpowiednia. Aby określić, która ścieżka najlepiej odpowiada Twoim osobistym i zawodowym celom, należy wziąć pod uwagę trzy kluczowe czynniki.

1. Weź pod uwagę swoje osobiste pochodzenie.

Chociaż analitycy danych i naukowcy zajmujący się danymi są pod wieloma względami podobni, ich różnice są zakorzenione w ich doświadczeniu zawodowym i edukacyjnym. Jak wspomniano powyżej, analitycy danych analizują duże zbiory danych, aby identyfikować trendy, opracowywać wykresy i tworzyć prezentacje wizualne, aby pomóc firmom podejmować bardziej strategiczne decyzje. Aby dostosować swoją edukację do tych zadań, analitycy zazwyczaj zdobywają tytuł licencjata na specjalności nauk ścisłych, technologii, inżynierii lub matematyki (STEM), a czasem nawet stopień zaawansowany w dziedzinie analityki lub pokrewnej dziedziny. Poszukują również doświadczenia w matematyce , nauka, programowanie, bazy danych, modelowanie i analityka predykcyjna.

Z drugiej strony naukowcy zajmujący się danymi są bardziej skoncentrowani na projektowaniu i konstruowaniu nowych procesów modelowania i produkcji danych. Ponieważ używają różnych technik, takich jak eksploracja danych i uczenie maszynowe, aby przeczesywać dane, zaawansowany stopień, taki jak magister nauk o danych, jest niezbędny do awansu zawodowego. "Naukowcy zajmujący się danymi są… o wiele bardziej techniczni i matematyczni [niż analitycy danych]". Wymaga to również "większego doświadczenia w informatyce".

Rozważając, która ścieżka kariery jest dla Ciebie odpowiednia, ważne jest, aby przejrzeć te wymagania edukacyjne. Jeśli już podjąłeś decyzję o zainwestowaniu w swoją karierę z wyższym stopniem naukowym, prawdopodobnie będziesz miał wykształcenie i doświadczenie, aby podążać dowolną ścieżką. Z drugiej strony, jeśli nadal jesteś w trakcie podejmowania decyzji, czy powrót do szkoły jest dla Ciebie odpowiedni, możesz być bardziej skłonny trzymać się roli analityka danych, ponieważ pracodawcy są bardziej skłonni do rozważania kandydatów bez tytułu magistra na te stanowiska.

Bez względu na to, którą ścieżkę wybierzesz, przemyślenie obecnego i pożądanego poziomu wykształcenia i doświadczenia powinno pomóc ci zawęzić opcje. Jeśli zdecydujesz się na studia magisterskie, aby rozpocząć karierę, pamiętaj, aby znaleźć program, który pomoże Ci osiągnąć Twoje cele.

2. Weź pod uwagę swoje zainteresowania.

Fascynują Cię liczby i statystyki, czy też Twoja pasja obejmuje informatykę i biznes?

Analitycy danych uwielbiają liczby, statystyki i programowanie. Jako strażnicy danych swojej organizacji pracują prawie wyłącznie w bazach danych, aby odkrywać punkty danych ze złożonych i często odmiennych źródeł. Analitycy danych powinni również mieć kompleksową wiedzę na temat branży, w której pracują. Jeśli to brzmi jak Ty, to rola analityka danych może być najlepszym profesjonalistą dopasowanym do Twoich zainteresowań.

Naukowcy zajmujący się danymi muszą łączyć matematykę, statystykę i informatykę, a także interesować się światem biznesu i mieć o nim wiedzę. Jeśli ten opis lepiej pasuje do Twojego wykształcenia i doświadczenia, być może rola naukowca danych jest dla Ciebie właściwym wyborem.

Tak czy inaczej, zrozumienie, która kariera pasuje do twoich osobistych zainteresowań, pomoże ci lepiej zrozumieć rodzaj pracy, którą będziesz się cieszyć i w której prawdopodobnie będziesz się wyróżniać. Poświęć trochę czasu i przemyśl tę część równania, ponieważ dostosowanie pracy do twoich zainteresowań może w dużym stopniu zapewnić ci satysfakcję z kariery na nadchodzące lata.

3. Rozważ pożądaną pensję i ścieżkę kariery.

Od naukowców i analityków danych wymagane są różne poziomy doświadczenia, co skutkuje różnymi poziomami wynagrodzenia za te role.

Według Przewodnika po wynagrodzeniach Robert Half Technology (RHT) na rok 2020 analitycy danych mieli potencjał zarobkowy na poziomie od 83 750 do 142 500 USD. Ponieważ jednak specjaliści ci pracują głównie w bazach danych, są w stanie zwiększyć swoje zarobki, ucząc się dodatkowych umiejętności programistycznych, takich jak R i Python.

Jednak według PayScale analitycy danych z ponad 10-letnim doświadczeniem często maksymalizują swój potencjał zarobkowy i przechodzą do innych zawodów.

Naukowcy zajmujący się danymi - którzy zazwyczaj mają tytuł magistra, mają zaawansowane umiejętności i często są bardziej doświadczeni - są uważani za starszych niż analitycy danych. W związku z tym często otrzymują lepsze wynagrodzenie za swoją pracę. Według RHT naukowcy zajmujący się danymi zarabiają średnio od 105 750 do 180 250 USD rocznie.

Trajektoria kariery dla profesjonalistów w dziedzinie nauki o danych jest również pozytywna, z wieloma możliwościami awansu na wyższe stanowiska, takie jak architekt danych lub inżynier danych.

Co jest odpowiednie dla Ciebie?

Analitycy danych i naukowcy zajmujący się danymi mają stanowiska, które są pozornie podobne, biorąc pod uwagę wiele różnic w obowiązkach, wymaganiach edukacyjnych i ścieżce kariery. Jednak bez względu na to, jak na to spojrzeć, osoby wykwalifikowane do kariery skoncentrowanej na danych są bardzo pożądane na dzisiejszym rynku pracy, dzięki silnej potrzebie firm, aby zrozumieć i wykorzystać swoje dane.

Po rozważeniu takich czynników, jak pochodzenie, zainteresowania osobiste i pożądane wynagrodzenie, możesz zdecydować, która kariera będzie dla Ciebie odpowiednia i rozpocząć drogę do sukcesu.


Wesprzyj Szkołę, kliknij w Reklamę…Dziękujemy…