Šta je nauka o podacima
Prevedeno s engleskog, Data Science je nauka o podacima, koji zauzvrat predstavljaju velike količine nestrukturiranih informacija.
Jednostavno rečeno, Data Scientist je stručnjak koji obrađuje analitičke podatke, gradi i testira matematičke modele, traži obrasce i veze i pravi prognoze.
Evo nekoliko primjera onoga što se može učiniti korištenjem Data Science i algoritama mašinskog učenja :
- Predvidite potražnju za taksi uslugama i cijenu putovanja u određenom vremenskom periodu, izgradite optimalnu rutu.
- Na osnovu korisničkih preferencija kreirajte izbor preporučenih filmova, knjiga, muzike u online servisima ili listu mogućih prijatelja na društvenim mrežama.
- Otkrijte sumnjivo ponašanje korisnika Interneta i identificirajte lažnu šemu.
- Analizirati marketinšku strategiju, kvalitet reklamnih kampanja.
- Procijenite vjerovatnoću nastanka osiguranog slučaja, donesite odluku o izdavanju kredita i izračunajte individualnu stopu.
- Kreirajte program za prepoznavanje lica, glasovni asistent ili bot.
- Napravite vremensku prognozu.
- Proučite aktivnost radnika tokom radnog dana.
Kako se nauka o podacima razlikuje od analitike
I Data Scientist i Data Analyst analiziraju informacije, ali rješavaju različite probleme i koriste različite metode. Napravili smo uporedni grafikon da pokažemo razliku.
Profesija | Data Scientist | Data Analyst |
Zadatak | Pronađite veze i obrasce u podacima, izgradite matematičke modele i predvidite rezultat. | Poboljšajte pokazatelje poslovanja (prodaja, profit, itd.), smanjite troškove ili rizike, pronađite tačke rasta. |
Alati | Programski jezici, njihove biblioteke i okviri, mašinsko učenje, teorija verovatnoće, matematika, statistika. | Python/R/Java/SQL, analitičke usluge, proračunske tablice, programi za vizualizaciju podataka. |
Materijal za obradu | Nestrukturirane informacije: tabele, tekst, slike, audio, video, itd. | Strukturirane informacije u obliku tabele, rjeđe u tekstualnom formatu. |
Radni proces | Traži podatke za analizu, programira i obučava ML model i implementira ga u proizvodni proces. | Proučavajte potrebe potrošača, formulirajte i testirajte hipoteze, donosite zaključke u obliku izvještaja i grafikona. |
Primjer rada | Izrada preporuka u online prodavnici na osnovu prethodnih narudžbi kupaca. | Analiza ponašanja korisnika i strukture prodaje, izrada mjera za povećanje prosječnog račun |
Šta radi Data Scientist?
Glavni zadatak predstavnika struke je da “sirove” podatke transformiše u korisne i pouzdane informacije. Konkretne odgovornosti Data Scientist-a zavise od polja u kojem radi.
Hajde da vam kažemo šta generalno radi specijalista za nauku o podacima:
- Saznaje zahteve i potrebe kupca, bira algoritme za postavljeni cilj i pravi tehničke specifikacije.
- Traži kanale i metode za prikupljanje informacija, uvozi različite podatke u različitim formatima. Izvori mogu biti bilo šta: web analitika , indikatori mjernih instrumenata, tabele, audio i video sadržaji.
- Provjerava kompletnost, integritet, valjanost, greške, propuste materijala kako bi se eliminirali faktori koji iskrivljuju rezultat ili ometaju analizu.
- Određuje znakove za procjenu značaja i odabir potrebnih podataka iz ukupnog volumena, traži obrasce i veze.
- Razvija i programira model mašinskog učenja, bira metriku za provjeru njegovog kvaliteta, ekonomskog učinka i sigurnosti.
- Proučite primljene podatke, potvrdite ili opovrgnite hipoteze (u drugom slučaju rad sa ovim skupom podataka prestaje).
- Implementira gotov i testiran ML model u proizvodni proces ili digitalni proizvod.
- Dizajnira analitičke i sisteme preporuka.
- Stvara neuronske mreže za prepoznavanje slika i obradu prirodnog jezika.
Šta treba da zna i ume da uradi?
Datum Naučnik mora poznavati različite grane matematike – linearnu algebru, račun, teoriju vjerovatnoće, statistiku – i također biti u stanju da izgradi matematičke i ML modele.
Hajde da ukratko navedemo koja su još znanja i vještine potrebna stručnjaku za nauku o podacima:
- SQL za dobivanje informacija iz baza podataka i naknadno filtriranje.
- Programski jezik Python , njegove biblioteke i okviri: Pandas, Numpy, Scipy za obradu i analizu podataka, Matplotlib, Seaborn za vizualizaciju, itd.
- Programi za mašinsko i duboko učenje: SciKit-Learn, TensorFlow, Theano, Keras.
- Alati za rad sa velikim podacima (Big Data) : Hadoop, MapReduce, Apache Hive, Kafka, Spark.
- Tehnologije za razvoj kompjuterskog vida.
- NLTK softverski paket za statističku obradu prirodnog jezika.
- Engleski jezik na nivou razumevanja tehničke dokumentacije .
O juniorima, srednjim i seniorskim
Postoje 3 nivoa kompetencije u profesiji Data Scientist:
- Junior je specijalista početnik koji zna raditi sa CSV datotekama, obraditi, čistiti, strukturirati i vizualizirati podatke, zna kako zamijeniti nedostajuće vrijednosti, koristi Python biblioteke za vizualizaciju i izgradnju modela linearne regresije.
- Middle je iskusni Data Scientist koji vlada naprednim tehnikama: predviđanje diskretnih varijabli, evaluacija modela i optimizacija hiperparametara, kombiniranje različitih modela u cjelini metoda. Poznaje biblioteku SciKit-Learn na profesionalnom nivou i koristi je za izgradnju ML modela.
- Senior je profesionalac koji radi sa različitim skupovima podataka: tekstom, slikama, audio i video materijalima. Poznaje tehnologije velikih podataka, zna kako izgraditi i trenirati neuronske mreže i analizirati ogromne količine sirovih informacija
Mjesto rada
Stručnjaci za nauku podataka traženi su u mnogim oblastima: biznis , proizvodnja, marketing , mediji, IT, politika, nauka, medicina itd.
Glavna područja u kojima Data Scientists najčešće rade:
- Maloprodaja, veleprodaja i online prodaja. U ovim industrijama, Data Scientist rješava mnoge probleme: predviđanje potražnje za robom uzimajući u obzir sezonski karakter, razvijanje personaliziranih marketinških ili reklamnih ponuda, itd.
- Banke, finansijske organizacije – za sisteme bodovanja, analizu rizika, obračun kamatnih stopa na kredite, procenu solventnosti zajmoprimaca.
- Transportno-logistički centri – za izgradnju optimalnih ruta, određivanje rokova isporuke, planiranje utovara skladišta.
- Informaciona tehnologija – za razvoj softvera, web i mobilnih aplikacija, na primjer, botova, pretraživača, velikih marketa , društvenih mreža, online servisa sa sadržajem za različite namjene.
- Proizvodni sektor, poljoprivreda – za predviđanje obima proizvodnje i potrošnje, mogućih kvarova opreme, nedostataka proizvoda.
- Industrije visoke tehnologije , na primjer, stvaranje umjetne inteligencije .
Potražnja i izgledi
Algoritmi mašinskog učenja daju sve preciznije prognoze, a obim njihove primene se povećava svake godine. Stoga potražnja za stručnjacima iz nauke o podacima brzo raste – u posljednje tri godine broj slobodnih radnih mjesta porastao je za više od 400%.
Prema riječima predstavnika IT industrije, profesija Data Scientist će ostati najtraženija u svijetu do 2025. godine.
Prednosti i mane profesije
Data Scientist je profesija koja ima svoje karakteristike, prednosti i mane.
U tabeli smo sakupili glavne prednosti i nedostatke sa kojima se stručnjak za nauku podataka susreće u svom radu.
Minusi
pros
Nećete moći sami da savladate profesiju, jer su vam potrebna znanja iz različitih delatnosti
Specijalizirano obrazovanje možete dobiti ne samo na univerzitetu, već iu online školama
Zahtijeva određeni način razmišljanja, poznavanje matematike ili želju za dubljim proučavanjem iste
Visoka primanja – čak i početnici imaju natprosječne plate
Morate raditi više zadataka s velikom količinom podataka
Svoju karijeru možete razvijati u Rusiji i inostranstvu, raditi u kompaniji ili na daljinu/slobodno
Rezultat je teško predvideti, nemoguće je unapred znati da li će konstruisani model biti efikasan
Prestižan, perspektivan i tražen pravac
Potrebno je stalno usavršavati vještine, savladavati nove alate i tehnologije
Mogućnost rada u različitim oblastima: biznis, proizvodnja, IT, medicina, nauka itd.