18 Software esențial Fiecare om de știință ar trebui să știe despre

Știința datelor este pentru oricine iubește să dezlege lucruri încurcate și să descopere minuni ascunse într-o mizerie aparentă.


Este ca și cum ai căuta ace în stâne de fân; Doar că oamenii de știință ai datelor nu au nevoie să-și murdărească deloc mâinile. Folosind instrumente fanteziste cu diagrame colorate și uitându-vă la mormane de numere, ele doar se aruncă în paiele de date și găsesc ace de valoare sub formă de perspective de înaltă valoare de afaceri..

Un tipic om de știință de date caseta de instrumente trebuie să includă cel puțin un element din fiecare din aceste categorii: baze de date relaționale, baze de date NoSQL, cadre de date mari, instrumente de vizualizare, instrumente de razuire, limbaje de programare, ID-uri și instrumente de învățare profundă.

Baze de date relaționale

O bază de date relațională este o colecție de date structurate în tabele cu atribute. Tabelele pot fi legate între ele, definind relațiile și restricțiile și creând ceea ce se numește model de date. Pentru a lucra cu baze de date relaționale, utilizați în mod obișnuit un limbaj numit SQL (Structured Query Language).

Aplicațiile care gestionează structura și datele din bazele de date relaționale se numesc RDBMS (Sisteme relaționale de gestionare a bazelor de date). Există o mulțime de astfel de aplicații, iar cele mai relevante au început recent să-și pună accentul pe domeniul științei datelor, adăugând funcționalități pentru a lucra cu mari depozite de date și pentru a aplica tehnici precum analiza datelor și învățarea mașină.

SQL Server

Acest unul este RDBMS Microsoft, care evoluează de mai bine de 20 de ani prin extinderea constantă a funcționalității companiei. Începând cu versiunea sa din 2016, SQL Server oferă un portofoliu de servicii care includ suport pentru codul R încorporat. SQL Server 2017 susține pariul prin redenumirea serviciilor sale R în serviciile de limbaj automat și adăugând suport pentru limba Python (mai multe în aceste două limbi mai jos).

Cu aceste completări importante, SQL Server vizează oamenii de știință de date care poate nu au experiență cu Transact SQL, limbajul de interogare nativ al Microsoft SQL Server.

SQL Server este departe de a fi un produs gratuit. Puteți cumpăra licențe pentru a-l instala pe un server Windows (prețul va varia în funcție de numărul de utilizatori concurenti) sau îl puteți utiliza ca serviciu bazat pe taxe, prin intermediul cloud-ului Microsoft Azure. Învățarea Microsoft SQL Server este ușoară.

MySQL

Pe partea de software open-source, MySQL are coroana de popularitate a sistemelor RDBMS. Deși Oracle îl deține în prezent, acesta este în continuare gratuit și open-source în condițiile unei licențe publice generale GNU. Majoritatea aplicațiilor bazate pe web folosesc MySQL ca depozit de date de bază, datorită respectării standardului SQL.

De asemenea, contribuie la popularitatea sa, sunt procedurile sale de instalare ușoare, marea sa comunitate de dezvoltatori, o serie de documentații complete și instrumente terțe, cum ar fi phpMyAdmin, care simplifică activitățile de management de zi cu zi. Deși MySQL nu are funcții native pentru a face analiza datelor, deschiderea sa permite integrarea sa cu aproape orice instrument de vizualizare, raportare și informații de afaceri pe care le puteți alege.

PostgreSQL

O altă opțiune RDBMS open-source este PostgreSQL. Deși nu este la fel de popular ca MySQL, PostgreSQL se remarcă pentru flexibilitatea și extensibilitatea sa, precum și pentru suportul pentru interogări complexe, cele care depășesc afirmațiile de bază, cum ar fi SELECT, WHERE și GROUP BY.

Aceste caracteristici îi permit să câștige popularitate în rândul oamenilor de știință de date. O altă caracteristică interesantă este suportul pentru mai multe medii, care îi permite să fie utilizat în medii cloud și on-premise sau într-un mix al ambelor, cunoscute în mod obișnuit ca medii cloud hibride..

PostgreSQL este capabil să combine procesarea analitică on-line (OLAP) cu procesarea tranzacțiilor online (OLTP), funcționând într-un mod numit prelucrare hibridă tranzacțională / analitică (HTAP). Este, de asemenea, potrivit pentru a lucra cu date mari, datorită adăugării PostGIS pentru date geografice și JSON-B pentru documente. PostgreSQL acceptă, de asemenea, date nestructurate, ceea ce le permite să fie în ambele categorii: baze de date SQL și NoSQL.

Baze de date NoSQL

Cunoscut și sub denumirea de baze de date non-relaționale, acest tip de depozit de date oferă acces rapid la structurile de date care nu sunt tabulare. Unele exemple ale acestor structuri sunt grafice, documente, coloane largi, valori cheie, printre multe altele. Magazinele de date NoSQL pot pune deoparte consistența datelor în favoarea altor beneficii, cum ar fi disponibilitatea, compartimentarea și viteza de acces.

Întrucât nu există niciun SQL în magazinele de date NoSQL, singura modalitate de a interoga acest tip de bază de date este folosind limbaje de nivel scăzut și nu există un astfel de limbaj care să fie la fel de acceptat ca SQL. În plus, nu există specificații standard pentru NoSQL. De aceea, în mod ironic, unele baze de date NoSQL încep să adauge suport pentru scripturile SQL.

MongoDB

MongoDB este un popular sistem de baze de date NoSQL, care stochează date sub formă de documente JSON. Accentul său este pus pe scalabilitate și flexibilitatea de a stoca date într-un mod nestructurat. Aceasta înseamnă că nu există o listă de câmpuri fixă ​​care trebuie respectată în toate elementele stocate. Mai mult, structura datelor poate fi modificată în timp, ceea ce într-o bază de date relațională implică un risc ridicat de a afecta rularea aplicațiilor.

Tehnologia din MongoDB permite indexare, interogări ad-hoc și agregare care oferă o bază puternică pentru analiza datelor. Natura distribuită a bazei de date oferă o mare disponibilitate, scalare și distribuție geografică fără a fi nevoie de instrumente sofisticate.

Redis

Acest una este o altă opțiune în fața open source, NoSQL. Practic este un magazin de structuri de date care funcționează în memorie și, pe lângă furnizarea serviciilor de baze de date, funcționează și ca memorie cache și broker de mesaje..

Suporta o multitudine de structuri de date neconvenționale, inclusiv hashes, indici geospatiali, liste și seturi sortate. Este potrivit pentru știința datelor, datorită performanțelor sale ridicate în sarcini care utilizează intensiv datele, cum ar fi calcularea intersecțiilor de seturi, sortarea listelor lungi sau generarea de clasamente complexe. Motivul pentru performanțele excepționale ale Redis este funcționarea sa în memorie. Poate fi configurat pentru a persista datele selectiv.

Cadre Big Data

Să presupunem că trebuie să analizați datele pe care le generează utilizatorii Facebook pe parcursul unei luni. Vorbim despre fotografii, videoclipuri, mesaje, toate acestea. Ținând cont de faptul că peste 500 de terabyți de date sunt adăugați în rețeaua de socializare de către utilizatorii săi, este greu de măsurat volumul reprezentat de o lună întreagă a datelor sale.

Pentru a manipula acea cantitate imensă de date într-un mod eficient, aveți nevoie de un cadru adecvat, capabil să calculeze statistici pe o arhitectură distribuită. Există două dintre cadrele care conduc piața: Hadoop și Spark.

Hadoop

Ca un cadru de date mare, Hadoop se ocupă de complexitățile asociate cu regăsirea, procesarea și stocarea grămeților uriașe de date. Hadoop operează într-un mediu distribuit, compus din grupuri de calculatoare care procesează algoritmi simpli. Există un algoritm de orchestrare, numit MapReduce, care împarte sarcinile mari în părți mici, apoi distribuie acele mici sarcini între clusterele disponibile.

Hadoop este recomandat pentru depozitele de date din clasa întreprinderii care necesită acces rapid și disponibilitate ridicată, toate acestea într-o schemă cu costuri reduse. Dar ai nevoie de un admin Linux cu deeper Cunoașterea Hadoop să mențină cadrul și să funcționeze.

Scânteie

Hadoop nu este singurul cadru disponibil pentru manipularea datelor mari. Un alt nume mare în acest domeniu este Scânteie. Motorul Spark a fost proiectat pentru a depăși Hadoop din punct de vedere al vitezei analitice și al ușurinței în utilizare. Aparent, acesta a atins acest obiectiv: unele comparații spun că Spark rulează de până la 10 ori mai rapid decât Hadoop atunci când lucrează pe un disc și de 100 de ori mai rapid funcționând în memorie. De asemenea, necesită un număr mai mic de mașini pentru a prelucra aceeași cantitate de date.

Pe lângă viteză, un alt beneficiu al Spark este suportul său pentru procesarea fluxului. Acest tip de prelucrare a datelor, denumit și procesare în timp real, implică introducerea și ieșirea continuă a datelor.

Instrumente de vizualizare

O glumă comună între oamenii de știință a datelor spune că, dacă torturați datele suficient de mult, va mărturisi ceea ce trebuie să știți. În acest caz, „tortură” înseamnă manipularea datelor prin transformarea și filtrarea acestora, pentru a o vizualiza mai bine. Și de aici vin instrumentele de vizualizare a datelor. Aceste instrumente preiau date preprocesate din mai multe surse și își arată adevărurile dezvăluite în forme grafice și inteligibile.

Există sute de instrumente care intră în această categorie. Îți place sau nu, cel mai utilizat este Microsoft Excel și instrumentele sale de diagramă. Graficele Excel sunt accesibile tuturor celor care utilizează Excel, dar au o funcționalitate limitată. Același lucru este valabil și pentru alte aplicații cu foi de calcul, cum ar fi Google Sheets și Libre Office. Dar vorbim aici despre instrumente mai specifice, special adaptate pentru business intelligence (BI) și analiza datelor.

Power BI

Nu cu mult timp în urmă, Microsoft a lansat Power BI aplicație de vizualizare. Poate prelua date din surse diverse, cum ar fi fișiere text, baze de date, foi de calcul și multe servicii de date online, inclusiv Facebook și Twitter, și să le folosească pentru a genera tablouri de bord pline cu diagrame, tabele, hărți și multe alte obiecte de vizualizare. Obiectele de bord sunt interactive, ceea ce înseamnă că puteți face clic pe o serie de date dintr-un grafic pentru a o selecta și a o folosi ca filtru pentru celelalte obiecte de pe placă..

Power BI este o combinație între o aplicație desktop pentru Windows (parte a suitei Office 365), o aplicație web și un serviciu online pentru a publica tablourile de bord pe web și a le împărtăși cu utilizatorii dvs. Serviciul vă permite să creați și să gestionați permisiunile pentru a acorda acces la placi doar anumitor persoane.

Tablou

Tablou este o altă opțiune pentru a crea tablouri de bord interactive dintr-o combinație de surse de date multiple. De asemenea, oferă o versiune desktop, o versiune web și un serviciu online pentru a partaja tablourile de bord pe care le creați. Funcționează în mod natural „cu modul în care gândești” (așa cum susține), și este ușor de utilizat pentru persoanele care nu sunt tehnice, ceea ce este îmbunătățit prin multe tutoriale și videoclipuri online.

Unele dintre caracteristicile cele mai marcante ale lui Tableau sunt conectoarele sale de date nelimitate, datele sale în direct și în memorie și designurile sale optimizate pentru mobil.

QlikView

QlikView oferă o interfață de utilizator curată și simplă pentru a ajuta analiștii să descopere informații noi din datele existente prin elemente vizuale ușor de înțeles pentru toată lumea.

Acest instrument este cunoscut pentru a fi una dintre cele mai flexibile platforme de business intelligence. Oferă o caracteristică numită Căutare asociativă, care vă ajută să vă concentrați asupra celor mai importante date, economisindu-vă timpul necesar pentru a le găsi singur.

Cu QlikView, puteți colabora cu partenerii în timp real, efectuând analize comparative. Toate datele pertinente pot fi combinate într-o singură aplicație, cu caracteristici de securitate care restricționează accesul la date.

Instrumente de razuire

În vremurile în care internetul tocmai apărea, crawler-urile web au început să călătorească împreună cu rețelele care adună informații în calea lor. Pe măsură ce tehnologia a evoluat, termenul de crawling web s-a schimbat pentru razuirea web, dar totuși înseamnă același lucru: extragerea automată a informațiilor din site-uri web. Pentru a face răzuire web, utilizați procese automatizate sau roboți care sărind de la o pagină web la alta, extragând date din ele și exportând-le în diferite formate sau introducând-o în baze de date pentru analize suplimentare.

Mai jos vom rezuma caracteristicile a trei dintre cele mai populare răzuitoare web disponibile astăzi.

Octoparse

Octoparse Scraper-ul web oferă câteva caracteristici interesante, inclusiv instrumente încorporate pentru a obține informații de pe site-urile web care nu ușurează activitățile de răzuire pentru a-și face robotul. Este o aplicație desktop care nu necesită codare, cu o UI ușor de utilizat, care permite vizualizarea procesului de extracție printr-un proiectant de flux grafic.

Împreună cu aplicația autonomă, Octoparse oferă un serviciu bazat pe cloud pentru a accelera procesul de extragere a datelor. Utilizatorii pot experimenta un câștig de viteză de la 4x la 10x atunci când utilizează serviciul cloud în loc de aplicația desktop. Dacă rămâneți la versiunea desktop, puteți utiliza Octoparse gratuit. Dar dacă preferați să utilizați serviciul cloud, va trebui să alegeți unul dintre planurile sale plătite.

Grabber de conținut

Dacă sunteți în căutarea unui instrument de răzuire bogat în caracteristici, ar trebui să vă uitați Grabber de conținut. Spre deosebire de Octoparse, pentru a utiliza Content Grabber, este necesar să aveți abilități avansate de programare. În schimb, obțineți editarea scripturilor, interfața de depanare și alte funcționalități avansate. Cu Content Grabber, puteți utiliza limbi .Net pentru a scrie expresii regulate. În acest fel, nu trebuie să generezi expresiile folosind un instrument încorporat.

Instrumentul oferă o API (interfață de programare a aplicațiilor) pe care o puteți utiliza pentru a adăuga capabilități de razuire pe desktop și aplicațiile web. Pentru a utiliza această API, dezvoltatorii trebuie să obțină acces la serviciul Windows Grabber Content.

ParseHub

Acest răzuitor poate gestiona o listă extinsă de diferite tipuri de conținut, inclusiv forumuri, comentarii cuibărite, calendare și hărți. De asemenea, se pot ocupa de paginile care conțin autentificare, Javascript, Ajax și multe altele. ParseHub poate fi utilizat ca o aplicație web sau o aplicație desktop capabilă să ruleze pe Windows, macOS X și Linux.

La fel ca Content Grabber, este recomandat să aveți câteva cunoștințe de programare pentru a profita la maximum de ParseHub. Are o versiune gratuită, limitată la 5 proiecte și 200 de pagini pe rundă.

Limbaje de programare

La fel cum limbajul SQL menționat anterior este conceput special pentru a funcționa cu baze de date relaționale, există și alte limbi create cu un accent clar pe știința datelor. Aceste limbi permit dezvoltatorilor să scrie programe care se ocupă de analiza masivă a datelor, cum ar fi statisticile și învățarea automată.

SQL este de asemenea considerat o abilitate importantă pe care dezvoltatorii ar trebui să o facă în domeniul științei datelor, dar asta pentru că majoritatea organizațiilor mai au o mulțime de date în baze de date relaționale. Limbile de știință a datelor „adevărate” sunt R și Python.

Piton

Piton este un limbaj de programare la nivel înalt, interpretat, cu scop general, potrivit pentru dezvoltarea rapidă a aplicațiilor. Are o sintaxă simplă și ușor de învățat, care permite o curbă de învățare abruptă și reducerea costurilor de întreținere a programului. Există multe motive pentru care este limba preferată pentru știința datelor. Pentru a menționa câteva: potențial de script, verbositate, portabilitate și performanță.

Acest limbaj este un bun punct de plecare pentru oamenii de știință de date care intenționează să experimenteze mult înainte de a sări în lucrările reale și grele de cracare a datelor și care doresc să dezvolte aplicații complete.

R

Limba R este utilizat în principal pentru prelucrarea și graficarea statistică a datelor. Deși nu este menit să dezvolte aplicații pe deplin, așa cum ar fi cazul Python, R a devenit foarte populară în ultimii ani datorită potențialului său de extragere a datelor și analiza datelor.

Datorită unei biblioteci în continuă creștere de pachete disponibile în mod liber, care își extind funcționalitatea, R este capabil să efectueze tot felul de lucrări de cracare a datelor, inclusiv modelare liniară / neliniară, clasificare, teste statistice etc..

Nu este un limbaj ușor de învățat, dar, odată ce veți face cunoștință cu filozofia sa, veți face calcul statistic ca un profesionist.

IDEs

Dacă vă gândiți serios să vă dedicați științei datelor, atunci va trebui să alegeți cu atenție un mediu integrat de dezvoltare (IDE) care să se potrivească nevoilor dvs., deoarece dumneavoastră și IDE-ul dvs. veți petrece mult timp lucrând împreună.

Un IDE ideal ar trebui să reunească toate instrumentele de care aveți nevoie în fiecare zi de muncă ca un coder: un editor de text cu evidențierea sintaxelor și completarea automată, un debugger puternic, un browser de obiecte și acces facil la instrumente externe. În plus, trebuie să fie compatibil cu limba preferată, de aceea este bine să alegeți IDE-ul dvs. după ce știți ce limbă veți utiliza.

Spyder

Acest IDE generică este destinată mai ales oamenilor de știință și analiștilor care trebuie, de asemenea, să codifice. Pentru a le face confortabile, nu se limitează la funcționalitatea IDE – oferă, de asemenea, instrumente pentru explorarea / vizualizarea datelor și execuția interactivă, așa cum se poate găsi pe un pachet științific. Editorul din Spyder acceptă mai multe limbi și adaugă un browser de clasă, împărțirea ferestrei, saltul la definiție, completarea codului auto și chiar un instrument de analiză a codului.

Debuggerul vă ajută să urmăriți fiecare linie de cod în mod interactiv, iar un profilator vă ajută să găsiți și să eliminați ineficiențele.

PyCharm

Dacă programați în Python, șansele sunt ca IDE-ul dvs. să fie ales PyCharm. Are un editor de cod inteligent, cu căutare inteligentă, completare de cod și detectare și remediere a erorilor. Cu un singur clic, puteți sări de la editorul de cod la orice fereastră legată de context, inclusiv test, super metodă, implementare, declarație și multe altele. PyCharm sprijină Anaconda și multe pachete științifice, precum NumPy și Matplotlib, pentru a numi doar două dintre ele.

Oferă integrare cu cele mai importante sisteme de control al versiunilor, precum și cu un tester, un profilator și un depanator. Pentru a închide afacerea, se integrează, de asemenea, cu Docker și Vagrant pentru a asigura dezvoltarea multiplă platformă și containerizarea.

RStudio

Pentru acei oameni de știință care preferă echipa R, ar trebui să fie IDE-ul ales RStudio, din cauza multitudinii sale caracteristici. Îl puteți instala pe desktop cu Windows, macOS sau Linux sau îl puteți rula de pe un browser web dacă nu doriți să îl instalați local. Ambele versiuni oferă bunătăți, precum evidențierea sintaxei, indentarea inteligentă și completarea codului. Există un vizualizator de date integrat care este util atunci când trebuie să răsfoiți date tabulare.

Modul de depanare permite vizualizarea modului în care datele sunt actualizate dinamic la executarea pas cu pas a unui program sau a unui script. Pentru controlul versiunilor, RStudio integrează suport pentru SVN și Git. Un plus frumos este posibilitatea de a crea grafică interactivă, cu Shiny și oferă bibliotecilor.

Cutia dvs. cu instrumente personale

În acest moment, ar trebui să aveți o vedere completă a instrumentelor pe care ar trebui să le cunoașteți pentru a excela în știința datelor. De asemenea, sperăm că v-am oferit suficiente informații pentru a decide care este cea mai convenabilă opțiune din fiecare categorie de instrumente. Acum depinde de tine. Știința datelor este un domeniu înfloritor au fost dezvolta o carieră. Dar dacă doriți să faceți acest lucru, trebuie să țineți pasul cu schimbările din tendințe și tehnologii, deoarece acestea apar aproape zilnic.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map