18 основен софтуер, за който всеки учен трябва да знае

Науката за данни е за всеки, който обича да разплита заплетени неща и да открива скрити чудеса в явна бъркотия.


Това е като търсене на игли в сено; само, че на учените с данни изобщо не е необходимо да си изцапват ръцете. Използвайки фантазирани инструменти с цветни диаграми и гледайки купчини цифри, те просто се гмуркат в сено с данни и намират ценни игли под формата на прозрения с висока бизнес стойност.

Типичен учен с данни кутия с инструменти трябва да включва най-малко един елемент от всяка от тези категории: релационни бази данни, NoSQL бази данни, големи рамки за данни, инструменти за визуализация, инструменти за изстъргване, езици за програмиране, IDE и инструменти за задълбочено обучение.

Релационни бази данни

Релационна база данни е съвкупност от данни, структурирана в таблици с атрибути. Таблиците могат да бъдат свързани помежду си, като определят отношения и ограничения и създават това, което се нарича модел на данни. За да работите с релационни бази данни, обикновено използвате език, наречен SQL (Structured Query Language).

Приложенията, които управляват структурата и данните в релационни бази данни, се наричат ​​RDBMS (Relational DataBase Management Systems). Има много такива приложения, а най-уместните напоследък започнаха да насочват вниманието си към областта на науката за данни, добавяйки функционалност за работа с големи хранилища на данни и за прилагане на техники като анализиране на данни и машинно обучение.

SQL Server

Това една от тях е RDBMS на Microsoft, която се развива повече от 20 години, като постоянно разширява корпоративната си функционалност. От своята версия 2016 г. SQL Server предлага портфолио от услуги, които включват поддръжка за вграден R код. SQL Server 2017 повишава залога, като преименува своите R услуги на машинни езикови услуги и добавя поддръжка за езика Python (повече за тези два езика по-долу).

С тези важни допълнения SQL Server се стреми към учени с данни, които може да нямат опит с Transact SQL, родния език за заявки на Microsoft SQL Server.

SQL Server далеч не е безплатен продукт. Можете да закупите лицензи за инсталирането му на Windows Server (цената ще варира в зависимост от броя на едновременните потребители) или да го използвате като услуга на база такса, чрез облака на Microsoft Azure. Ученето на Microsoft SQL Server е лесно.

MySQL

От страна на софтуера с отворен код, MySQL има короната на популярността на RDBMS. Въпреки че Oracle в момента го притежава, той все още е безплатен и с отворени доставки при условията на GNU General Public License. Повечето уеб-базирани приложения използват MySQL като основно хранилище на данни, благодарение на съответствието му със стандарта SQL.

Също така помагат за нейната популярност лесните процедури за инсталиране, голямата му общност от разработчици, множество изчерпателна документация и инструменти на трети страни, като например phpMyAdmin, които опростяват ежедневните управленски дейности. Въпреки че MySQL няма собствени функции за анализ на данни, неговата откритост позволява интегрирането му с почти всеки инструмент за визуализация, отчитане и бизнес анализ, който можете да изберете.

PostgreSQL

Друга опция за RDBMS с отворен код е PostgreSQL. Въпреки че не е толкова популярен като MySQL, PostgreSQL се откроява със своята гъвкавост и разширяемост и поддръжката си на сложни заявки, тези, които надхвърлят основните изявления като SELECT, WHERE и GROUP BY.

Тези характеристики позволяват да придобие популярност сред учените с данни. Друга интересна характеристика е поддръжката за мулти-среди, която позволява използването му в облачни и локални среди или в комбинация от двете, обикновено известни като хибридни облачни среди.

PostgreSQL е в състояние да комбинира он-лайн аналитична обработка (OLAP) с онлайн обработка на транзакции (OLTP), работеща в режим, наречен хибридна транзакционна / аналитична обработка (HTAP). Освен това е подходящ за работа с големи данни, благодарение на добавянето на PostGIS за географски данни и JSON-B за документи. PostgreSQL също поддържа неструктурирани данни, което му позволява да бъде в двете категории: SQL и NoSQL бази данни.

NoSQL бази данни

Известен също като нерелационни бази данни, този тип хранилище на данни осигурява по-бърз достъп до нетаблични структури от данни. Някои примери за тези структури са графики, документи, широки колони, ключови стойности, наред с много други. NoSQL магазините за данни могат да оставят настрана съгласуваността на данните в полза на други предимства, като например наличност, разделяне и скорост на достъп.

Тъй като в магазините за данни на NoSQL няма SQL, единственият начин за запитване към този вид база данни е чрез използване на езици на ниско ниво и няма такъв език, който да е толкова широко приет, колкото SQL. Освен това няма стандартни спецификации за NoSQL. Ето защо по ирония на съдбата някои бази данни от NoSQL започват да добавят поддръжка за SQL скриптове.

MongoDB

MongoDB е популярна система от бази данни NoSQL, която съхранява данни под формата на документи JSON. Акцентът му е върху мащабируемостта и гъвкавостта за съхранение на данни по неструктуриран начин. Това означава, че няма фиксиран списък с полета, който трябва да се спазва във всички съхранени елементи. Освен това структурата на данните може да се променя с течение на времето, нещо, което в релационна база данни предполага висок риск да засегне работещите приложения.

Технологията в MongoDB позволява индексиране, ad-hoc заявки и агрегиране, които дават силна основа за анализ на данни. Разпределеният характер на базата данни осигурява висока наличност, мащабиране и географско разпространение, без да са необходими сложни инструменти.

Redis

Това една е друга опция в отворен код, NoSQL отпред. По същество това е склад за структура на данни, който работи в паметта и освен че предоставя услуги за база данни, той работи и като кеш памет и посредник на съобщения.

Той поддържа безброй нетрадиционни структури от данни, включително хеши, геопространствени индекси, списъци и сортирани набори. Той е много подходящ за наука за данни благодарение на високата си ефективност при задачи с интензивни данни, като изчислителни пресечни точки, сортиране на дълги списъци или генериране на сложни класирания. Причината за изключителното представяне на Redis е неговата работа в паметта. Тя може да бъде конфигурирана така, че да съхранява данните избирателно.

Големи рамки за данни

Да предположим, че трябва да анализирате данните, които Facebook потребителите генерират през месец. Говорим за снимки, видеоклипове, съобщения и всичко това. Имайки предвид, че повече от 500 терабайта данни се добавят всеки ден в социалната мрежа от нейните потребители, е трудно да се измери обемът, представен от цял ​​месец от неговите данни.

За да манипулирате този огромен обем данни по ефективен начин, имате нужда от подходяща рамка, способна да изчислява статистически данни за разпределена архитектура. Има две от рамките, които водят пазара: Hadoop и Spark.

Hadoop

Като голяма рамка от данни, Hadoop се занимава със сложностите, свързани с извличането, обработката и съхранението на огромни купчини данни. Hadoop работи в разпределена среда, съставена от компютърни клъстери, които обработват прости алгоритми. Има алгоритъм за оркестриране, наречен MapReduce, който разделя големите задачи на малки части и след това разпределя тези малки задачи между наличните клъстери.

Hadoop се препоръчва за хранилища на данни от корпоративен клас, които изискват бърз достъп и висока наличност, всичко това в схема с ниски разходи. Но ти трябва Linux администратор с дълбоко Hadoop знания да поддържа рамката и да работи.

искра

Hadoop не е единствената рамка за манипулиране на големи данни. Друго голямо име в тази област е искра. Двигателят Spark е проектиран да надмине Hadoop по отношение на аналитичната скорост и лекотата на използване. Очевидно тя постигна тази цел: някои сравнения казват, че Spark работи до 10 пъти по-бързо от Hadoop, когато работи на диск, и 100 пъти по-бързо оперира в паметта. Също така изисква по-малък брой машини за обработка на същото количество данни.

Освен бързината, още едно предимство на Spark е неговата поддръжка за обработка на потоци. Този тип обработка на данни, наричана още обработка в реално време, включва непрекъснато въвеждане и извеждане на данни.

Инструменти за визуализация

Честата шега между учените за данни гласи, че ако измъчвате данните достатъчно дълго, то ще изповяда това, което трябва да знаете. В този случай „изтезанието“ означава да се манипулира данните, като ги трансформира и филтрира, за да ги визуализира по-добре. И тук на сцената излизат инструменти за визуализация на данни. Тези инструменти вземат предварително обработени данни от множество източници и показват разкритите си истини в графични, разбираеми форми.

Има стотици инструменти, които попадат в тази категория. Харесва ви или не, най-широко използваният е Microsoft Excel и неговите инструменти за диаграми. Таблиците на Excel са достъпни за всеки, който използва Excel, но те имат ограничена функционалност. Същото се отнася и за други приложения за електронни таблици, като Google Sheets и Libre Office. Но тук говорим за по-специфични инструменти, специално пригодени за бизнес разузнаване (BI) и анализ на данни.

Power BI

Не много отдавна Microsoft го пусна Power BI приложение за визуализация. Той може да приема данни от различни източници, като текстови файлове, бази данни, електронни таблици и много онлайн услуги за данни, включително Facebook и Twitter, и да ги използва за генериране на табла за управление, пълни с диаграми, таблици, карти и много други обекти за визуализация. Обектите на таблото са интерактивни, което означава, че можете да щракнете върху серия от данни в диаграма, за да го изберете и да го използвате като филтър за другите обекти на дъската.

Power BI е комбинация от настолно приложение за Windows (част от пакета на Office 365), уеб приложение и онлайн услуга за публикуване на таблата за управление в мрежата и споделяне на тях с вашите потребители. Услугата ви позволява да създавате и управлявате разрешения, за да предоставите достъп до таблата само на определени хора.

жива картина

жива картина е друга възможност за създаване на интерактивни табла от комбинация от множество източници на данни. Той също така предлага настолна версия, уеб версия и онлайн услуга за споделяне на създадените от вас табла за управление. Работи естествено „с начина, по който мислите” (както твърди) и е лесен за използване за хора, които не са технически, което се подобрява чрез множество уроци и онлайн видеоклипове.

Някои от най-забележителните характеристики на Tableau са неговите неограничени конектори за данни, неговите данни на живо и в паметта и оптимизираните за мобилен дизайн дизайни.

QlikView

QlikView предлага изчистен и лесен потребителски интерфейс, за да помогне на анализаторите да открият нови данни от съществуващите данни чрез визуални елементи, които са лесно разбираеми за всички.

Този инструмент е известен с това, че е една от най-гъвкавите платформи за бизнес разузнаване. Той предлага функция, наречена асоциативно търсене, която ви помага да се съсредоточите върху най-важните данни, спестявайки ви време, което ще ви отнеме, за да ги намерите сами..

С QlikView можете да си сътрудничите с партньори в реално време, като правите сравнителен анализ. Всички подходящи данни могат да бъдат комбинирани в едно приложение с функции за защита, които ограничават достъпа до данните.

Инструменти за изстъргване

Във времената, когато интернет тъкмо се появяваше, уеб скалърите започнаха да пътуват заедно с мрежите, които събират информация по пътя си. С развитието на технологиите терминът обхождане на уеб се променя за изтриване на уеб, но все още означава същото: автоматично извличане на информация от уебсайтове. За да правите уебстраниране, използвате автоматизирани процеси или ботове, които прескачат от една уеб страница на друга, извличане на данни от тях и експортиране в различни формати или вмъкване в бази данни за допълнителен анализ.

По-долу обобщаваме характеристиките на три от най-популярните мрежови скрепери, налични днес.

Octoparse

Octoparse уеб скрепер предлага някои интересни характеристики, включително вградени инструменти за получаване на информация от уебсайтове, които не улесняват скрап ботовете да си вършат работата. Това е настолно приложение, което не изисква кодиране, с удобен за потребителя потребителски интерфейс, който позволява визуализиране на процеса на извличане чрез графичен дизайнер на работния процес.

Заедно със самостоятелното приложение, Octoparse предлага облачна услуга за ускоряване на процеса на извличане на данни. Потребителите могат да изпитат увеличение на скоростта от 4 до 10 пъти, когато използват облачната услуга вместо настолното приложение. Ако се придържате към версията за десктоп, можете да използвате Octoparse безплатно. Но ако предпочитате да използвате облачната услуга, ще трябва да изберете един от нейните платени планове.

Съдържание Grabber

Ако търсите богат на функции инструмент за остъргване, трябва да погледнете Съдържание Grabber. За разлика от Octoparse, за да използвате Content Grabber, е необходимо да имате усъвършенствани умения за програмиране. В замяна получавате редактиране на скриптове, отстраняване на грешки в интерфейси и други разширени функционалности. Със съдържание Grabber можете да използвате .Net езици за писане на регулярни изрази. По този начин не е нужно да генерирате изразите с помощта на вграден инструмент.

Инструментът предлага API (Application Programming Interface), който можете да използвате, за да добавите възможности за изстъргване към вашия работен плот и уеб приложения. За да използват този API, разработчиците трябва да получат достъп до услугата Content Grabber Windows.

ParseHub

Този скрепер може да обработва обширен списък от различни видове съдържание, включително форуми, вложени коментари, календари и карти. Той може да се справя и със страници, които съдържат удостоверяване, Javascript, Ajax и др. ParseHub може да се използва като уеб приложение или настолно приложение, което може да работи на Windows, macOS X и Linux.

Подобно на Content Grabber, се препоръчва да имате някои познания по програмиране, за да извлечете максимума от ParseHub. Той има безплатна версия, ограничена до 5 проекта и 200 страници на изпълнение.

Програмни езици

Както вече споменатият SQL език е създаден специално за работа с релационни бази данни, има и други езици, създадени с ясен фокус върху науката за данни. Тези езици позволяват на разработчиците да пишат програми, които се занимават с масивен анализ на данни, като например статистика и машинно обучение.

SQL също се счита за важно умение, на което разработчиците трябва да се занимават с наука за данни, но това е така, защото повечето организации все още имат много данни в релационни бази данни. „Истинските“ езици на науката за данни са R и Python.

Питон

Питон е език за програмиране на високо ниво, интерпретиран с общо предназначение, подходящ за бързо разработване на приложения. Той има прост и лесен за научаване синтаксис, който позволява стръмна крива на обучение и намаляване на разходите за поддръжка на програмата. Има много причини, поради които той е предпочитаният език за науката за данни. Да спомена няколко: сценарий потенциал, многословност, преносимост и производителност.

Този език е добра отправна точка за учените с данни, които планират да експериментират много, преди да скочат в истинската и твърда работа за разбиване на данни и които искат да разработят цялостни приложения.

R

Най- R език се използва главно за статистическа обработка на данни и графики. Въпреки че не е предназначен за разработване на пълноценни приложения, какъвто би бил случаят с Python, R стана много популярен през последните години поради потенциала си за извличане на данни и анализиране на данни.

Благодарение на непрекъснато нарастващата библиотека от свободно достъпни пакети, които разширяват функционалността си, R е в състояние да извършва всякакъв вид работа по разбиване на данни, включително линейно / нелинейно моделиране, класификация, статистически тестове и т.н..

Не е лесен за изучаване език, но след като се запознаете с неговата философия, ще правите статистически изчисления като професионалист.

ИДЕС

Ако сериозно обмисляте да се посветите на науката за данни, тогава ще трябва внимателно да изберете интегрирана среда за разработка (IDE), която да отговаря на вашите нужди, защото вие и вашата IDE ще прекарате много време в работа заедно.

Идеалният IDE трябва да събере всички инструменти, от които се нуждаете във всекидневната си работа като кодер: текстов редактор с подчертаване на синтаксис и автоматично завършване, мощен грешка, браузър на обекти и лесен достъп до външни инструменти. Освен това, той трябва да е съвместим с предпочитания от вас език, така че е добра идея да изберете IDE, след като знаете кой език ще използвате.

Spyder

Това generic IDE е предназначен най-вече за учени и анализатори, които също трябва да кодират. За да им е удобно, той не се ограничава до функционалността на IDE – освен това предоставя инструменти за проучване / визуализация на данни и интерактивно изпълнение, както може да се намери в научен пакет. Редакторът в Spyder поддържа няколко езика и добавя браузър за клас, разделяне на прозореца, прескачане до дефиниция, автоматично попълване на код и дори инструмент за анализ на код.

Отладникът ви помага да проследявате всеки ред код интерактивно, а профилер ви помага да намерите и премахнете неефективността.

PyCharm

Ако програмирате в Python, има вероятност IDE да бъде избран PyCharm. Той има интелигентен редактор на кодове с интелигентно търсене, попълване на код и откриване и отстраняване на грешки. Само с едно щракване можете да прескочите от редактора на кода до всеки прозорец, свързан с контекста, включително тест, супер метод, внедряване, деклариране и други. PyCharm поддържа Anaconda и много научни пакети, като NumPy и Matplotlib, за да назовем само два от тях.

Той предлага интеграция с най-важните системи за управление на версиите, а също и с тестов бегач, профилер и отстраняване на грешки. За да приключи сделката, тя също така се интегрира с Docker и Vagrant, за да осигури кросплатформена разработка и контейнеризация.

RStudio

За онези учени, които предпочитат екипа на R, IDE трябва да бъде избран RStudio, заради многото му функции. Можете да го инсталирате на десктоп с Windows, macOS или Linux, или можете да го стартирате от уеб браузър, ако не искате да го инсталирате локално. И двете версии предлагат екстри като подчертаване на синтаксиса, интелигентно отстъп и попълване на код. Има интегриран преглед на данни, който е удобен, когато трябва да разглеждате таблични данни.

Режимът за отстраняване на грешки позволява да се гледа как данните се обновяват динамично при изпълнение на програма или скрипт стъпка по стъпка. За контрол на версиите RStudio интегрира поддръжка за SVN и Git. Хубав плюс е възможността за авторство на интерактивна графика, с Shiny и дава библиотеки.

Вашият личен инструментариум

На този етап трябва да имате пълна представа за инструментите, които трябва да знаете, за да се отличите в науката за данни. Също така се надяваме, че ви предоставихме достатъчно информация, за да решите коя е най-удобната опция във всяка категория инструменти. Сега зависи от вас. Науката за данните е процъфтяваща област развийте кариера. Но ако искате да го направите, трябва да сте в крак с промените в тенденциите и технологиите, тъй като те се случват почти ежедневно.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map