18 Essential Software, о которых должен знать каждый ученый

Наука о данных предназначена для тех, кто любит разгадывать запутанные вещи и открывать скрытые чудеса в явном беспорядке..


Это похоже на поиск иголок в стогах сена; только этим ученым данных вообще не нужно пачкать руки. Используя причудливые инструменты с разноцветными диаграммами и просматривая кучу цифр, они просто погружаются в стог сена данных и находят ценные иглы в виде идей высокой деловой ценности.

Типичный ученый данных набор инструментов должен включать по крайней мере один элемент каждой из этих категорий: реляционные базы данных, базы данных NoSQL, платформы больших данных, инструменты визуализации, инструменты очистки, языки программирования, IDE и инструменты глубокого обучения.

Реляционные базы данных

Реляционная база данных представляет собой набор данных, структурированных в виде таблиц с атрибутами. Таблицы могут быть связаны друг с другом, определяя отношения и ограничения и создавая то, что называется моделью данных. Для работы с реляционными базами данных вы обычно используете язык SQL (Structured Query Language).

Приложения, которые управляют структурой и данными в реляционных базах данных, называются RDBMS (системы управления реляционными базами данных). Существует множество таких приложений, и наиболее актуальные из них недавно начали уделять основное внимание науке о данных, добавляя функциональные возможности для работы с хранилищами больших данных и применяя такие методы, как анализ данных и машинное обучение..

SQL Server

Эта Одним из них является СУБД Microsoft, которая развивается уже более 20 лет, последовательно расширяя ее корпоративные функциональные возможности. Начиная с версии 2016 года, SQL Server предлагает набор услуг, включающих поддержку встроенного кода R. SQL Server 2017 повышает ставку, переименовывая свои службы R в службы машинного языка и добавляя поддержку языка Python (подробнее об этих двух языках ниже).

Благодаря этим важным дополнениям SQL Server нацелен на специалистов по обработке данных, которые могут не иметь опыта работы с Transact SQL, родным языком запросов Microsoft SQL Server..

SQL Server далеко не бесплатный продукт. Вы можете купить лицензии для установки на Windows Server (цена будет варьироваться в зависимости от количества одновременно работающих пользователей) или использовать его в качестве платной услуги через облако Microsoft Azure.. Изучение Microsoft SQL Server – это просто.

MySQL

На стороне программного обеспечения с открытым исходным кодом, MySQL имеет корону популярности СУРБД. Хотя Oracle в настоящее время владеет им, она все еще является бесплатной и имеет открытый исходный код в соответствии с условиями Стандартной общественной лицензии GNU. Большинство веб-приложений используют MySQL в качестве основного хранилища данных благодаря его соответствию стандарту SQL.

Его популярности также способствуют простые процедуры установки, большое сообщество разработчиков, тонны исчерпывающей документации и сторонние инструменты, такие как phpMyAdmin, которые упрощают повседневную деятельность по управлению. Хотя MySQL не имеет встроенных функций для анализа данных, его открытость позволяет интегрировать его практически с любым инструментом визуализации, отчетности и бизнес-аналитики, который вы можете выбрать..

PostgreSQL

Другой вариант СУБД с открытым исходным кодом PostgreSQL. Хотя PostgreSQL не так популярен, как MySQL, он отличается гибкостью и расширяемостью, а также поддержкой сложных запросов, которые выходят за рамки базовых операторов, таких как SELECT, WHERE и GROUP BY..

Эти функции позволяют ему набирать популярность среди ученых данных. Еще одна интересная особенность – поддержка мульти-сред, которая позволяет использовать ее в облачных и локальных средах или в сочетании обоих, обычно известных как гибридные облачные среды..

PostgreSQL способен сочетать оперативную аналитическую обработку (OLAP) с оперативной обработкой транзакций (OLTP), работая в режиме, называемом гибридной транзакционной / аналитической обработкой (HTAP). Он также хорошо подходит для работы с большими данными благодаря добавлению PostGIS для географических данных и JSON-B для документов. PostgreSQL также поддерживает неструктурированные данные, что позволяет им быть в обеих категориях: базы данных SQL и NoSQL.

Базы данных NoSQL

Этот тип хранилища данных, также известный как нереляционные базы данных, обеспечивает более быстрый доступ к структурам не табличных данных. Некоторыми примерами этих структур являются графики, документы, широкие столбцы, ключевые значения и многие другие. Хранилища данных NoSQL могут откладывать согласованность данных в пользу других преимуществ, таких как доступность, разбиение на разделы и скорость доступа.

Поскольку в хранилищах данных NoSQL нет SQL, единственный способ сделать запрос к базе данных такого типа – использовать низкоуровневые языки, и нет такого языка, который был бы так широко принят, как SQL. Кроме того, нет никаких стандартных спецификаций для NoSQL. Вот почему, по иронии судьбы, некоторые базы данных NoSQL начинают добавлять поддержку сценариев SQL.

MongoDB

MongoDB является популярной системой баз данных NoSQL, которая хранит данные в форме документов JSON. Основное внимание уделяется масштабируемости и гибкости для хранения данных неструктурированным способом. Это означает, что не существует фиксированного списка полей, который должен соблюдаться во всех сохраненных элементах. Кроме того, структура данных может изменяться со временем, что в реляционной базе данных подразумевает высокий риск воздействия на работающие приложения..

Технология MongoDB позволяет выполнять индексацию, специальные запросы и агрегирование, что обеспечивает прочную основу для анализа данных. Распределенная природа базы данных обеспечивает высокую доступность, масштабирование и географическое распределение без необходимости в сложных инструментах.

Redis

Эта один – это еще один вариант с открытым исходным кодом, NoSQL front. Это в основном хранилище структуры данных, которое работает в памяти и, помимо предоставления услуг базы данных, оно также работает как кэш-память и посредник сообщений..

Он поддерживает множество нетрадиционных структур данных, включая хэши, геопространственные индексы, списки и отсортированные наборы. Он хорошо подходит для науки о данных благодаря высокой производительности в задачах, требующих больших объемов данных, таких как пересечения вычислительных множеств, сортировка длинных списков или создание сложных рейтингов. Причиной выдающейся производительности Redis является его работа в памяти. Он может быть настроен на выборочное сохранение данных.

Платформы больших данных

Предположим, вам нужно проанализировать данные, которые пользователи Facebook генерируют в течение месяца. Мы говорим о фотографиях, видео, сообщениях, обо всем этом. Принимая во внимание, что более 500 терабайт данных добавляются каждый день в социальную сеть ее пользователями, трудно измерить объем, представленный целым месяцем его данных.

Чтобы эффективно манипулировать этим огромным количеством данных, вам нужна соответствующая структура, способная вычислять статистику по распределенной архитектуре. Есть две структуры, которые ведут рынок: Hadoop и Spark..

Hadoop

В качестве большой базы данных, Hadoop имеет дело со сложностями, связанными с поиском, обработкой и хранением огромных куч данных. Hadoop работает в распределенной среде, состоящей из компьютерных кластеров, которые обрабатывают простые алгоритмы. Существует согласованный алгоритм MapReduce, который разделяет большие задачи на маленькие части, а затем распределяет эти маленькие задачи между доступными кластерами..

Hadoop рекомендуется для хранилищ данных корпоративного класса, которые требуют быстрого доступа и высокой доступности, и все это в рамках недорогой схемы. Но вам нужен администратор Linux с глубоким Знание Hadoop поддерживать структуру и запустить.

искра

Hadoop – не единственная платформа, доступная для манипулирования большими данными. Другое большое имя в этой области искра. Двигатель Spark был разработан, чтобы превзойти Hadoop с точки зрения скорости аналитики и простоты использования. По-видимому, он достиг этой цели: некоторые сравнения говорят, что Spark работает в 10 раз быстрее, чем Hadoop при работе на диске, и в 100 раз быстрее в оперативной памяти. Также требуется меньшее количество машин для обработки того же объема данных..

Помимо скорости, еще одним преимуществом Spark является поддержка потоковой обработки. Этот тип обработки данных, также называемый обработкой в ​​реальном времени, включает непрерывный ввод и вывод данных.

Инструменты визуализации

Распространенная шутка между учеными в области данных говорит, что если вы пытаете данные достаточно долго, они признаются в том, что вам нужно знать. В этом случае «пытка» означает манипулирование данными путем их преобразования и фильтрации, чтобы лучше их визуализировать. И именно здесь инструменты визуализации данных приходят на сцену. Эти инструменты берут предварительно обработанные данные из нескольких источников и показывают их открытые истины в графической, понятной форме..

Существуют сотни инструментов, которые попадают в эту категорию. Нравится вам это или нет, но наиболее широко используемым является Microsoft Excel и его инструменты построения диаграмм. Диаграммы Excel доступны для всех, кто использует Excel, но они имеют ограниченную функциональность. То же самое относится и к другим приложениям для работы с электронными таблицами, таким как Google Sheets и Libre Office. Но мы говорим здесь о более специфических инструментах, специально разработанных для бизнес-аналитики (BI) и анализа данных..

Power BI

Не так давно Microsoft выпустила свой Power BI приложение для визуализации. Он может получать данные из различных источников, таких как текстовые файлы, базы данных, электронные таблицы и многие онлайн-службы данных, включая Facebook и Twitter, и использовать их для создания панелей мониторинга, заполненных диаграммами, таблицами, картами и многими другими объектами визуализации. Объекты панели мониторинга являются интерактивными. Это означает, что вы можете щелкнуть ряд данных на диаграмме, чтобы выбрать его и использовать в качестве фильтра для других объектов на доске..

Power BI представляет собой комбинацию настольного приложения Windows (часть пакета Office 365), веб-приложения и онлайн-службы для публикации сводных панелей в Интернете и предоставления доступа к ним своим пользователям. Сервис позволяет создавать и управлять разрешениями для предоставления доступа к доскам только определенным людям..

живописная картина

живописная картина это еще один вариант для создания интерактивных информационных панелей из комбинации нескольких источников данных. Он также предлагает настольную версию, веб-версию и онлайн-сервис для обмена созданными вами инструментальными панелями. Он работает естественным образом «так, как вы думаете» (как он заявляет), и его легко использовать для нетехнических людей, что улучшено с помощью множества учебных пособий и онлайн-видео.

Некоторые из наиболее выдающихся функций Tableau – это неограниченные разъемы для передачи данных, данные в реальном времени и в памяти, а также оптимизированные для мобильных устройств конструкции..

QlikView

QlikView предлагает простой и понятный пользовательский интерфейс, помогающий аналитикам находить новые идеи из существующих данных с помощью визуальных элементов, которые легко доступны для всех.

Этот инструмент известен как одна из самых гибких платформ бизнес-аналитики. Он предоставляет функцию под названием «Ассоциативный поиск», которая помогает вам сосредоточиться на самых важных данных, экономя время, которое потребуется, чтобы найти их самостоятельно..

С QlikView вы можете сотрудничать с партнерами в режиме реального времени, выполняя сравнительный анализ. Все соответствующие данные могут быть объединены в одно приложение с функциями безопасности, которые ограничивают доступ к данным.

Инструменты для чистки

В то время, когда Интернет только начинал развиваться, сканеры веб-сайтов начали путешествовать вместе с сетями, собирающими информацию по-своему. По мере развития технологии термин веб-сканирование изменился для веб-поиска, но все еще означает то же самое: для автоматического извлечения информации с веб-сайтов. Чтобы выполнить очистку веб-страниц, вы используете автоматизированные процессы или ботов, которые переходят с одной веб-страницы на другую, извлекают из них данные и экспортируют их в различные форматы или вставляют в базы данных для дальнейшего анализа..

Ниже мы суммируем характеристики трех самых популярных веб-скребков, доступных сегодня..

Octoparse

Octoparse Веб-скребок обладает некоторыми интересными характеристиками, включая встроенные инструменты для получения информации с веб-сайтов, которые не облегчают работу ботов. Это настольное приложение, не требующее кодирования, с удобным пользовательским интерфейсом, которое позволяет визуализировать процесс извлечения с помощью графического дизайнера рабочих процессов..

Вместе с автономным приложением Octoparse предлагает облачный сервис для ускорения процесса извлечения данных. Пользователи могут получить увеличение скорости в 4–10 раз при использовании облачной службы вместо настольного приложения. Если вы придерживаетесь настольной версии, вы можете использовать Octoparse бесплатно. Но если вы предпочитаете использовать облачный сервис, вам придется выбрать один из его платных планов.

Контент Grabber

Если вы ищете многофункциональный инструмент для чистки, вы должны обратить внимание на Контент Grabber. В отличие от Octoparse, для использования Content Grabber необходимо обладать продвинутыми навыками программирования. В обмен вы получаете редактирование сценариев, интерфейсы отладки и другие расширенные функциональные возможности. С Content Grabber вы можете использовать языки .Net для написания регулярных выражений. Таким образом, вам не нужно генерировать выражения, используя встроенный инструмент.

Этот инструмент предлагает API (интерфейс прикладного программирования), который вы можете использовать для добавления возможностей скрепления в ваш рабочий стол и веб-приложения. Чтобы использовать этот API, разработчикам необходимо получить доступ к службе Content Grabber для Windows..

ParseHub

Этот скребок может обрабатывать обширный список различных типов контента, включая форумы, вложенные комментарии, календари и карты. Он также может работать со страницами, которые содержат аутентификацию, Javascript, Ajax и многое другое. ParseHub можно использовать в качестве веб-приложения или настольного приложения, способного работать в Windows, MacOS X и Linux.

Как и Content Grabber, рекомендуется иметь некоторые знания в области программирования, чтобы максимально использовать возможности ParseHub. Он имеет бесплатную версию, ограниченную 5 проектов, и 200 страниц за запуск.

Языки программирования

Так же, как ранее упомянутый язык SQL был специально разработан для работы с реляционными базами данных, существуют и другие языки, созданные с акцентом на науку о данных. Эти языки позволяют разработчикам писать программы, которые занимаются массовым анализом данных, таким как статистика и машинное обучение..

SQL также считается важным навыком, которым разработчики должны обладать, чтобы заниматься наукой о данных, но это потому, что большинство организаций все еще имеют много данных в реляционных базах данных. «Истинными» языками науки о данных являются R и Python.

питон

питон это интерпретируемый, универсальный язык программирования высокого уровня, хорошо подходящий для быстрой разработки приложений. Он имеет простой и легкий в освоении синтаксис, позволяющий получить крутую кривую обучения и сократить расходы на обслуживание программы. Есть много причин, почему это предпочтительный язык для науки о данных. Чтобы упомянуть несколько: потенциал сценариев, многословие, переносимость и производительность.

Этот язык является хорошей отправной точкой для ученых-данных, которые планируют много экспериментировать перед тем, как приступить к реальной и сложной работе по обработке данных, и которые хотят разрабатывать законченные приложения.

р

R язык в основном используется для статистической обработки данных и построения графиков. Хотя он не предназначен для разработки полноценных приложений, как в случае с Python, R стал очень популярным в последние годы благодаря своему потенциалу для интеллектуального анализа данных и анализа данных..

Благодаря постоянно растущей библиотеке свободно доступных пакетов, расширяющих ее функциональные возможности, R способен выполнять все виды обработки данных, включая линейное / нелинейное моделирование, классификацию, статистические тесты и т. Д..

Это не простой язык для изучения, но как только вы познакомитесь с его философией, вы будете делать статистические вычисления как профессионал..

Иды

Если вы серьезно задумываетесь о том, чтобы посвятить себя науке о данных, то вам нужно будет тщательно выбрать интегрированную среду разработки (IDE), которая соответствует вашим потребностям, потому что вы и ваша IDE проведете много времени, работая вместе.

В идеальной среде IDE должны быть собраны все инструменты, которые необходимы вам в повседневной работе в качестве программиста: текстовый редактор с подсветкой синтаксиса и автозаполнением, мощный отладчик, обозреватель объектов и простой доступ к внешним инструментам. Кроме того, он должен быть совместим с языком по вашему выбору, поэтому рекомендуется выбрать свою среду IDE, зная, какой язык вы будете использовать..

Spyder

Эта универсальная среда разработки в основном предназначена для ученых и аналитиков, которым также необходимо писать код. Чтобы сделать их удобными, он не ограничивается функциональностью IDE – он также предоставляет инструменты для исследования / визуализации данных и интерактивного выполнения, которые можно найти в научном пакете. Редактор в Spyder поддерживает несколько языков и добавляет браузер классов, разбиение окон, переход к определению, автоматическое завершение кода и даже инструмент анализа кода..

Отладчик помогает в интерактивном режиме отслеживать каждую строку кода, а профилировщик помогает находить и устранять недостатки..

PyCharm

Если вы программируете на Python, скорее всего, ваш выбор IDE будет PyCharm. Он имеет интеллектуальный редактор кода с интеллектуальным поиском, дополнением кода, обнаружением и исправлением ошибок. Одним щелчком мыши вы можете перейти из редактора кода в любое контекстно-зависимое окно, включая тест, супер метод, реализацию, объявление и многое другое. PyCharm поддерживает Anaconda и многие научные пакеты, такие как NumPy и Matplotlib, чтобы назвать только два из них.

Он предлагает интеграцию с наиболее важными системами контроля версий, а также с тестовым прогоном, профилировщиком и отладчиком. Чтобы завершить сделку, он также интегрируется с Docker и Vagrant для обеспечения кросс-платформенной разработки и контейнеризации..

RStudio

Для тех исследователей данных, которые предпочитают команду R, должна быть выбрана IDE RStudio, из-за его множества функций. Вы можете установить его на рабочий стол с Windows, MacOS или Linux, или вы можете запустить его из веб-браузера, если вы не хотите устанавливать его локально. Обе версии предлагают такие плюсы, как подсветка синтаксиса, интеллектуальные отступы и завершение кода. Существует встроенный просмотрщик данных, который пригодится, когда вам нужно просмотреть табличные данные.

Режим отладки позволяет увидеть, как данные обновляются динамически при пошаговом выполнении программы или скрипта. Для контроля версий RStudio интегрирует поддержку SVN и Git. Приятным плюсом является возможность создавать интерактивную графику с помощью Shiny и предоставляет библиотеки.

Ваш личный инструментарий

На этом этапе у вас должно быть полное представление об инструментах, которые вы должны знать, чтобы преуспеть в науке о данных. Кроме того, мы надеемся, что предоставили вам достаточно информации, чтобы решить, какой вариант наиболее удобен в каждой категории инструментов. Теперь это зависит от вас. Наука о данных является процветающей областью развивать карьеру. Но если вы хотите сделать это, вы должны идти в ногу с изменениями в тенденциях и технологиях, так как они происходят почти ежедневно.

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map