Как выбрать алгоритмы ML для задач регрессии?

Повсюду этот гул – Машинное обучение!


Итак, что же это за «машинное обучение (ML)?»

Давайте рассмотрим практический пример. Если бы вы могли вообразить вероятность результата задания, выполненного впервые – допустим, задача состоит в том, чтобы научиться ездить на автомобиле. То есть как бы вы себя отозвали? С неопределенностью?

С другой стороны, как бы вы хотели погладить себя по той же задаче после пары лет практики? Возможно, вы бы изменили свое мышление от параметра неопределенности или более определенного. Итак, как вы получили этот опыт в задаче?

Скорее всего, вы получили опыт, настроив некоторые параметры, и ваша производительность улучшилась. Правильно? Это машинное обучение.

Говорят, что компьютерная программа учится на опыте (E) по некоторым задачам (T), чтобы дать наилучший результат (P).

В том же духе машины учатся по некоторым сложным математическим понятиям, и все данные для них имеют форму 0 и 1. В результате мы не кодируем логику для нашей программы; вместо этого мы хотим, чтобы машина самостоятельно определяла логику на основе данных..

Кроме того, если вы хотите найти связь между опытом, уровнем работы, редкими навыками и зарплатой, то вам необходимо научить алгоритмам машинного обучения..

Комплексный набор данных с большим количеством функцийКомплексный набор данных с большим количеством функций

Согласно этому примеру, вам нужно настроить функции, чтобы получить метки. Но вы не кодируете алгоритм, и ваше внимание должно быть сосредоточено на данных.

Таким образом, концепция Данные + алгоритм = понимание. Во-вторых, алгоритмы уже разработаны для нас, и нам нужно знать, какой алгоритм использовать для решения наших задач. Давайте посмотрим на проблему регрессии и лучший способ выбрать алгоритм.

Обзор машинного обучения

В соответствии с Andreybu, немецкий ученый с более чем 5-летним опытом машинного обучения: «Если вы можете понять, является ли задача машинного обучения регрессией или классификационной проблемой, то выбор правильного алгоритма – это очень просто».

различные группы машинного обученияРазличные группировки машинного обучения

Чтобы перечислить, основное различие между ними состоит в том, что выходная переменная в регрессии является числовой (или непрерывной), тогда как для классификации является категориальной (или дискретной).

Регрессия в машинном обучении

Для начала, регрессионные алгоритмы пытаются оценить функцию отображения (f) от входных переменных (x) до числовых или непрерывных выходных переменных (y). Теперь выходная переменная может быть действительным значением, которое может быть целым числом или значением с плавающей запятой. Таким образом, проблемы прогнозирования регрессии обычно представляют собой величины или размеры..

Например, если вам предоставляется набор данных о домах, и вас просят предсказать их цены, это задача регрессии, потому что цена будет непрерывным выходом.

Примеры общих алгоритмов регрессии включают линейную регрессию, Регрессия опорных векторов (SVR), и деревья регрессии.

Классификация в машинном обучении

Напротив, в случае алгоритмов классификации у – категория, которую предсказывает функция отображения. Чтобы разработать для одной или нескольких входных переменных, классификационная модель попытается предсказать значение одного или нескольких выводов..

Например, если вам предоставляется набор данных о домах, алгоритм классификации может попытаться предсказать, будут ли цены на дома «продавать больше или меньше рекомендуемой розничной цены». Здесь две дискретные категории: выше или ниже указанной цены.

Примеры общих алгоритмов классификации включают логистическую регрессию, наивный байесовский алгоритм, деревья решений и K ближайших соседей..

Выбор правильных алгоритмов

Правильная оценка MLДотошный Data Digging для правильной оценки ML

Понять ваши данные

  • Посмотрите на сводную статистику
  • Используйте параметр «Percentile» для определения диапазонов данных
  • Средние и медианы описывают центральную тенденцию
  • Корреляции могут указывать на прочные отношения

Визуализируйте данные

  • Графики могут указывать исключения.
  • Графики плотности и гистограммы показывают распространение данных
  • Точечные диаграммы могут описывать количественные отношения

Очистить данные

Обнаружение недостающих частейОбнаружение недостающих частей – приоритет в списке дел для нахождения правильного алгоритма ML

  • Разобраться с отсутствующим значением. Результат должен давать чувствительные результаты в случае (пропущенные данные для определенных переменных могут привести к неточным прогнозам)
  • Хотя древовидные модели менее чувствительны к наличию выбросов, регрессивные модели или другие модели, использующие уравнения, более чувствительны к исключениям
  • По сути, выбросы могут быть результатом неправильного сбора данных или могут быть допустимыми крайними значениями

Курировать данные

Кроме того, при преобразовании необработанных данных в полированные, соответствующие моделям, необходимо позаботиться о следующем:

  • Сделайте данные проще для интерпретации.
  • Захватывать более сложные данные.
  • Фокус на сокращении избыточности и размерности данных.
  • Нормализовать значения переменных.

Категоризация проблемы с помощью входной переменной

  • Вы пометили данные; это контролируемая проблема обучения.
  • Если у вас есть немаркированные данные и вы хотите найти структуру, это проблема обучения без присмотра.
  • Если вы хотите оптимизировать целевую функцию путем взаимодействия с окружающей средой, это проблема обучения с подкреплением.

Категоризация проблемы с помощью выходной переменной

  • Выход вашей модели является числом; это проблема регрессии.
  • Когда вывод вашей модели является классом, тогда это проблема классификации.
  • Результатом вашей модели является набор входных групп; это проблема кластеризации.

Фактор ограничения

  • Обратите внимание на емкость хранилища, поскольку она варьируется для разных моделей.
  • Должен ли прогноз быть быстрым? Например, в реальном времени сценарии, такие как классификация дорожных знаков, должны быть максимально быстрыми, чтобы избежать аварий.

Наконец, найдите алгоритм

Логический методЛогический метод: следуйте процедуре

Теперь, когда у вас есть четкое представление о ваших данных, вы можете реализовать надлежащие инструменты для выбора правильного алгоритма.

Между тем, для лучшего решения, вот контрольный список факторов для вас:

  • Посмотрите, соответствует ли модель вашей бизнес-цели
  • Сколько предварительной обработки требует модель
  • Проверьте правильность модели
  • Насколько объяснима модель
  • Насколько быстра модель: Сколько времени занимает построение модели и сколько времени модели требуется для прогнозирования
  • Масштабируемость модели

Чтобы добавить, нужно обратить внимание на сложность алгоритма при выборе.

Вообще говоря, вы можете измерить сложность модели, используя параметры:

  • Когда для изучения и прогнозирования цели требуется две или более десяти функций
  • Он опирается на более сложную разработку признаков (например, с использованием полиномиальных терминов, взаимодействий или главных компонентов)
  • Когда сценарий имеет больше вычислительных затрат (например, одно дерево решений против случайного леса из 100 деревьев)

Кроме того, тот же алгоритм можно сделать более сложным вручную. Это зависит только от количества параметров и рассматриваемого сценария. Например, вы можете разработать регрессионную модель с большим количеством функций или полиномиальных терминов и терминов взаимодействия. Или вы можете разработать дерево решений с меньшей глубиной.

Общие алгоритмы машинного обучения

Линейная регрессия

Это, наверное, самые простые.
Вот несколько примеров, где используется линейная регрессия:

  • Во-первых, когда пришло время переходить из одного места в другое
  • Прогнозирование продаж определенного продукта в следующем месяце
  • Влияние содержания алкоголя в крови на координацию
  • Прогнозирование ежемесячных продаж подарочных карт и улучшение прогнозов годового дохода

Логистическая регрессия

Очевидно, у этого алгоритма есть много преимуществ – интеграция большего количества функций с хорошим средством интерпретации, простое средство обновления для добавления новых данных.

Другими словами, вы можете использовать это для:

  • Прогнозирование оттока клиентов.
  • Частный случай кредитного скоринга или выявления мошенничества.
  • Измерение эффективности маркетинговых кампаний.

Деревья решений

По-видимому, отдельные деревья используются редко, но по составу, как и многие другие, они создают эффективные алгоритмы, такие как Случайный лес или Повышение градиентного дерева. Однако одним из недостатков является то, что они не поддерживают онлайн-обучение, поэтому вам придется перестраивать свое дерево, когда появляются новые примеры..

Деревья отлично подходят для:

  • Инвестиционные решения
  • Банк Кредитор неплательщиков
  • Специалисты по продажам

Наивный байесовский

Что наиболее важно, Naive Bayes – это правильный выбор, когда ресурсы процессора и памяти являются ограничивающим фактором. Тем не менее, его основным недостатком является то, что он не может изучить взаимодействия между функциями.

Может использоваться для:

  • Распознавание лица
  • Пометить письмо как спам или нет.
  • Анализ настроения и классификация текста.

Вывод

Поэтому, вообще говоря, в сценарии в реальном времени довольно сложно найти правильный алгоритм машинного обучения для этой цели. Тем не менее, вы можете использовать этот контрольный список для выбора нескольких алгоритмов для вашего удобства.

Более того, выбор правильного решения реальной проблемы требует экспертного понимания бизнеса и правильного алгоритма. Итак, научите свои данные правильным алгоритмам, запустите их все параллельно или последовательно, и в конце оцените производительность алгоритмов, чтобы выбрать лучший (ие).

Если вы хотите специализироваться на глубоком обучении, то вы можете проверить этот курс путем глубокого изучения.

TAGS:

  • искусственный интеллект

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map