Как да изберем ML алгоритми за проблеми с регресията?

Навсякъде има този шум – Машинно обучение!


И така, какво е това „машинно обучение (ML)?“

Нека разгледаме практически пример. Ако можете да си представите вероятността за резултата от задача, изпълнена за първи път – Нека да кажем, че работата е да се научите да карате кола. Тоест, как бихте отговорили сами? С несигурност?

От друга страна, как бихте искали да се потупате по същата задача след няколко години практика? Вероятно бихте накарали вашето мислене да бъде прехвърлено от параметъра за несигурност или по-сигурен. И така, как получихте този опит в задачата?

Най-вероятно сте имали опит чрез настройване на някои параметри и ефективността ви е подобрена. Така ли е? Това е машинно обучение.

Казва се компютърна програма, която се учи от опит (E) на някои задачи (T), за да даде най-добри резултати (P).

В същия смисъл машините учат по някои сложни математически понятия и всички данни за тях са под формата на 0 и 1. В резултат на това ние не кодираме логиката за нашата програма; вместо това ние искаме машина сама да изясни логиката от данните.

Освен това, ако искате да намерите връзката между опит, ниво на работа, редки умения и заплата, тогава трябва да преподавате алгоритми за машинно обучение.

Сложен набор от данни с повече функцииСложен набор от данни с повече функции

Според този случай, трябва да ощипвате функциите, за да получите етикетите. Но, не кодирате Алгоритъма и фокусът ви трябва да е върху данните.

Следователно концепцията е Данни + Алгоритъм = Статистика. Второ, алгоритмите вече са разработени за нас и трябва да знаем кой алгоритъм да използваме за решаване на проблемите си. Нека разгледаме проблема с регресията и най-добрият начин да изберем алгоритъм.

Общ преглед на машинното обучение

Според Andreybu, немски учен с повече от 5 години опит в машинното обучение, „Ако можете да разберете дали задачата за машинно обучение е проблем с регресия или класификация, тогава изборът на правилния алгоритъм е парче торта.“

различните групи за машинно обучениеРазличните групи за машинно обучение

За да изброим, основната разлика между тях е, че изходната променлива в регресията е числена (или непрекъсната), докато тази за класификация е категорична (или дискретна).

Регресия в машинното обучение

Като начало, регресионните алгоритми се опитват да оценят функцията за картографиране (f) от входните променливи (x) до числови или непрекъснати изходни променливи (y). Сега изходната променлива може да бъде реална стойност, която може да бъде цяло число или стойност с плаваща запетая. Следователно, проблемите с прогнозата за регресия обикновено са количества или размери.

Например, ако ви бъде предоставен набор от данни за къщи и се изисква да прогнозирате техните цени, това е регресионна задача, тъй като цената ще бъде непрекъснат изход.

Примерите за общи алгоритми за регресия включват линейна регресия, Подкрепа векторна регресия (SVR), и регресионни дървета.

Класификация в машинното обучение

За разлика от тях, в случай на алгоритми за класификация, y е категория, която функцията за картографиране прогнозира. За да се изработи, за единична или няколко входни променливи, класификационен модел ще се опита да предскаже стойността на един или няколко заключения.

Например, ако ви е предоставен набор от данни за къщи, алгоритъмът за класификация може да се опита да предвиди дали цените за къщите „продават повече или по-малко от препоръчителната цена на дребно“. Тук двете дискретни категории: над или под посочената цена.

Примери за общи алгоритми за класификация включват логистична регресия, Naive Bayes, дървета на решения и K Най-близките съседи.

Избор на правилните алгоритми

Правилна оценка на MLВнимателното копаене на данни за правилна оценка на ML

Разберете Вашите данни

  • Обърнете внимание на обобщената статистика
  • Използвайте параметъра „Процент”, за да идентифицирате диапазоните на данните
  • Средните стойности и медианите описват централната тенденция
  • Корелациите могат да показват силни връзки

Визуализирайте данните

  • Графиките на кутиите могат да означават изключения.
  • Графиките на плътността и хистограмите показват разпространението на данните
  • Графиците на разсейването могат да опишат количествени отношения

Почистете данните

Откриване на липсващите парчетаНамиране на липсващите парчета – приоритет в списъка със задачи за намиране на правилния ML алгоритъм

  • Справяне с липсваща стойност. Резултатът се подлага на чувствителни резултати в случая (липсващи данни за определени променливи могат да доведат до неточни прогнози)
  • Въпреки че дървесните модели са по-малко чувствителни към присъствието на външни хора, регресивните модели или други модели, които използват уравнения, са по-чувствителни към изключенията
  • По принцип, хората, които не са в състояние да останат, биха могли да бъдат резултат от лошо събиране на данни или могат да бъдат законни крайни стойности

Лекувайте данните

Освен това, докато преобразувате суровите данни в излъскани, отговарящи на моделите, трябва да се погрижите за следното:

  • Улеснявайте интерпретирането на данните.
  • Заснемайте по-сложни данни.
  • Съсредоточете се върху намаляването на излишността и размерите на данните.
  • Нормализиране на променливите стойности.

Класифицирайте проблема чрез входна променлива

  • Имате етикетирани данни; това е проблем с контролирано обучение.
  • Ако имате незабелязани данни и искате да намерите структура, това е проблем, който не се контролира.
  • В случай, че искате да оптимизирате обективна функция, като взаимодействате със среда, това е проблем с обучението за подсилване.

Класифицирайте проблема чрез изходна променлива

  • Изходът на вашия модел е число; това е проблем с регресията.
  • Когато продукцията на вашия модел е клас, това е проблем с класификацията.
  • Изходът на вашия модел е набор от групи за въвеждане; това е проблем с клъстеринга.

Коефициентът на ограничение

  • Обърнете внимание на капацитета за съхранение, тъй като той варира за различните модели.
  • Трябва ли прогнозата да бъде бърза? Например в сценарии в реално време като класификацията на пътните знаци е възможно най-бързо, за да се избегнат инциденти.

Накрая, Намерете алгоритъма

Логическият методЛогическият метод: Следвайте процедурата

Сега, когато имате ясна картина на вашите данни, бихте могли да внедрите подходящи инструменти, за да изберете правилния алгоритъм.

Междувременно, за по-добро решение, ето контролен списък на факторите за вас:

  • Вижте дали моделът се привежда в съответствие с вашата бизнес цел
  • Колко предварителна обработка изисква модела
  • Проверете точността на модела
  • Колко обясним е моделът
  • Колко бърз е моделът: Колко време отнема изграждането на модел и колко време отнема моделът, за да прави прогнози
  • Мащабируемостта на модела

За да добавите, трябва да обърнете внимание на сложността на алгоритъма, докато избирате.

Най-общо можете да измерите сложността на модела, като използвате параметрите:

  • Когато изисква две или повече от десет функции, за да научите и да прогнозирате целта
  • Тя разчита на по-сложна инженерна функция (например, използвайки полиномни термини, взаимодействия или главни компоненти)
  • Когато сценарият има повече изчислителни режийни разходи (например, едно дърво с решения срещу произволна гора от 100 дървета)

Освен това, същият алгоритъм може да се направи по-сложен ръчно. Това зависи изцяло от броя на отдадените параметри и разглеждания сценарий. Например, можете да създадете регресионен модел с повече функции или полиномни термини и термини за взаимодействие. Или бихте могли да проектирате дърво за решения с по-малка дълбочина.

Общите алгоритми за машинно обучение

Линейна регресия

Това вероятно са най-простите.
Малко от примерите, при които се използва линейна регресия са:

  • Първо, когато е време да отидете на едно място на друго
  • Прогнозиране на продажбите на конкретен продукт през следващия месец
  • Въздействие на съдържанието на алкохол в кръвта върху координацията
  • Прогнозирайте месечните продажби на подаръчни карти и подобрете годишните прогнози за приходите

Логистична регресия

Очевидно има много предимства на този алгоритъм – интегриране на повече функции с приятно средство за интерпретация, лесно актуализиране на съоръжението за анексиране на нови данни.

Казано по друг начин, можете да използвате това за:

  • Прогнозиране на клиента.
  • Конкретният случай на кредитно оценяване или разкриване на измами.
  • Измерване на ефективността на маркетинговите кампании.

Дървета на решенията

Очевидно единичните дървета се използват рядко, но в състав, с много други, те изграждат ефективни алгоритми като Random Forest или Gradient Tree Boosting. Въпреки това, един от недостатъците е, че не поддържат онлайн обучение, така че трябва да възстановите дървото си, когато се появят нови примери.

Дърветата са отлични за:

  • Инвестиционни решения
  • Банкови кредитори
  • Квалификации за водещи продажби

Наивен Байес

Най-важното е, че Naive Bayes е правилният избор, когато ресурсите на процесора и паметта са ограничаващ фактор. Основният му недостатък обаче е, че не може да научи взаимодействия между функции.

Може да се използва за:

  • Разпознаване на лица
  • За да маркирате имейл като спам или не.
  • Анализ на чувството и класификация на текста.

заключение

Следователно, най-общо казано, в сценарий в реално време е малко трудно да се спазва правилния алгоритъм за машинно обучение за целта. Можете обаче да използвате този контролен списък, за да изберете списък с няколко алгоритми по ваше удобство.

Освен това, избирането на правилното решение на проблема в реалния живот изисква експертно разбиране на бизнеса заедно с правилния алгоритъм. Така че, научете вашите данни в правилните алгоритми, изпълнете ги всички паралелно или серийно и в края оценете ефективността на алгоритмите, за да изберете най-добрия (ите).

Ако търсите да се специализирате в задълбочено обучение, тогава можете да проверите този курс чрез задълбочено обучение.

ЕТИКЕТИ:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map