Hoe om ML-algoritmes te kies vir regressieprobleme?

Daar is oral in hierdie gons: masjienleer!


Dus, wat is hierdie “Machine Learning (ML)?”

Kom ons kyk na ‘n praktiese voorbeeld. As u die waarskynlikheid van die resultaat van ‘n taak wat u vir die eerste keer gedoen het, kon voorstel – kom ons sê die taak is om te leer om met ‘n motor te ry. Dit wil sê, hoe sou u uself terugvoer gee? Met onsekerheid?

Aan die ander kant, hoe sou u u na ‘n paar jaar se oefening vir dieselfde taak wou aanneem? Waarskynlik sou u gedagtegang oorgaan van die onsekerheidsparameter of van ‘n meer sekerheid. Hoe het u daardie kundigheid in die taak gekry??

Heel waarskynlik het u ervaring opgedoen deur ‘n paar parameters aan te pas, en u prestasie het verbeter. Reg? Dit is masjienleer.

Daar word beweer dat ‘n rekenaarprogram uit ervaring (E) van sommige take (T) leer om die beste resultate te lewer (P).

Op dieselfde manier leer masjiene volgens ingewikkelde wiskundekonsepte, en elke gegewens daarvoor is in die vorm van 0 en 1. Gevolglik kodeer ons nie die logika vir ons program nie; in plaas daarvan, wil ons hê dat ‘n masjien die logika op sigself moet uitwerk.

Verder, as u die verband tussen ervaring, werkvlak, seldsame vaardigheid en salaris wil vind, moet u masjienleer-algoritmes leer.

Komplekse datastel met meer funksiesKomplekse datastel met meer funksies

Volgens hierdie gevallestudie moet u die funksies aanpas om die etikette te kry. Maar u kodeer nie die algoritme nie, en u fokus moet op die gegewens wees.

Daarom is die konsep Data + algoritme = Insigte. Tweedens is algoritmes reeds vir ons ontwikkel, en ons moet weet watter algoritme ons moet gebruik om ons probleme op te los. Kom ons kyk na die regressieprobleem en die beste manier om ‘n algoritme te kies.

Die oorsig van die masjienleer

Volgens Andreybu, ‘n Duitse wetenskaplike met meer as vyf jaar ervaring in die masjienleer, “As u kan verstaan ​​of die masjienleertaak ‘n regressie- of klassifikasieprobleem is, dan is die keuse van die regte algoritme ‘n stuk koek.”

die verskillende groeperings van masjienleerDie verskillende groeperings van masjienleer

Om op te tel, is die belangrikste verskil tussen hulle dat die uitvoerveranderlike in die regressie numeries (of deurlopend) is, terwyl dit vir klassifikasie kategories (of diskreet) is..

Regressie in masjienleer

Om mee te begin, probeer die regressie-algoritmes om die karteringfunksie (f) van die invoerveranderlikes (x) na numeriese of deurlopende uitvoerveranderlikes (y) te skat. Nou kan die uitvoerveranderlike ‘n reële waarde wees, wat ‘n heelgetal of ‘n drywende puntwaarde kan wees. Daarom is die regressie voorspellingsprobleme gewoonlik hoeveelhede of groottes.

Byvoorbeeld, as u voorsien is van ‘n datastel oor huise, en u gevra word om hul pryse te voorspel, is dit ‘n regruktaak, omdat die prys deurlopend sal wees.

Voorbeelde van die algemene regressie-algoritmes is lineêre regressie, Ondersteuning Vector Regressie (SVR), en regressiebome.

Klassifikasie in masjienleer

In teenstelling, in die geval van klassifikasie-algoritmes, is y ‘n kategorie wat die karteringfunksie voorspel. Om uit te brei vir ‘n enkele of verskeie invoerveranderlikes, sal ‘n klassifikasiemodel probeer om die waarde van ‘n enkele of meer gevolgtrekkings te voorspel.

Byvoorbeeld, as u voorsien is van ‘n datastel oor huise, kan ‘n klassifikasie-algoritme probeer voorspel of die huise se pryse “min of meer verkoop as die aanbevole kleinhandelprys.” Hier is die twee afsonderlike kategorieë: bo of onder die genoemde prys.

Voorbeelde van die algemene klassifikasie-algoritmes is logistiese regressie, Naïvebaai, beslissingsbome en K naaste bure..

Die keuse van die regte algoritmes

Regte ML-evalueringDie noukeurige gegrawe vir die regte ML-evaluering

Verstaan ​​u data

  • Kyk na die opsommende statistieke
  • Gebruik die parameter ‘Persentiel’ om die omvang van die data te identifiseer
  • Gemiddelde en mediaan beskryf die sentrale neiging
  • Korrelasies kan dui op sterk verhoudings

Visualiseer die data

  • Uitsonderings op kassie-erwe kan aangedui word.
  • Digtheidsdiagramme en histogramme toon die verspreiding van data
  • Verspreidingsdiagramme kan hoeveelheidsverhoudinge beskryf

Maak die data skoon

Ontdek die ontbrekende stukkeVind die ontbrekende stukke uit – Krygshaftigheid op die taaklys om die regte ML-algoritme te vind

  • Hanteer ‘n ontbrekende waarde. Die resultaat is onderhewig aan sensitiewe uitkomste in die geval (ontbrekende data vir sekere veranderlikes kan onakkurate voorspellings tot gevolg hê)
  • Alhoewel boommodelle minder sensitief is vir die teenwoordigheid van uitskieters, is regressiewe modelle of ander modelle wat vergelykings gebruik, meer gevoelig vir uitsonderings
  • Basies kan uitskieters die resultaat wees van slegte data-insameling, of dit kan wettige ekstreme waardes wees

Stel die data saam

Boonop moet u na die volgende data omsien na ‘n gepoleerde versameling volgens die modelle:

  • Maak die data makliker om te interpreteer.
  • Maak meer ingewikkelde data vas.
  • Fokus op vermindering van oortolligheid en dimensionaliteit van data.
  • Normaliseer die veranderlike waardes.

Kategoriseer die probleem deur middel van invoerveranderlike

  • U het data gemerk; dit is ‘n leerprobleem onder toesig.
  • As u ongeëtiketteerde data het en struktuur wil vind, is dit ‘n leerprobleem wat nie onder toesig is nie.
  • As u ‘n objektiewe funksie wil optimaliseer deur interaksie met ‘n omgewing, is dit ‘n leerprobleem wat dit versterk.

Kategoriseer die probleem deur middel van uitsetveranderlike

  • Die uitvoer van u model is ‘n getal; dit is ‘n regressieprobleem.
  • As die uitvoer van u model ‘n klas is, is dit ‘n klassifikasieprobleem.
  • Die uitvoer van u model is ‘n stel insetgroepe; dit is ‘n probleemprobleem.

Die beperkingsfaktor

  • Let op die stoorvermoë, want dit verskil vir verskillende modelle.
  • Moet die voorspelling vinnig wees? In real-time scenario’s, soos die klassifikasie van padtekens, is dit byvoorbeeld so vinnig as moontlik om ongelukke te voorkom.

Uiteindelik, vind die algoritme

Die logiese metodeDie logiese metode: volg die prosedure

Noudat u ‘n duidelike beeld van u data het, kan u die regte instrumente implementeer om die regte algoritme te kies.

Intussen, vir ‘n beter besluit, is hier ‘n lys van die faktore vir u:

  • Kyk of die model in lyn is met u besigheidsdoel
  • Hoeveel voorverwerking die model benodig
  • Kontroleer die akkuraatheid van die model
  • Hoe verduidelikbaar is die model
  • Hoe vinnig die model is: Hoe lank neem dit om ‘n model te bou, en hoe lank neem die model om voorspellings te maak
  • Die skaalbaarheid van die model

Om daaraan toe te voeg, moet u let op die kompleksiteit van die algoritme terwyl u kies.

Oor die algemeen kan u die kompleksiteit van die model met behulp van die parameters meet:

  • As dit twee of meer as tien funksies benodig om die teiken te leer en te voorspel
  • Dit maak staat op meer ingewikkelde funksie-ingenieurswese (byvoorbeeld deur polinoomterme, interaksies of hoofkomponente te gebruik)
  • As die scenario meer berekeningsbokoste het (bv. ‘N enkele beslissingsboom teen ‘n ewekansige bos van 100 bome)

Boonop kan dieselfde algoritme met die hand meer ingewikkeld gemaak word. Dit hang slegs af van die aantal parameters wat aangedui word en die scenario wat oorweeg word. U kan byvoorbeeld ‘n regressiemodel ontwerp met meer funksies of polinoomterme en interaksieterme. Of jy kan ‘n beslissingsboom met minder diepte ontwerp.

Die algemene algoritmes vir masjienleer

Lineêre regressie

Dit is waarskynlik die eenvoudigste.
‘N Paar voorbeelde waar lineêre regressie gebruik word, is:

  • Eerstens, wanneer dit tyd is om na een plek na ‘n ander te gaan
  • Die volgende maand word die verkope van ‘n spesifieke produk voorspel
  • Impak van bloedalkoholinhoud op koördinasie
  • Voorspel maandelikse geskenkkaartverkope en verbeter jaarlikse inkomsteprojeksies

Logistieke regressie

Daar is blykbaar baie voordele verbonde aan hierdie algoritme – integrasie van meer funksies met ‘n lekker interpretasiefasiliteit, maklike opdateringsfasiliteit om nuwe data te annekseer.

Om dit anders te stel, kan u dit gebruik vir:

  • Die voorspelling van klanktogte.
  • Die spesifieke geval van kredietwaardigheid of opsporing van bedrog.
  • Die meting van die effektiwiteit van bemarkingsveldtogte.

Besluitbome

Enkele bome word blykbaar selde gebruik, maar saam met baie ander bou hulle doeltreffende algoritmes soos Random Forest of Gradient Tree Boosting. Een van die nadele is egter dat dit nie aanlynleer ondersteun nie, dus u moet u boom herbou as nuwe voorbeelde aanbreek.

Bome is uitstekend vir:

  • Beleggingsbesluite
  • Wanbetalers van banklenings
  • Verkope lei kwalifikasies

Naïewe Bayes

Die belangrikste is dat Naive Bayes ‘n regte keuse is as CPU- en geheuebronne ‘n beperkende faktor is. Die grootste nadeel is egter dat dit nie interaksies tussen funksies kan aanleer nie.

Dit kan gebruik word vir:

  • Gesigsherkenning
  • Om ‘n e-pos as gemorspos te merk of nie.
  • Sentimentanalise en teksklassifikasie.

Afsluiting

Daarom is dit oor die algemeen in ‘n real-time scenario ietwat moeilik om die regte algoritme vir masjienleer vir die doel te ondergaan. U kan egter hierdie kontrolelys gebruik om ‘n paar algoritmes op u gemak te lys.

Boonop vereis die keuse van die regte oplossing vir ‘n werklike probleem kundige sakebegrip saam met die regte algoritme. Leer dus u data in die regte algoritmes, voer dit ewewydig of parallel aan en evalueer aan die einde die prestasie van die algoritmes om die beste een te kies..

As u op soek is na spesialisering in diep leer, kan u dit besoek hierdie kursus deur diep leer.

Tags:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map