Cum să alegem algoritmii ML pentru probleme de regresie?

Există acest zumzet peste tot – Învățarea automată!


Deci, ce este acest „Machine Learning (ML)?”

Să luăm în considerare un exemplu practic. Dacă vă puteți imagina probabilitatea rezultatului unei sarcini efectuate pentru prima dată – Să presupunem că treaba este să învățați să mergeți cu mașina. Adică, cum ați face feedback-ul dvs.? Cu incertitudine?

Pe de altă parte, cum ați dori să vă păstrați pentru aceeași sarcină după câțiva ani de practică? Probabil că ți-ai schimba mentalitatea de la parametrul de incertitudine sau unul mai sigur. Deci, cum ați obținut acea expertiză în sarcină?

Cel mai probabil, ați obținut experiență prin modificarea unor parametri, iar performanțele dvs. s-au îmbunătățit. Dreapta? Aceasta este Machine Learning.

Se spune că un program de calculator învață din experiență (E) cu privire la unele sarcini (T) pentru a da rezultatul cel mai performant (P).

În aceeași ordine de idei, mașinile învață după anumite concepte complexe de matematică și toate datele pentru acestea sunt sub formă de 0 și 1. Drept urmare, nu codăm logica pentru programul nostru; în schimb, dorim ca o mașină să își dea seama de logică din datele proprii.

În plus, dacă doriți să găsiți relația dintre experiență, nivelul locului de muncă, abilitatea rară și salariul, atunci trebuie să învățați algoritmi de învățare automată.

Set de date complex cu mai multe caracteristiciSet de date complex cu mai multe caracteristici

Conform acestui studiu de caz, trebuie să reglați funcțiile pentru a obține etichetele. Dar, nu codificați algoritmul, iar accentul dvs. ar trebui să fie pus pe date.

Prin urmare, conceptul este Data + Algoritmul = Insights. În al doilea rând, algoritmii sunt deja dezvoltați pentru noi și trebuie să știm ce algoritm să folosim pentru rezolvarea problemelor noastre. Să aruncăm o privire asupra problemei de regresie și a celei mai bune modalități de a alege un algoritm.

Prezentare generală a învățării mașinii

Conform Andreybu, un om de știință german cu mai mult de 5 ani din experiența de învățare a mașinii, „Dacă puteți înțelege dacă sarcina de învățare a mașinii este o problemă de regresie sau de clasificare, atunci alegerea algoritmului potrivit este o bucată de tort.”

diferitele grupări de învățare automatăDiferitele grupări de învățare automată

Pentru a enumera, principala diferență între ele este că variabila de ieșire în regresie este numerică (sau continuă), în timp ce cea pentru clasificare este categorică (sau discretă).

Regresia în învățarea mașinilor

Pentru început, algoritmii de regresie încearcă să estimeze funcția de mapare (f) de la variabilele de intrare (x) la variabile de ieșire numerice sau continue (y). Acum, variabila de ieșire ar putea fi o valoare reală, care poate fi un număr întreg sau o valoare flotantă. Prin urmare, problemele de predicție a regresiei sunt de obicei cantități sau mărimi.

De exemplu, dacă vi se oferă un set de date despre case și vi se cere să prezice prețurile acestora, aceasta este o sarcină de regresie, deoarece prețul va fi o ieșire continuă.

Exemple de algoritmi de regresie comuna includ regresia liniară, Asistență la regresia vectorială (SVR), și arbori de regresie.

Clasificarea în învățarea mașinilor

În schimb, în ​​cazul algoritmilor de clasificare, y este o categorie pe care o prezice funcția de mapare. Pentru a elabora, pentru o singură sau mai multe variabile de intrare, un model de clasificare va încerca să prezice valoarea unei singure sau a mai multor concluzii.

De exemplu, dacă vi se oferă un set de date despre case, un algoritm de clasificare poate încerca să prezice dacă prețurile pentru case „vând mai mult sau mai puțin decât prețul de vânzare cu amănuntul recomandat.” Aici cele două categorii discrete: peste sau sub prețul menționat.

Exemple de algoritmi de clasificare comuni includ regresia logistică, Naïve Bayes, arbori de decizie și K Vecini cei mai apropiați.

Alegerea algoritmilor potriviți

Evaluare corectă a MLSăparea de date minuțioasă pentru evaluarea ML corectă

Înțelegeți datele dvs.

  • Aruncați o privire la statisticile sumare
  • Utilizați parametrul „Percentile” pentru a identifica intervalele de date
  • Mediile și medii descriu tendința centrală
  • Corelațiile pot indica relații puternice

Vizualizați datele

  • Parcelele pot indica excepții.
  • Graficele de densitate și histogramele arată răspândirea datelor
  • Parcele de dispersie pot descrie relațiile de cantitate

Curățați datele

Aflarea pieselor care lipsescAflarea pieselor care lipsesc – prioritate pe lista de sarcini pentru găsirea algoritmului ML potrivit

  • Aveți de-a face cu o valoare lipsă. Rezultatul este supus pentru a da rezultate sensibile în caz (datele lipsă pentru anumite variabile pot duce la predicții inexacte)
  • Deși modelele de arbore sunt mai puțin sensibile la prezența valorilor exterioare, modelele regresive sau alte modele care utilizează ecuații sunt mai sensibile la excepții
  • Practic, valorile exterioare ar putea fi rezultatul colectării de date proaste sau ar putea fi valori extreme legitime

Curatează datele

În plus, în timp ce convertiți datele brute într-una lustruită conform modelelor, trebuie să aveți grijă de următoarele:

  • Faceți datele mai ușor de interpretat.
  • Capturați date mai complexe.
  • Concentrați-vă pe reducerea redundanței și dimensionalității datelor.
  • Normalizați valorile variabile.

Categorizați problema prin variabila de intrare

  • Ai etichetat date; este o problemă de învățare supravegheată.
  • Dacă aveți date fără etichetare și doriți să găsiți structură, este o problemă de învățare nesupravegheată.
  • În cazul în care doriți să optimizați o funcție obiectivă prin interacțiunea cu un mediu, este o problemă de învățare de consolidare.

Categorizați problema prin variabila de ieșire

  • Produsul modelului dvs. este un număr; este o problemă de regresie.
  • Când ieșirea modelului dvs. este o clasă, atunci este o problemă de clasificare.
  • Rezultatul modelului dvs. este un set de grupuri de intrare; este o problemă de clustering.

Factorul de constrângere

  • Luați notă cu privire la capacitatea de stocare, deoarece variază pentru diferite modele.
  • Predicția trebuie să fie rapidă? De exemplu, în timp real scenarii precum clasificarea indicatoarelor rutiere să fie cât mai rapid posibil pentru a evita accidentele.

În cele din urmă, Găsiți Algoritmul

Metoda logicăMetoda logică: Urmați procedura

Acum că aveți o imagine clară a datelor dvs., puteți implementa instrumente adecvate pentru a alege algoritmul potrivit.

Între timp, pentru o decizie mai bună, iată o listă de verificare a factorilor pentru dvs.:

  • Vedeți dacă modelul se aliniază obiectivului dvs. de afaceri
  • Cât de mult necesită pre-procesarea modelului
  • Verificați exactitatea modelului
  • Cât de explicabil este modelul
  • Cât de rapid este modelul: Cât durează construirea unui model și cât durează modelul pentru a face predicții
  • Scalabilitatea modelului

Pentru a adăuga, trebuie să acordați atenție complexității algoritmului în timp ce alegeți.

În general, puteți măsura complexitatea modelului folosind parametrii:

  • Când este nevoie de două sau mai mult de zece caracteristici pentru a învăța și prezice ținta
  • Se bazează pe o inginerie de caracteristici mai complexe (de exemplu, folosind termeni polinomiali, interacțiuni sau componente principale)
  • Când scenariul are mai multe capete de calcul (de exemplu, un arbore de decizie unic în raport cu o pădure aleatoare de 100 de copaci)

În plus, același algoritm poate fi făcut mai complex manual. Depinde pur și simplu de numărul de parametri furnizați și de scenariul luat în considerare. De exemplu, puteți proiecta un model de regresie cu mai multe caracteristici sau termeni polinomiali și termeni de interacțiune. Sau, puteți proiecta un arbore de decizie cu o adâncime mai mică.

Algoritmi de învățare a mașinilor comune

Regresie liniara

Acestea sunt probabil cele mai simple.
Puține dintre exemple în care se utilizează regresia liniară sunt:

  • În primul rând, când este timpul să mergeți într-o locație în alta
  • Prezicerea vânzărilor unui anumit produs luna viitoare
  • Impactul conținutului de alcool în sânge asupra coordonării
  • Previzionați vânzările lunare de carduri cadou și îmbunătățiți proiecțiile anuale ale veniturilor

Regresie logistică

Aparent, există o mulțime de avantaje pentru acest algoritm – integrarea mai multor funcții cu o funcție de interpretare drăguță, facilitate de actualizare ușoară pentru a anexa date noi.

Pentru a spune altfel, puteți utiliza acest lucru pentru:

  • Prezicerea zguduitoare a clienților.
  • Cazul particular al punctării creditelor sau al detectării fraudei.
  • Măsurarea eficienței campaniilor de marketing.

Arbori de decizie

Aparent, copacii singuri sunt folosiți rar, dar în compoziție, cu mulți alții, construiesc algoritmi eficienți, cum ar fi Random Forest sau Gradient Tree Boosting. Cu toate acestea, unul dintre dezavantaje este că nu acceptă învățarea online, așa că trebuie să vă reconstruiți arborele atunci când apar noi exemple.

Copacii sunt excelenți pentru:

  • Decizii de investiții
  • Imprumuturi bancare prestabilite
  • Calificări de vânzări

Naive Bayes

Cel mai important, Naive Bayes este o alegere potrivită atunci când resursele procesorului și ale memoriei sunt un factor limitativ. Cu toate acestea, principalul său dezavantaj este că nu poate învăța interacțiuni între caracteristici.

Poate fi folosit pentru:

  • Recunoaștere facială
  • Pentru a marca un e-mail ca spam sau nu.
  • Analiza sentimentelor și clasificarea textului.

Concluzie

Prin urmare, în general, într-un scenariu în timp real, este oarecum greu să înțelegi algoritmul potrivit pentru învățarea mașinii în acest scop. Cu toate acestea, puteți utiliza această listă de verificare pentru a selecta câțiva algoritmi la convenția dvs..

Mai mult decât atât, a opta pentru soluția potrivită pentru o problemă din viața reală necesită o înțelegere de afaceri a experților, împreună cu algoritmul corect. Așadar, învățați-vă datele în algoritmii potriviți, rulați-le pe toate în paralel sau serial și, la final, evaluați performanța algoritmilor pentru a selecta cea mai bună..

Dacă doriți să vă specializați în învățare profundă, atunci puteți consulta acest curs prin învățare profundă.

ETICHETE:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map