Hogyan válasszuk ki a ML algoritmusokat a regressziós problémákhoz?

Mindenhol ott van ez a zümmögés – Machine Learning!


Szóval, mi ez a „gépi tanulás (ML)?”

Vegyünk egy gyakorlati példát. Ha el tudod képzelni az első alkalommal elvégzett feladat kimenetelének valószínűségét – tegyük fel, hogy a feladat az, hogy megtanuljon autót vezetni. Vagyis hogyan visszacsatolná magad? Bizonytalansággal?

Másrészről, hogyan szeretne kipróbálni ugyanazt a feladatot egy pár éves gyakorlat után? Valószínűleg a gondolkodásmódja áttérne a bizonytalansági paraméterről vagy egy biztosabb paraméterről. Szóval, hogyan kapta meg ezt a szakértelmet a feladatban?

Valószínűleg tapasztalatokat szerzett néhány paraméter finomításával, és a teljesítmény javult. Jobb? Ez gépi tanulás.

Azt állítják, hogy egy számítógépes program tanul a tapasztalatokból (E) egyes feladatoknál (T), hogy a legjobban teljesítő eredményt nyújtsa (P).

Ugyanebben az értelemben a gépek néhány összetett matematikai fogalom alapján tanulnak, és számukra minden adat 0 és 1 formájában van. Ennek eredményeként nem kódoljuk programunk logikáját; ehelyett azt akarjuk, hogy egy gép önmagában kiszámítsa a logikát az adatokból.

Továbbá, ha meg akarja találni a kapcsolatot a tapasztalatok, a munkavégzés szintje, a ritka készség és a fizetés között, akkor meg kell tanítania gépi tanulási algoritmusokat..

Komplex adatkészlet további szolgáltatásokkalKomplex adatkészlet további szolgáltatásokkal

Az esettanulmány szerint a címkék megszerzéséhez meg kell változtatnia a szolgáltatásokat. De nem kódolja az algoritmust, és az adatokra kell összpontosítania.

Ezért a koncepció Adatok + algoritmus = betekintés. Másodszor, az algoritmusokat már kifejlesztettük számunkra, és tudnunk kell, hogy mely algoritmust kell használni a problémáink megoldásához. Vessen egy pillantást a regressziós problémára és az algoritmus kiválasztásának legjobb módjára.

A gépi tanulás áttekintése

Alapján Andreybu, egy német tudós, aki több mint öt éves gépi tanulási tapasztalattal rendelkezik: “Ha megérti, hogy a gépi tanulási feladat regressziós vagy osztályozási probléma, akkor a megfelelő algoritmus kiválasztása egy szelet”.

a gépi tanulás különböző csoportjaiA gépi tanulás különböző csoportjai

Összegzésként a fő különbség közöttük az, hogy a regresszió kimeneti változója numerikus (vagy folyamatos), míg az osztályozáséhoz kategorikus (vagy diszkrét).

Regresszió a gépi tanulásban

Először a regressziós algoritmusok megkísérlik megbecsülni az (f) leképezési függvényt a bemeneti változóktól (x) a numerikus vagy folyamatos kimeneti változókig (y). A kimeneti változó valós érték lehet, amely lehet egész vagy lebegőpontos érték. Ezért a regressziós előrejelzési problémák általában mennyiségek vagy méretek.

Például, ha a házakkal kapcsolatos adatkészlettel rendelkeznek, és felkérést kapnak arra, hogy megjósolja az áraikat, ez egy regressziós feladat, mert az ár folyamatos output lesz.

A közös regressziós algoritmusokra példa a lineáris regresszió, Támogatja a vektor regressziót (SVR), és regressziós fák.

Osztályozás a gépi tanulásban

Ezzel szemben a besorolási algoritmusok esetében az y egy olyan kategória, amelyet a leképezési függvény előre jelez. Egy vagy több bemeneti változó esetében az osztályozási modell megkísérli megjósolni egy vagy több következtetés értékét.

Például, ha rendelkezésére áll házakkal kapcsolatos adatkészlet, akkor egy osztályozási algoritmus megpróbálja megjósolni, hogy a házak árai „az ajánlott kiskereskedelmi árat meghaladó mértékben vagy annál kevesebbet adnak el”. Itt a két különálló kategória: az említett ár felett vagy alatt.

A közös osztályozási algoritmusokra példa a logisztikus regresszió, a Naiv Bayes, a döntési fák és a K Legközelebbi szomszédok.

A megfelelő algoritmusok kiválasztása

Helyes ML-értékelésA gondos Adatásás a megfelelő ML értékeléshez

Megérteni az adatait

  • Vessen egy pillantást az összefoglaló statisztikákra
  • Az adattartomány meghatározásához használja a „Százalék” paramétert
  • Az átlagok és a mediánok leírják a központi tendenciát
  • A korrelációk erős kapcsolatokat jelezhetnek

Képzelje el az adatokat

  • A dobozdiagramok kivételeket jelezhetnek.
  • A sűrűségábrák és a hisztogramok megmutatják az adatok elterjedését
  • A szórt grafikonok leírhatják a mennyiségi viszonyokat

Tisztítsa meg az adatokat

A hiányzó darabok megismeréseA hiányzó darabok megismerése – A teendők prioritása a megfelelő ML algoritmus megtalálásához

  • Keressen egy hiányzó értéket. Az eredményt érzékeny eredmények megadása esetén kell megtenni (bizonyos változók hiányzó adatai pontatlan előrejelzéseket eredményezhetnek)
  • Bár a fa modellek kevésbé érzékenyek a külsõ értékek jelenlétére, a regresszív modellek vagy más modellek, amelyek egyenleteket használnak, érzékenyebbek a kivételekre
  • Alapvetően a túlmutatások a rossz adatgyűjtés következményei lehetnek, vagy legitim extrém értékek lehetnek

Pontosítsa az adatokat

Ezen túlmenően, miközben a nyers adatokat a modelleknek megfelelő, csiszolt formákká alakítják, a következőkre kell ügyelni:

  • Az adatok könnyebb értelmezése.
  • Bonyolultabb adatok rögzítése.
  • Összpontosítson az adat redundancia és a dimenzió csökkentésére.
  • Normalizálja a változó értékeket.

Osztályozza a problémát bemeneti változón keresztül

  • Adatot címkézett; ez egy felügyelt tanulási probléma.
  • Ha címkézetlen adatai vannak, és szerkezetet szeretne megtalálni, ez egy nem felügyelt tanulási probléma.
  • Abban az esetben, ha valamelyik objektív funkciót optimalizálni akarja egy környezettel való kölcsönhatás révén, ez megerősítő tanulási probléma.

Osztályozza a problémát a kimeneti változón keresztül

  • A modell kimenete egy szám; ez regressziós probléma.
  • Ha a modell kimenete osztály, akkor ez osztályozási probléma.
  • A modell kimenete bemeneti csoportok halmaza; klaszterprobléma.

A kényszer tényező

  • Jegyezze fel a tárolókapacitást, mivel a különféle modelleken változik.
  • Az előrejelzésnek gyorsnak kell lennie? Például valós idejű forgatókönyvekben, például az útjelző táblák besorolása a lehető leggyorsabban történik a balesetek elkerülése érdekében.

Végül keresse meg az algoritmust

A logikai módszerLogikai módszer: Kövesse az eljárást

Most, hogy világos adata van az adatokról, megfelelő eszközöket hajthat végre a megfelelő algoritmus kiválasztásához.

Eközben a jobb döntés érdekében itt található az Ön számára a tényezők ellenőrző listája:

  • Nézze meg, hogy a modell megfelel-e az üzleti célnak
  • A modell előzetes feldolgozása mekkora
  • Ellenőrizze a modell pontosságát
  • Mennyire magyarázható a modell
  • Mennyire gyors a modell: Mennyi időbe telik a modell felépítése, és mennyi időbe telik a modell előrejelzései
  • A modell méretezhetősége

Ehhez a kiválasztásnál figyelni kell az algoritmus összetettségére.

Általánosságban elmondható, hogy a modell bonyolultságát a következő paraméterekkel lehet megmérni:

  • Ha két vagy több funkcióra van szükség a cél megtanulásához és előrejelzéséhez
  • Komplexebb tulajdonság-tervezésre támaszkodik (például polinom kifejezések, interakciók vagy fő összetevők felhasználásával)
  • Ha a forgatókönyvnek több számítási fejléce van (például egy döntési fa vs egy 100 fából álló véletlenszerű erdő)

Ezenkívül ugyanaz az algoritmus manuálisan is bonyolultabbá tehető. Ez tisztán az igénybe vett paraméterek számától és a vizsgált forgatókönyvetől függ. Például megtervezhet egy regressziós modellt több funkcióval vagy polinomi kifejezésekkel és interakciós kifejezésekkel. Vagy megtervezheti a döntési fát kevesebb mélységgel.

A közös gépi tanulási algoritmusok

Lineáris regresszió

Ezek valószínűleg a legegyszerűbbek.
Kevés olyan példa, amikor lineáris regressziót alkalmazunk:

  • Először: amikor itt az ideje, hogy egyik helyről a másikra menjen
  • Egy adott termék eladásának előrejelzése a következő hónapban
  • A vér alkoholtartalmának hatása a koordinációra
  • Jósolja meg a havi ajándékkártya-értékesítést, és javítsa az éves bevételi előrejelzéseket

Logisztikus regresszió

Nyilvánvalóan sok előnye van ennek az algoritmusnak – több szolgáltatás integrálása egy szép értelmezési lehetőséggel, az egyszerű adatfrissítés lehetősége az új adatok csatolásához.

Másként fogalmazva, ezt felhasználhatja a következőkre:

  • Az ügyfelek kavarodásának előrejelzése.
  • A hitelpontozás vagy a csalás felderítésének konkrét esete.
  • A marketing kampányok hatékonyságának mérése.

Döntési fák

Az egyes fákat nyilvánvalóan ritkán használják, de összetételükben, sok más felhasználásával, hatékony algoritmusokat építenek, mint például a Random Forest vagy a Gradient Tree Boosting. Az egyik hátrány azonban, hogy nem támogatják az online tanulást, ezért új példák megjelenésekor újjá kell építened a fát..

A fák kiválóan alkalmasak:

  • Befektetési döntések
  • Banki hitel-nemteljesítők
  • Értékesítési vezető képesítések

Naiv Bayes

A legfontosabb, hogy a Naive Bayes helyes választás, ha a CPU és a memória erőforrások korlátozó tényezők. Fő hátránya azonban, hogy nem képes megtanulni a funkciók közötti interakciókat.

Használható:

  • Arcfelismerés
  • E-mail spamként való megjelölése.
  • Érzékszervi elemzés és szöveges osztályozás.

Következtetés

Ezért általában egy valós idejű forgatókönyvben nehéz a megfelelő gépi tanulási algoritmust használni. Ezt az ellenőrző listát azonban felhasználhatja néhány algoritmus kiválasztására az Ön kényelme érdekében.

Ezenkívül a valós élet problémájának megfelelő megoldáshoz szakértő üzleti megértése szükséges a megfelelő algoritmus mellett. Tehát tanítsa meg az adatokat a megfelelő algoritmusokba, futtassa őket mind párhuzamosan, vagy soros formában, és a végén értékelje az algoritmusok teljesítményét, hogy kiválassza a legjobbat.

Ha a mélyreható tanulásra specializálódik, akkor érdemes megnéznie ez a tanfolyam a mély tanulással.

CÍMKÉK:

  • AI

Jeffrey Wilson Administrator
Sorry! The Author has not filled his profile.
follow me
    Like this post? Please share to your friends:
    Adblock
    detector
    map