Gadu gaitā vairākas klasifikatora sistēmas, ko sauc arī par ansambļu sistēmām, ir bijušas populāras pētniecības tēma, un tām ir pievērsta arvien lielāka uzmanība skaitļošanas intelekta un mašīnmācīšanās kopienā. Tas piesaistīja zinātnieku interesi no vairākām jomām, ieskaitot mašīnmācīšanos, statistiku, modeļa atpazīšanu un zināšanu atklāšanu datu bāzēs. Laika gaitā ansambļu metodes ir pierādījušas sevi kā ļoti efektīvas un daudzpusīgas plašā problēmu jomā un reālās pasaules lietojumos. Ansambļu metodes, kas sākotnēji tika izstrādātas, lai samazinātu atšķirības automatizētajā lēmumu pieņemšanas sistēmā, kopš tā laika tiek izmantotas, lai risinātu dažādas mašīnmācīšanās problēmas. Mēs piedāvājam pārskatu par diviem ievērojamākajiem ansambļa algoritmiem - Bagging un Random Forest - un pēc tam apspriežam atšķirības starp abiem.
Daudzos gadījumos ir pierādīts, ka maisiņiem, kuros izmanto sāknēšanas paraugu ņemšanu, klasifikācijas tresai ir augstāka precizitāte nekā vienam klasifikācijas kokam. Maisīšana ir viens no vecākajiem un vienkāršākajiem uz ansambļiem balstītajiem algoritmiem, ko var izmantot koku balstītajiem algoritmiem, lai uzlabotu prognožu precizitāti. Ir vēl viena uzlabota maisīšanas versija, ko sauc par Random Forest algoritmu, kas būtībā ir lēmumu pieņemšanas koku kopums, kas apmācīts ar maisīšanas mehānismu. Redzēsim, kā darbojas izlases meža algoritms un kā tas atšķiras no komplektēšanas, nevis komplektēšanas ansambļu modeļos.
Bootstrap apkopošana, kas pazīstama arī kā iepakošana, ir viens no agrākajiem un vienkāršākajiem uz ansambļiem balstītajiem algoritmiem, lai lēmumu koku padarītu stabilāku un panāktu labāku sniegumu. Maisīšanas ideja ir apvienot vairāku bāzes izglītojamo prognozes, lai izveidotu precīzāku rezultātu. Leo Breimans 1994. gadā ieviesa iepakošanas algoritmu. Viņš parādīja, ka sāknēšanas paņēmienu apkopošana var dot vēlamos rezultātus nestabilos mācību algoritmos, kur nelielas izmaiņas apmācības datos var izraisīt lielas prognožu variācijas. Sākotnējā slodze ir datu kopas paraugs ar aizstāšanu, un katrs paraugs tiek ģenerēts, vienmērīgi atlasot m lieluma apmācības kopu, līdz tiek iegūta jauna kopa ar m gadījumiem..
Nejaušais mežs ir uzraudzīts mašīnmācīšanās algoritms, kura pamatā ir ansambļu mācīšanās un Breimaņa sākotnējā maisīšanas algoritma evolūcija. Tas ir lielisks uzlabojums, salīdzinot ar maisiņiem lēmējkokiem, lai izveidotu vairākus lēmumu pieņemšanas kokus un apkopotu tos, lai iegūtu precīzu rezultātu. Breimans pievienoja papildu nejaušu variantu iepakošanas procedūrai, radot lielāku dažādību iegūto modeļu starpā. Nejaušie meži atšķiras no sakrāmētajiem kokiem, piespiežot koku augšanas posmā sadalīt tikai pieejamo pareģotāju apakškopu. Visi lēmumu pieņemšanas koki, kas veido izlases mežu, ir atšķirīgi, jo katrs koks ir veidots uz atšķirīgu izlases veida datu apakškopu. Tā kā tas samazina pārmērīgu aprīkošanu, tas mēdz būt precīzāks nekā viens lēmumu pieņemšanas koks.
- Gan maisīšana, gan izlases veida meži ir uz ansambļiem balstīti algoritmi, kuru mērķis ir samazināt to modeļu sarežģītību, kuri pārsniedz apmācības datus. Bootstrap apkopošana, ko sauc arī par maisiņu iepakošanu, ir viena no vecākajām un spēcīgākajām ansambļa metodēm, lai novērstu pārmērīgu aprīkošanu. Tā ir meta tehnika, kas paredz vairākus klasifikatorus, lai uzlabotu paredzamo precizitāti. Maisīšana vienkārši nozīmē izlases paraugu izņemšanu no mācību parauga aizstāšanai, lai iegūtu dažādu modeļu ansambli. Nejaušais mežs ir uzraudzīts mašīnmācīšanās algoritms, kura pamatā ir ansambļu mācīšanās un Breimaņa sākotnējā maisīšanas algoritma attīstība.
- Sākotnējās paraugu ņemšanas (maisiņu) jēdziens ir apmācīt neatgrieztu lēmumu koku ķekaru dažādās apmācības datu nejaušās apakšgrupās, ņemot paraugus ar nomaiņu, lai samazinātu lēmumu pieņemšanas koku atšķirības. Ideja ir apvienot vairāku bāzes izglītojamo prognozes, lai izveidotu precīzāku rezultātu. Ar nejaušiem mežiem maisīšanas procedūrai tiek pievienota papildu nejauša variācija, lai iegūtu lielāku dažādību starp iegūtajiem modeļiem. Nejaušo mežu ideja ir veidot vairākus lēmumu pieņemšanas kokus un apkopot tos, lai iegūtu precīzu rezultātu.
- Gan maisiņi koki, gan izlases meži ir visizplatītākie ansambļu mācību instrumenti, ko izmanto, lai risinātu dažādas mašīnmācīšanās problēmas. Bootstrap izlases veidošana ir meta-algoritms, kas izstrādāts, lai uzlabotu mašīnmācīšanās modeļu precizitāti un stabilitāti, izmantojot ansambļu mācīšanos, un samazinātu pārāk komplektu veidojošo modeļu sarežģītību. Nejaušais meža algoritms ir ļoti izturīgs pret pārmērīgu aprīkošanu, un tas ir labs ar nesabalansētiem un trūkstošiem datiem. Tā ir arī vēlamā algoritma izvēle prognozējošo modeļu veidošanai. Mērķis ir samazināt dispersiju, vidēji aprēķinot vairākus dziļu lēmumu pieņemšanas kokus, kas apmācīti dažādiem datu paraugiem.
Gan maisiņi koki, gan nejaušie meži ir visizplatītākie ansambļu mācīšanās instrumenti, ko izmanto, lai risinātu dažādas mašīnmācīšanās problēmas. Maisīšana ir viens no vecākajiem un vienkāršākajiem uz ansambļiem balstītajiem algoritmiem, ko var izmantot koku balstītajiem algoritmiem, lai uzlabotu prognožu precizitāti. Random Forests, no otras puses, ir uzraudzīts mašīnmācīšanās algoritms un uzlabota sāknēšanas paraugu ņemšanas modeļa versija, ko izmanto gan regresijas, gan klasifikācijas problēmām. Nejaušā meža ideja ir veidot vairākus lēmumu pieņemšanas kokus un apkopot tos, lai iegūtu precīzu rezultātu. Nejaušs mežs mēdz būt precīzāks nekā viens lēmumu pieņemšanas koks, jo tas samazina pārmērīgu aprīkošanu.