Naive Bayes sailkatzaile

Wikipedia, Entziklopedia askea

Datu meatzaritzan, Naive Bayes sailkatzailea Bayes-en teoreman eta aldagaien arteko independentziaren hipotesian oinarritzen den sailkatzaile probabilistiko bat da. Aldagaiak independente direla suposatzeak eragiten duen sinplifikazioagatik hartzen du, hain zuzen ere, Naive izena.

Sarrera[aldatu | aldatu iturburu kodea]

Naive Bayes sailkatzailean suposatzen da, ezaugarriak elkarren artean independenteak direla, klase aldagaia emanda. Adibidez, fruta bat sagarra dela esan genezake gorria bada, biribila, eta gutxi gorabehera 7 cm-ko diametroa badu. Naive Bayes sailkatzailearen arabera, ezaugarri horietako bakoitzak modu independentean eragiten du sagar izateko probabilitatean. Koloreari buruzko ezaugarriak, formari buruzkoak eta diametroari buruzko informazioa ematen duten aldagaien artean Korrelaziorik ez dela existitzen suposatzen da, hortaz.

Aldagaien independentziaren hipotesiak eragiten duen sinplifikazioari esker, sailkapena egiteko behar diren parametroak estimatzeko datu kopuru txikia behar da entrenamenduan, eta hori abantaila handia da.

Kontzeptu probabilistikoa[aldatu | aldatu iturburu kodea]

Naive bayes sailkatzailea eredu probabilistiko bat da: bektorearen bidez adierazitako kasu berria izanik,

probabilitateak kalkulatuko ditu klase-aldagaiaren balio bakoitzerako. balioek aldagai iragarleri edo ezaugarriri buruzko informazioa ematen dute, ren iragarpenean aldagai horiek independenteak direla suposatuz. Ereduaren formulazio horrek duen arazoa da, aldagai iragarle kopurua handia denean edo aldagaiek har ditzaketen balio kopurua handia denean, eredua probabilitateen taula batean oinarritzea bideraezina gertatzen dela. Bideragarria izan dadin, ereduaren beste formulazio bat ematen da.

Bayesen teorema erabiliz, baldintzazko probabilitatea horrela idatz daiteke:

Adierazpen horretan, garrantzi handiena duen balioa zenbakitzailea da. Izan ere, izendatzaileak ez du klase aldagaiarekiko mendekotasunik, eta beraz, konstantea da. Zenbakitzailea baterako probabilitatearen bidez adieraz daiteke:

Katearen erregela aplikatuz eta baldintzazko probabilitatearen definizioa behin eta berriz erabiliz, adierazpena honela berridatz daiteke:

eta horrela guztietarako. Orain, aldagaien arteko baldintzazko independentzia "naïve" edo sinplea hartuko da kontuan. Aintzat hartuko dugu aldagai iragarle guztiak independenteak direla beraien artean, ez dutela elkarrekiko eraginik, hau da, edozein independentea izango dela beste edozein -rekiko, izanik. Beraz,

izanik, probabilitate konposatua horrela adieraz daiteke:

Hortaz, klase aldagaiaren baldintzazko banaketa horrela adierazita geratuko da:

,

non -ren balioa aldagai iragarleen araberakoa den soilik; beraz, balioak ezagunak direnean konstantea da.

Eredu probabilistikotik sailkatzailea eraikitzea[aldatu | aldatu iturburu kodea]

Aurreko atalean, Bayesen teorematik eta aldagai iragarleen independentziaren hipotesitik Naive Bayes eredu probabilistikoa garatu da.

Naive Bayes sailkatzailea eraikitzeko, eredu hori erabakitze-erregela batekin konbinatzen da. Normalean probabilitate handieneko hipotesia aukeratzen da, ingelesez Maximum a posteriori estimation edo MAP izenez ezagutzen dena. Horren arabera, Naive Bayes sailkatzaileak klasea esleituko dio klase-aldagaiari, non


Probabilitateen estimazioen zuzenketa[aldatu | aldatu iturburu kodea]

probabilitateen estimazioak entrenamendurako datu-base batean oinarrituz egiten direnean, kontatu egiten da klasekoak diren kasuen artean zenbatetan hartzen duen aldagai iragarleak balioa, hau da,

,

non, den klaseko kasuen artean zenbatek duten dagokion aldagai iragarlean balioa, eta den klasekoa den kasu kopurua.

Baina, gerta daiteke bilatutako balioa datu-basean ez aurkitzea. Hori arazo bat da, biderkatzean probabilitatearen estimazio osoa zero bihurtzen delako, hau da:

Arazo hori ekiditeko, ohikoa da estimazioen zuzenketa egitea. Probabilitate teorian, probabilitateen estimazioen zuzenketak egiteko Pierre-Simon Laplace matematikariak proposatutako formula erabili ohi da. Ingelesez Rule of succession izenez ezagutzen da, eta diotenez, Laplacek eguzkia zeruertzetik ateratzeko zegoen probabilitatearen bila ari zenean eman zuen.

Zuzenketa aplikatuta, probabilitatearen estimazioa horrela kalkulatzen da:

non,

: klaseko kasuen artean zenbatek duten balioa aldagai iragarlean
: klaseko kasu kopurua
aldagai iragarlearen balio kopurua

Eztabaida[aldatu | aldatu iturburu kodea]

Nahiz eta irismen handiko sailkatzaileak askotan oso zehatzak ez izan, Naive Bayes sailkatzailea, dituen hainbat ezaugarriri esker, praktikan oso erabilgarria gertatzen da. Aldagaiak independenteak direla suposatzeari esker, probabilitateak modu independentean estima daitezke. Horrela, ezaugarri kopurua handitzearekin batera esponentzialki haziko litzatekeen datu kopuruaren beharra arintzea lortzen da.

Naive Bayes sailkatzaileak probabilitateen estimazio zehatza itzultzen ez duen arren, aplikazio askotan hori ez da beharrezkoa gertatzen. Izan ere, Naive Bayes sailkatzailearen iragarpena MAP erabakitze-erregelaren arabera egiteko, nahikoa da handieneko klasea aukeratzea. Iragarpena egokia izango da eta sailkatzailea sendoa, nahiz eta probabilitatearen balio zehatza ez eman, proportzionala den balio bat baizik.

Erreferentziak[aldatu | aldatu iturburu kodea]

Artikulu honetako edukia wikipediako gaztelerazko es:Clasificador bayesiano ingenuo artikulutik itzuli da.

Kanpo estekak[aldatu | aldatu iturburu kodea]

Ikus, gainera[aldatu | aldatu iturburu kodea]

Bayesen teorema Datu-meatzaritza Ikasketa automatiko