Datuen azterketa esploratzaile

Wikipedia, Entziklopedia askea
Datuen azterketa esploratzailean datu-diagramak maiz erabiltzen dira: horien helburua datuei buruzko informazioa jasotzea da, informazio hori, ostera, teknika estatistiko kuantitatiboen bitartez konfirmatzeko. Estatistika teknika klasikoetan, ordea, teknika kuantitatiboak aplikatzen dira lehendabizi eta ondoren datu diagramak emaitzak publikoari adierazteko soilik erabili ohi dira. Irudian, datuen azterketa esploratzailean maiz erabiltzen diren kaxa-diagramak.

Estatistikan, datuen azterketa esploratzailea (nazioartean EDA akronimoaz ezaguna dena, Exploratory Data Analysis ingelesezko lokuziotik) ikerketa estatistikoa egiteko ikuspuntu eta teknika-multzo bat da, datuetan dauden joerak, erlazioak eta egiturak hautemateko datuen beraien esploraketa edo azterketa sustatu eta estatistika klasikoan datuak islatzeko baliatzen diren ereduetarako hipotesi eta baldintzen aldez aurretiko egiaztapena nabarmentzen duena. Bereziki, datu-diagramen erabilera sustatzen du, zenbakizko azterketak datu multzoetako egitura sakona ezkutatu egiten duelakoan. Era berean, muturreko datuen mendean ez dauden estatistiko jasankorrak hobesten ditu, horiek zenbakizko azterketan duten eragina baztertzearren. Esploratzaile izenondoak datuen hasierako azterketari egin dio erreferentzia, azterketa konfirmatzailea edo datuen azterketarako eredu konplexuak aplikatu aurretik, baina behin betiko azterketa osotu moduan ere balia daiteke.

Historia[aldatu | aldatu iturburu kodea]

Datuen azterketa esploratzaileak XX. mendearen bukaeratik izan du zabalkunde handia. Estatistika-mugimendu honen hastapena 1962 urtean dagoela esan daiteke, EDA delakoaren aintzindaritzat jotzen den John Tukey estatubatuar estatistikariak The Future of Data Analysis (euskaraz, Datuen Azterketaren Etorkizuna) izenburuko artikulua plazaratu zuenean. Artikulu horretan, probabilitate-teorian oinarritutako inferentzia estatistikoaren mugak azaldu eta bere filosofia estatistikoaren printzipioak agertu zituen. Hurrengo urteetan, printzipio horietan oinarrituta metodo, prozedura eta teknikak garatu zituen, 1977 urteko Exploratory Data Analysis liburu ospetsuan bilduko zituena.

Hain zuzen, XX. mendearen hasieran, lagin txikietako datuetatik populazio batera zabaltzeko metodo eta prozedurak asmatu eta nagusitzen joan ziren, inferentzia estatistiko klasikoa osatu zutenak. Urteak aurrera joan ahala, ordea, metodo hauek dituzten aplikazio-mugak agerian geratu ziren, horiek aplikatu ahal izateko baldintzak zorrotzegiak baitziren (adibidez, populazioak banaketa normalari jarraitu behar diola baldintza arrunta da metodo klasikoetan). Oztopo hauek gainditu eta inferentzia-teknikak erabiltzeko baldintzak egiaztatzeko, estatistika ez parametrikoaren metodoak garatu ziren, bereziki Bigarren Mundu Gerraren ondoren. Tukeyk metodo horien aplikazio zabalari buruzko kritikak egin zituen[1]. EDA tekniken arrakastarako beste kausa data mining tekniken zabalkuntza izan da, non informatikaren garapenarekin batera gertatu zen, datu-multzo handiak esploratu beharra agerian geratu zenean.

Datuen azterketa esploratzailearen filosofia eta printzipioak[aldatu | aldatu iturburu kodea]

Teknika multzo bat bilakatu aurretik, datuen azterketa esploratzailea filosofia bat da, datuak aztertu eta estatistika egiteko oinarrizko modu bat alegia. Labur, datuen azterketaren beraren garrantzia nabarmentzen du, datuetan egiturak eta garrantzizko aldagaiak hautemateko, datuen eredu konplexuak eratu aurretik, eredu kuantitatiboek datuen izaera ezkutatu egiten baitute batzuetan. Horren adibide gisa Anscomberen laukote deritzon datu multzoa agertzen da, non lau datu-multzo hagitz ezberdinek emaitza berbera adierazten duten teknika estatistiko bat aplikatu ondoren[2]. Horrela, datuak beraiek zenbat eta hobeto aztertu, horiei buruzko teoria sakonago garatu ahal izango dela baieztatzen da[3].

Horretarako printzipio hauek jarraitzen ditu datuen azterketa esploratzaileak:

  • datuak modu kuantitatibo batez aztertu aurretik esploratzeko eta datuak modu argian laburtu, irudikatu eta horien arteko erlazio konplexuak azaltzeko, datuen adierazpide grafiko egokiak erruz erabili behar dira[4]; estatistika klasikoan ez bezala, EDAko grafikoak ez dira datuak publikoari erakusteko, datuak aztertzeko baizik, eta ez dira hautazkoak datuak behar bezala aztertzeko derrigorrezkoak baizik [5];
  • baliatzen diren teknikek datuen osotasuna eta horietan dauden egitura eta erlazioak atxiki behar dituzte;
  • datuen aldakuntza sinpleak (erro karratua, logaritmoa, ...) maiz burutu behar dira, datuak eskala egokiago batera aldatu eta euren ezaugarriak argiro azal ditzaten;
  • muturreko datuak hautemateko ahalegin berezia egin behar da, teknika estatistikoen emaitzetan duten eragina kontrolatzeko;
  • muturreko datu horien eraginez ez dauden neurri estatistiko, prozedura eta teknika jasankorrak baliatu behar dira;
  • EDA estatistika-atazetan finkatutako ikuspegia da: estatistika-teknikak ataza horietarako tresnak besterik ez dira[6]; horrela, estatistika-teknikak EDA edo datuen azterketa esploratzaileak azaldutako egituren konfirmatzaile izan behar dira[7].

Tresna esploratzaileak[aldatu | aldatu iturburu kodea]

Adar eta orrien diagrama[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Adar eta orrien diagrama»

Histogramaren antzera irudikatzen ditu datuak adar eta orrien diagramak, baina jatorriko datuen zehaztasuna galdu gabe. Berari esker, datuak modu laburtuago batez gorde eta azaltzen dira.

Adar eta orrien diagrama. Adierazpide grafiko honi esker, datuak modu trinkoago eta argiago batez azaltzen dira eta maiztasunei buruzko informazioa ere ematen da, jatorriko datuen zehaztasuna galdu gabe. Irudian, ezker aldean ikasle zenbaiten kalifikazioak agertzen dira; eskuin aldean, datu horiei dagokien adar eta orrien diagrama: ikusten denez, kalifikazioa arruntena 5 ingurukoa da.

Kaxa-diagrama[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Kaxa-diagrama»
Irudian, neska eta mutil zenbaiten kalifikazioei dagozkien kaxa-diagramak agertzen dira: mutilek oro har edo batezbestez kalifikazio txikiagoa izaten dute (mutilek 5 inguruan eta neskek 7 inguruan, mediana adierazten duen kaxako marra beltzak erakusten duen moduan) eta kalifikazio sakabanatuagoak ere izaten dituzte (muturreko bi kuartilek mugatzen duten kaxaren zabalerak adierazten duen moduan). Nesken kalifikazioetan bada muturreko datu bat, puntu batez adierazten dena.

Kaxa-diagramak, box plot izenez ezaguna nazioartean, datu multzo bati buruz azter daitezkeen ezaugarri estatistiko guztiak (zentroa, sakabanatzea, alborapena eta kurtosia) modu grafikoan eta begirada batez aztertzeko aukera ematen du. Gainera, azterketa mota honetan nabarmentzen diren muturreko datuak hautemateko irizpide bat zehazten du. Hori guztia dela eta, datuen azterketa esploratzailearen filosofia azaltzeko gehien aipatzen den diagrama da. Bereziki erabilgarria da multzo zenbait aldagai bati buruz alderatu behar direnean, irudian azaltzen denez.

Zentro neurriak[aldatu | aldatu iturburu kodea]

EDA delakoan datuen laburpenerako neurriak ere erabiltzen dira, baina bere balioa mugatua da. Tukeyk berak baieztatu zuenez:

« Laburpenak oso erabilgarriak izan daitezke, baina ez dira detaileak[8]. »


Estatistika klasikoan gehien erabiltzen zentro joerako neurria batezbesteko aritmetiko sinplea da. Hain zuzen, gehien erabiltzen diren hipotesi-frogak batezbesteko horretan oinarritzen dira. Batezbesteko aritmetiko sinplea oso sentikorra da muturreko datuekiko, ez da neurri jasankorra, alegia. Muturreko datuek estatistika teknika klasikoak baliogabetu egiten dituztela eta, datuen azterketa esploratzaileak zentro joera adierazteko beste zenbait neurri proposatzen ditu, hala nola mediana, kuartil arteko ibiltarte-erdia, hiruko batezbestekoa, moztutako batezbestekoa eta winsortarturiko batezbestekoa. Mediana da guztietan sinpleena: datuak ordenaturik, erdian dagoen datuak hartzen duen balioa da eta ez dago muturreko datuen mendean. Kuartil arteko ibiltarte-erdia lehenengo eta hirugarren kuartilen batezbestekoa da. Hiruko batezbestekoa lau datuen batezbestekoa da: lehenengo eta hirugarren kuartilak eta, bi aldiz, mediana. Moztutako batezbestekoetan muturreko datuak, muturretan geratzen diren datu guztien portzentaje batez adierazita, ezabatu egiten dira eta gainerakoekin batezbesteko artimetiko sinplea kalkulatzen da. Winsortarturiko batezbestekoetan, azkenik, muturreko datuak muturrekoak ez diren datu handienarekin eta txikienarekin ordezten dira, hurrenik hurren[9].

Sakabanatze neurriak[aldatu | aldatu iturburu kodea]

Sakabanatze neurrietan datuen azterketa esploratzailean erabiltzen neurria kuartil arteko ibiltartea da, lehenengo kuartiletik hirugarren kuartilera dagoen dagoen distantzia adierazten duena. Kaxa-eta-beso diagraman integraturik agertzen da: kaxaren zabalera besterik ez da. Horrela, kaxa-eta-beso diagrama batzuk batera aztertzean, sakabanatze-mailak kaxen zabalerei erreparatuz erkatuko dira. Muturrak baztertzen dituenez, neurri jasankorra da baia ere, EDA delakoaren filosofiari jarraiki.

Kanpo estekak[aldatu | aldatu iturburu kodea]

  1. (Ingelesez) Dempster, A. P.. (2002). «JOHN W. TUKEY AS “PHILOSOPHER”» The Annals of Statistics..
  2. (Ingelesez) EDA/Graphics Example, Engineering Statistics Handbook, 2012-01-02an kontsultatua.
  3. (Ingelesez) Hartwig, Frederick; Dearing, Brian E.. (1979). Exploratory data analysis. , 9 or...
  4. (Ingelesez) Ellison, Aaron M.. (1993). Exploratory Data Analysis and Graphic Display. .[Betiko hautsitako esteka]
  5. (Ingelesez) Exploratory Data Analysis, EDA Introduction, The Role of Graphics, Engineering Statistics Handbook, 2011-12-30ean kontsultatua.
  6. (Ingelesez) Andrienko, Natalia; Andrienko, Gennady. (2005). EDA: Tasks, Tools, Principles. .
  7. (Ingelesez) Behrens, John T.. (1997). «Principles and Procedures of Exploratory Data Analysis» Psychological Methods.[Betiko hautsitako esteka]
  8. (Ingelesez) Tukey, John. (1977). Exploratory Data Analysis. 27 or..
  9. (Ingelesez) Chong-ho Yu. Exploratory data analysis and Data visualization. ..