Inferentzia estatistiko

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu
Saskiko intxaurrak nolakoak diren jakiteko intxaur bat puskatzen denean ere inferentzia estatistikoa egiten da: intxaur guztien populazioren kalitatea lagin baten bitartez zenbatesten da.

Inferentzia estatistikoa, estatistika inferentziala edo estatistika induktiboa datu multzo batetik abiatuz populazio edo zorizko fenomenoetako ezaugarri ezezagunei buruzko ondorioak ematen dituen estatistika adarra da. Adibidez, inferentzia estatistikoaz hiri bateko biztanle guztien batezbesteko adina horietatik lagin bat (populazio osotik biztanle batzuk soilik) aukeratu eta hauei inkesta bat eginez zenbatetsi egin daiteke ; beste alde batetik, hiri bateko heriotza kopuruari buruz azken urteotako datuak jasota, aldagai horri buruz ezarritako zorizko ereduaren ezaugarriak (erabat zorizkoa den eta joera bati jarraitzen dion) hurbildu daitezke. Inferentzia estatistikoan erabiltzen diren datuak zoriz gertatzen dira edo laginezkoak direla suposatzen da eta, beraz, ondorioetan errore bat sortzen dela pentsatzen da beti, laginak eta datu-multzoak beti mugatuak direlako (beti suerta baitzitezkeen bestelako laginak edo datuak, praktikan suertatu den lagin bakarrarekin lan egiten bada ere). Inferentziaren helburua datuetan oinarritutako ondorioetan dagoen lagin eta zorizko errore hori neurtu eta kontrolatzea da. Horrela, inferentzia estatistikoak estatistika deskribatzaileak dituen tresnak gainditu eta ematen dituen ondorioak zehaztu egiten ditu, datuak deskribatzeaz emaitza estatistiko orotan dagoen ziurgabetasun edo errorearen neurri bat emanez. Horretarako, inferentziak probabilitate teoria eta matematikaren tresnak erabiltzen ditu.

Zehatzago, inferentzia estatistikoak populazioen handien laginketa diseinatu eta burutu, parametro ezezagunen zenbatespena egin, parametro horiei buruzko konfiantza-tarteak osatu eta estatistika frogak (non parametro edo bestelako ezaugarri bati buruzko hipotesi bat onartu edo baztertzen den) burutu eta denborazko aldagaiei buruzko aurresanak egiten ditu. Bere aplikazioak zientziaren arlo askotan gertatzen dira: meteorologian, eguraldiaren bilakaerari buruz eratutako zorizko ereduak zehaztu egiten ditu; ekonomian, aldagai ekonomikoei buruzko aurresanak ematen ditu; soziologian, populazio oso bateko ezaugarriak zenbatesten ditu lagin batean oinarrituz; biologian ere populazioetako ezaugarriak inferitzen ditu jasotako ale bakanei buruzko datuak aztertuz eta ingeniaritzan ekoizpen-prozesuen parametroak zehazten ditu egunez eguneko datuak aztertuz. Zientzian maiz egiten diren esperimentuetan ere funtsezko tresna da, inferentzia estatistikoaz kontrolatzen diren faktoreak eragingarriak direlako hipotesiak onartu edo baztertu egiten baitira, esperimentu hauetan izan daitekeen errorea kontrolatuz.

Inferentzia estatistikoaren modu zenbait dago, datuek ematen informazioaren erabilera, erabilitako zoriaren kontzeptualizazio eta inferentzia garatzeko tresna matematiko ezberdinetatik abiatzen direnak. Praktikan, bi dira gehien erabiltzen diren inferentzia-moduak: inferentzia klasiko edo maiztasun-inferentzia eta bayestar inferentzia, Bayesen teoreman oinarritzen dena. Ronald Fisher estatistikariak egun praktikan bazterturik dagoen estatistika fiduzial izeneko inferentzia-modua garatu zuen. Beste alde batetik, inferentzia-metodoetan estatistika parametrikoa eta estatistika ez parametrikoa ere bereizten dira. Estatistka parametrikoan, inferentziak aurrez ezarritako zorizko eredu baten parametroak zenbatestea du helburu, gehienetan datuen sorrerari buruzko hipotesi zorrotzak ezarriz. Estatistika ez parametrikoan, datuen izaerari buruzko aparteko hipotesi edo eredurik aurrez finkatu gabe.

Laginak edo inferentziarako datuak[aldatu | aldatu iturburu kodea]

Inferentziak datuetatik egiten dira, baina datu horiek ez dira nolanahikoak izan behar. Lehenbizi, inferentziaren datuek lagin bat osatzen dutela hartu behar kontuan eta beraz, ez dute guztiz irudikatzen aztertzen den populazioa edo zorizko fenomenoa. Halatan, lagina osotasuna modu adierazgarri batez islatu behar du eta horretarako datuak zoriz jaso behar dira.

Zorizko fenomeno bat aztertu behar denean, datuak zoriz jasotzen direla ziurtatzeko datuak elkarrekiko independenteak izan behar dira. Horrela, datu bakoitza jasotzeko probabilitateak berdinak izango dira eta datuen azterketa errazago burutuko da. Orduan, lagina zorizko laginketa sinpleaz osatu dela esaten da. Populazio finituetan, berriz, datuak laginketaz izeneko prozesu batez jasotzen dira, populazioa osatzen duten elementuak (pertsonak, adibidez) banan banan aukeratuz. Laginketa modu sinpleenean, elementuak banan-banan aukeratzen dira populaziotik, guztiei aukera berdinak emanez (zorizko zenbakiak erabiliz, adibidez); baina populazioak ezaugarri bereziak dituenean, bestelako laginketa-metodoak erabil daitezke: adibidez, populazioaren baitan ezaugarri ezberdinetako multzoak edo "geruzak" daudenean, geruza bakoitzetik egingo da laginketa, laginketa geruzatua alegia, laginean geruza guztietako elementuak izango dituztela ziurtatuz; aitzitik, populazioa oso homogeneoa denean, elementuak zoriz jasotzea ez da beharrezkoa eta nahikoa da populazio zati bat oso osorik aztertzea, konglomeratuzko laginketaz (Euskal Herriko haurren altuerari buruzko ikerketa bat egiteko, ez da beharrezkoa haur guztien zerrenda osatu eta bertatik zoriz aukeratzea: eskola bat aukeratu eta bertako haur guztiak aukeratzea eraginkorragoa da). Saiakuntzaren bitartez faktore zenbaiten eragina ikertu nahi denean, datuak zoriz jasotzeaz gainera, faktore ezberdinen arteko konbinazio guztiak edo konbinazio-egitura orekatu bat lortu behar da datuetarako.

Inferentzia klasikoa[aldatu | aldatu iturburu kodea]

Inferentzia klasikoan parametro estatistikoak kopuru ezezagunak dira eta beraiei buruz ez dago inongo informaziorik aurretik. Parametro hauei buruzko informazio osoa datuek emango dute, zenbatesle izeneko formuleen bitartez. Adibidez, toki bateko batezbesteko tenperatura (\mu\, parametroa) zenbatesteko egun zenbaitetako tenperaturen batezbesteko aritmetiko sinplea (\overline{x} zenbateslea) balia daiteke eta honela idatziko da: \hat{\mu}=\overline{x}. Orohar, \theta\, parametro baten edozein zenbatesle \hat{\theta}\, idatziko da.

Datuak zorizkoak direnez, zenbatesleek balio aldakorrak hartuko dituzte laginaren arabera. Beraz, zenbatesleen balioak zorizko aldagaitzat hartu eta probabilitate banaketa bat izango dute, zenbateslearen lagin banaketa izenekoa. Zenbatesleen izaera aldakor horretan, parametroen balio ezezagunera zuzen eta zehatz hurbiltzen den aztertuko da, zenbatesleen alboragabetasuna, zehaztasuna eta bestelako propietateak zehaztuz.

Propietate egokiak dituen zenbatesle bat eratzeko metodo zenbait dago: egiantz handienaren metodoak lagin jakin bat suertatzeko probabilitate handiena ematen duen parametroa ezartzen du eta momentuen metodoak populazio-momentuak lagin-momentuekin berdintzen ditu (populazio batezbestekoa lagin batezbestekoaren bitartez zenbatetsiz, esaterako).

Datuak zenbatesleen formulan ordezten direnean, zenbatesleak balio bat ezartzen dio parametroari: puntu-zenbatespen egiten dela esaten da. Zenbateslearen lagin banaketatik abiatuta, ordea, parametroari buruz egindako zenbatespenaren fidagarritasuna zehazten duen konfiantza-tarte bat eman daiteke (adibidez, %99ko konfiantzaz populazio bateko batezbestekoa 2.34-4.66 tartean dagoela adieraziz).

Zenbatespenez gainera, parametroak froga estatistiko bitartez ere kuantifika daitezke. Froga estatistiko parametrikoetan, ikertzaileak parametroei buruzko hipotesi bat ezartzen du eta hipotesi hau datuen aldean jartzen du, hipotesia onartu edo baztertzeko. Adibidez, populazio batezbestekoa 4 baino txikiagoa dela baztertuko da, lagin batezbestekoa 4.66 baino handiagoa denean. Hipotesia onartu eta baztertzean, erabaki okerra hartzeko probabilitateak edo erroreak sortzen dira eta ikertzaileak horiek kontrolatu behar ditu.

Ezarritako eredu baten parametroak zenbatetsi edo kontrastatu direla, prozesuan suposatu direnak egiazkotzat jo daitezkeen erabaki behar da. Adibidez, datuak benetan zoriz jaso diren, aurrez ezarrtiako eredua bera egokia den edota datuak populazio homogeneo batetik datozen. Froga hauek ez-parametrikoak dira, hauetan datuen izaerari buruz aurrez suposiziorik egiten ez delako. Balioztaketa azken fase honen ondoren, eredua, kuantifikatu diren parametroekin batera, onartuta edo baztertuta geratuko da eta inferentzia klasikoaren prozesuari amaiera emango zaio: eredua onartzen bada modu egokian egin dela suposatzen bada, eredua erabiltzeko prest izango da; ereduari buruzko suposizioak edo populazioko parametroak modu egokian zenbatesteko baldintzak betetzen ez badira, hasierara itzuli eta eredu berri bat planteatu edota lagin berri bat bildu beharko da.

Commonsen badira fitxategi gehiago, gai hau dutenak: Inferentzia estatistiko Aldatu lotura Wikidatan