Sakabanatze (estatistika)

Wikipedia(e)tik
Sakabanatze neurri» orritik birbideratua)
Hona jo: nabigazioa, Bilatu
Batezbestekoa ez da nahikoa datu multzoak bereizteko: irudiko bi banakuntzek zentro berdina badute ere, berdez marraztutakoa sakabanatze handiagoa du.

Estatistikan, sakabanatzea edo dispertsioa aldagai bakarreko datu multzo edo probabilitate banaketa baten aldakortasun edo heterogeneotasuna aztertzen duen ezaugarria da. Adibidez, A:(1,4,7) eta B(3,4,5) datu multzoak harturik, A datu multzoa sakabanatuagoa dela esango da, tarte handiago batean zehar zabaldu eta datuak gehiago aldentzen direlako 4 balioa hartzen duen batezbestekotik. Probabilitate teorian, ziurgabetasunaren neurri moduan erabiltzen da maiz.

Estatistikan gehien aztertzen den ezaugarri bat da, zentralizazioarekin batera, datuen zentroa ez baita nahikoa izaten datu multzoak bereizteko. Zentroaren eta sakabanatzearen zenbatespenak, berriz, aski izaten dira egoera askotan datu-multzoak eta probabilitate-banaketak zehaztu eta finkatzeko, banaketa normalaren kasuan esaterako. Horretaz gainera, sakabanatze neurriak batezbesteko baten fidagarritasun edo adierazgarritasuna zehazteko, aldagaiak kontrolatzeko (adibidez, lantoki bateko ekoizpen-datuak ohiko mugetatik aldentzen ari ote diren aztertzeko), datu multzoak eta probabilitate banaketak alderatzeko eta beste neurri estatistiko batzuk eratzeko erabiltzen dira. Muturreko datuak hauteman eta estandarizazio izeneko eragiketaz datu multzo ezberdinetako datuak alderatzeko ere erabiltzen dira.

Gehienetan, sakabanatzea aldagai kuantitatiboei buruzkoa da, baina aldagai kualitatiboen sakabanatzea ere azter daiteke, beste ikuspuntu batetik bada ere. Nolanahi ere, sakabanatzea kontzeptu abstraktua da, hedapena, zabalera, aldakortasun eta desbideratze moduan interpretatzen dena. Horregatik, anitz dira sakabanatzea neurtzeko proposatu diren neurriak. Bi sailetan banatzen dira: sakabanatze neurri absolutuak, datu multzo eta probabilitate banaketa bakar baten aldakortasuna neurtzeko baliatzen direnak, eta sakabanatze neurri erlatiboak, bi datu multzo alderatzeko erabiltzeko egokiak.

Sakabanatze neurriak: distantzia neurriak eta batezbesteko desbideratze neurriak[aldatu | aldatu iturburu kodea]

Sakabanatze neurri bat eratzeko bi modu daude funtsean:

  • distantzia-neurri batean bi datu edo gehiagoren arteko distantzia edo aldea kalkulatzen da (adibidez, datu handiena ken datu txikiena);
  • batezbesteko desbideratze-neurri batean, datu guztiak harturik, balio zehatz eta finko batera duten desbideratzeen batezbesteko bat kalkulatzen da.

Distantzia-neurrien abantaila nagusia kalkulurako erraztasuna da, baina eragozpen moduan ez dute jasotzen datu guztietan biltzen den informazioa. Batezbesteko desbideratze-neurri batean kontuan datu guztiak hartzen badira ere, kalkulua konplexuagoa da.

Distantzia-neurriak

Batez besteko desbideratze-neurriak


Datu-multzo baterako (datuak berdez agertzen dira, puntu diagrama bat osatuz) distantzian oinarritutako sakabanatze-neurri zenbait: ibiltarteak datu txikienetik handienerako distantzia neurtzen du. Muturreko datuek ibiltartean duten eragina saihesteko, kuartil arteko ibiltartea (datuen %80aren ibiltartea) eta dezil arteko ibiltartea erabil daitezke.
Batez besteko desabideratzeko sakabanatze-neurriak: (4,8,15) datuen batezbesteko aritmetiko sinplea 9, batezbestekorako desbideratzeak, (d=5,d=1,d=6) balio absolutuan, gorriz adierazten dira gezien bitartez; sakabanatze-neurri moduan, desbideratze hauen batezbesteko aritmetiko sinplea har daiteke: S=(5+1+6)/3=4.

Sakabanatze neurri absolutuak eta erlatiboak[aldatu | aldatu iturburu kodea]

Sakabanatze neurri absolutuak eta erlatiboak ere bereizten dira. Sakabanatze neurri absolutuak datu multzo baten baitan dagoen aldakortasun maila absolutua neurtzen dute, aldagaiaren unitatetan. Sakabanatzea neurtzen duten jatorriko neurriak dira, distantzian eta batez besteko desbideratzean oinarritzen direnak. Ezin dira, ordea, erabili, datu multzo ezberdinetako sakabanatzeak alderatzeko, batezbesteko edo erreferentzia ezberdinei buruz kalkulatu direlako.

Oztopo hau gainditu eta horrela datu multzoen arteko sakabanatze-mailak alderatu ahal izateko sakabanatze-neurri erlatiboak erabiltzen dira, horretarako dimentsio edo unitaterik gabeko koefizienteak erabiliz eta sakabanatze-neurri absolutua dagokion zentro-neurriarekin alderatuz askotan (ikus, esaterako, ibiltarte-erdia eta desbideratze estandarra, hurrengo taulan). Adibidez, bariedade bateko tomate aleen pisuak jasotzen dituen datu-multzo baten baitan batezbesteko desbideratze-neurri bat 100 gramukoa bada, batezbestekoa 300 gramukoa izanik, eta beste bariedade batean desbideratze-neurria 100 gramukoa bada, baina 500 gramuko batezbesteko baten inguruan, bigarren kasuan sakabanatzea erlatiboki txikiagoa da: 100/300=%33.3koa lehen kasuan eta 100/500=%20koa bigarrenean. Konparazio erlatiboa datuak unitate ezberdinetan jasota dauden kasuetarako ere baliagarria da, sakabanatze-neurri erlatiboek ez baitute unitaterik, eta oro har ehuneko baten bitartez adieraz baitaitezke.

Sakabanatze-neurri absolutuak kasu bakar batean erabil daitezke bi datu-multzoen arteko sakabanatze-mailak alderatzeko: batezbesteko berdina eta unitate berdinetan dutenean.


Neurri absolutua Formula Dagokion neurri erlatiboa Formula
Ibiltartea I=x_{max}-x_{min} Ibiltarte-koefizientea \frac{x_{max}-x_{min}}{x_{max}+x_{min}}
Ibiltarte erlatiboa \frac{I}{\overline{x}}
Ibiltarte-erdia \frac{x_{max}-x_{min}}{2} Ibiltarte-koefizientea \frac{\frac{x_{max}-x_{min}}{2}}{\frac{x_{max}+x_{min}}{2}}=\frac{x_{max}-x_{min}}{x_{max}+x_{min}}
Kuartil arteko ibiltartea IQR=Q_3-Q_1 Kuartilen aldakortasun koefizientea \frac{Q_3-Q_1}{Q_3+Q_1}
Kuartilen desbideratzea \frac{Q_3-Q_1}{2} Kuartilen aldakortasun koefizientea \frac{\frac{Q_3-Q_1}{2}}{\frac{Q_3+Q_1}{2}}=\frac{Q_3-Q_1}{Q_3+Q_1}
Batez besteko desbideratze absolutua D=\frac{1}{N} \sum_{i=1}^N|x_i - \overline{x}|\, Desbideratze absolutuaren koefizientea \frac{D}{\overline{x}}
Desbideratze estandarra s_X = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2}\, Aldakortasun-koefizientea \frac{s_x}{\overline{x}}
Desbideratze absolutuen mediana 
\operatorname{DAME} = \operatorname{Me}_i\left(\ \left| X_{i} - \operatorname{Me}(X_{j}) \right|\ \right) \,
Desbideratze absolutuen medianaren koefizientea \frac{DAME}{Me}
Batez besteko diferentzia (Gini) g=\frac{1}{n(n-1)}\sum_{i,j}|x_i-x_j| Batez besteko diferentzia erlatiboa \frac{g}{\overline{x}}

Kanpo loturak[aldatu | aldatu iturburu kodea]

Commonsen badira fitxategi gehiago, gai hau dutenak: Sakabanatze (estatistika) Aldatu lotura Wikidatan