Wilcoxonen zeinu froga

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu

Estatistikan, Wilcoxonen zeinu froga bi lagin dependenteri edo lagin bakarreko bi neurketa errepikaturi dagozkien populazioetako medianen berdintasuna kontrastatzeko estatistika-froga ez parametriko bat da.

Adibidez, honako egoera hauetan erabil daiteke:

  • haur multzo bati jolas berri bat proposatu ondoren, aurretik eta ondoren duten matematikarako trebetasun-maila hobetu den erabakitzeko;
  • elikagai berri bat hartu aurretik eta ondoren behi multzo batean jasotako esne-ekoizpenetarako, botika hartu aurretik eta ondoren eske-ekoizpena berdina den frogatzeko;

Populazio baten mediana aurrez ezarritako balio bat baino handiagoa edo txikiagoa den erabakitzeko ere erabil daiteke. Adibidez, 45 urteko emakumeek egunero hartu beharreko kaloria kopurua 200 unitatekoa izatea komeni dela ezarri bada, egun batean emakume zenbaitengan neurketa eginez gero, gomendioa betetzen den erabakitzen du Wilcoxonen froga honek[1].

Froga ez parametrikoa da, hau da, bi populazioei buruzko aurretiko hipotesi gogorrik ez du ezartzen: lagina zoriz jaso izana, populazioa medianaren inguruan simetrikoa izatea [2] eta aldagaiak ratio edo tarte motakoak izatea[1] soilik eskatzen du. Bada Studenten t-froga parametriko bat egoera berean aplikagarri baina populazioak normalak direla suposatzen du. Helburu bera duten beste froga ez parametriko zenbait ere badaude, zeinuen froga binomiala esaterako, erabilgarria populazioa simetrikoa ez denerako[1]. Froga Frank Wilcoxon kimikariak asmatu zuen 1945 urteko artikulu batean[3], bi lagin independenteren berdintasunerako froga batekin batera, Wilcoxonen hein froga izenekoa, baina gerora orokorrago Mann-Whitney U froga deituko zena. Nolanahi ere, Wilcoxonen zein frogari buruz ari den zehaztea komeni da.

Frogarako kalkuluak[aldatu | aldatu iturburu kodea]

Adin bereko 6 haurri matematika-azterketa bat egin zaie, Xi puntuazioak jasoz. Jarraian, matematika trebakuntzarako jolas berri batean aritu dira astebetean. Ondoren, matematika-azterketa egin zaie berriz ere eta Yi puntuazioak jaso dira. Jolasak matematika-trebetasuna hobetu duen frogatu behar da.

  1. Haur bakoitzak aurretik eta ondoren lortutako puntuazioen kenketa egiten da.
  2. Kenketaren zeinua adierazten da.
  3. Kenketaren balio absolutua (BA) kalkulatzen da.
  4. Balio absolutuak ordenatzen dira, heinak emanez, txikienetik handienera.
  5. Arestian emandako zeinuak esleitzen zaizkie heinei azken bi zutabeetan, zeinua zein den taulak bereiztuz.
Haurra (i) Xi Yi Xi – Yi Zeinua (Xi – Yi) BA(Xi – Yi) Maila(BA) -(Maila) +(Maila)
1 86 90 -4 - 4 3 3
2 75 72 3 + 3 2 2
3 84 92 -8 - 8 4 4
4 61 74 -13 - 13 6 6
5 68 66 2 + 2 1 1
6 71 78 -7 - 7 5 5
7 70 85 -15 - 15 7 7

Frogarako estatistikoak zeinuzko mailen baturak dira:


W_- =25\, ; \ \  W_+ =3\,


Kalkuluak ongi ote diren egiaztatzeko, konprobazio hau egin daiteke:

W_- + W_+ =\frac12n(n+1)

Adibidean, kalkuluak ongi burutu dira:

25+3=\frac12 \times 7 \times 8


Gehienetan, W+ soila da erabiltzen dena froga estatistikarako software-pakete baten bitartez burutzen denean[4]. Frogarako eskuko taulak erabiltzen badira, berriz, W+ zein W- estatistikoak erabiltzen dira.

W+/W- estatistikoetarako taulak[aldatu | aldatu iturburu kodea]

Froga burutzeko, froga alde bakarrekoa edo bikoa den ezarri behar da. Kasu honetan, jolasak trebetasuna hobetu ote duen (eta ez soilik trebetasuna aldatu den) erabaki behar denez, frogak norabide jakina eta alde bakarrekoa da.

Hipotesi nuluan, X eta Y bi populazioek (haurren puntuazioak aurretik eta ondoren) mediana berdina dutela suposatzen da. Hipotesi alternatiboa zein den, W+ edo W- estatistikoari erreparatu beharko zaio:

  • hipotesi alternatiboak ondorengo Y populazioak mediana handiagoa duela ezartzen badu (bigarren lagineko datuak handiagoak direnean edo handiagoak izan behar direla espero denean), aztertu beharreko estatistikoa W+ da;
  • alternatiboki Y populazioak mediana txikiagoa duela ezartzen bada, aztertu beharreko estatistikoa W- da;
  • hipotesi alternatiboak bi populazioen mediana ezberdina dela ezartzen badu, alde biko froga bada alegia, W- eta W+ estatistikoetatik txikiena hartu behar da.

Adibidean, aztertu beharrekoa W+=3 balioa da, jolas ondoren trebetasuna handiagoa ote den ikertzen ari baita (Y handiagoa dela uste da eta datuek hori erakusten dute a priori).

Kasu guztietan, W- zein W+ erabiliz, hipotesi nulua W estatistikoak txikia denean baztertuko da (adibidez, jolas ondoren trebetasuna handitu dela W+ oso txikia denean baztertuko da, gure kasuan datuek erakusten bezala).

n lagin-tamaina eta α adierazgarritasun-maila ezberdinetarako taulak zehazten dira ondoren, frogaren norabide ezberdinetarako; medianen berdintasunaren hipotesi nulua baztertu egiten da W+/W- estatistikoa erakutsitako balioa baino txikiagoa edo berdina denean:

n Alde bikoa Alde bakarrekoa
α=0.05 α=0.01 α=0.05 α=0.01
5 . . 0 .
6 0 . 2 .
7 2 . 3 .
8 3 0 5 1
9 5 1 8 3
10 8 3 10 5
11 10 5 13 7
12 13 7 17 9
13 17 9 21 12
14 21 12 25 15
15 25 15 30 19
16 29 19 35 23
17 34 23 41 27
18 40 27 47 32
19 46 32 53 37
20 52 37 60 43

Adibidean, n=7 denez, eta %5eko adierazgarritasun-maila baterako, balio kritikoa 3 da. Estatistikoaren balioa bat datorrenez horrekin, hipotesi nulua baztertu eta jolas ondoren trebetasuna handitu egin dela erabakitzen da, adierazgarritasun-maila horretarako betiere.

Frogarako kalkuluak R softwarean[aldatu | aldatu iturburu kodea]

R estatistikarako software libreak Wilcoxonen zeinu frogarako kalkulua eskaintzen du. Adibidez, arestiko adibiderako aginduak hauek lirateke[5]:

x=c(86,75,84,61,68,71,70)
y=c(90,72,92,74,66,78,85)
wilcox.test(x,y,alternative=c("less"),paired=TRUE)

eta emaitza hauek lortuko lirateke:

Wilcoxon signed rank test
data:  x and y 
V = 3, p-value = 0.03906
alternative hypothesis: true location shift is less than 0

V=W+ kasu guztietan. p-value balioak estatistikoaren maila kritikoa, suertatu den W+ edo handiagoa (edo txikiagoa, frogaren norabidea zein den) gertatzeko probabilitatea alegia, adierazten du eta aurrez zehazturiko adierazgarritasun-mailarekin alderatu behar da (0.05 adibidean). 0.0396>0.05 betetzen denez, hipotesi nulua baztertu eta beraz, jolasak trebetasuna hobetu duela erabaki behar da.

Berdinketak balioetan eta heinetan[aldatu | aldatu iturburu kodea]

X-Y balio-bikoteetan berdinketa gertatzen denean, X-Y kenketaren balio absolutua 0 da. 0 balio ahauei dagokien elementu edo banakoak ezabatu egin behar dira kalkulua egitkeo. Hala ber, n lagin-tamaina ezartzeko orduan ere baztertu egin behar dira.

Balio absolutuetan berdinketa gertatzen denean, heinak ezin dira ordenatu. Demagun, adibidez, 3. eta 4. balio absolutu handienak 6 direla biak. Kasu honetan, batez besteko 3.5eko heina esleitzen zaie biei.

Adibidez, lantegi batean burutzen diren 9 tarea ezberdin burutzeko denborak aztertu dira metodo berri batek azkarrago egiten ote dituen (X: metodo zaharraz, Y: metodo berriaz):

Tarea (i) Xi Yi Xi – Yi BA(Xi – Yi) Maila(BA) Zeinua
A 5.98 5.88 +0.10 0.10 7.0 +
B 5.88 5.86 +0.02 0.02 2.0 +
C 5.84 5.75 +0.09 0.09 6.0 +
D 5.99 5.80 +0.19 0.19 8.0 +
E 5.94 5.87 +0.07 0.07 4.5 +
F 5.84 5.84 0.00 0.00 bazter bazter
G 5.86 5.87 –0.01 0.01 1.0
H 6.12 5.86 +0.26 0.26 9.0 +
I 5.90 5.83 +0.07 0.07 4.5 +
J 5.91 5.86 +0.05 0.05 3.0 +

n=10-1=9, W-=1 eta W+=7+2+6+8+4.5+9+4.5+3=44 izango dira. Alternatiboki eta datuek ere erakusten dutenez, bigarren metodoak denborak murrizten dituela uste denez, erreparatu beharreko estatistikoa W- da. Tauletan, %5eko adierazgarritasun-maila baterako, balio kritikoa 5 da. W-=1<5 betetzen denez, hipotesi nulua baztertu eta metodo berriak denborak murriztu dituela erabaki behar da.

Lagin-tamaina handiak[aldatu | aldatu iturburu kodea]

Lagin-tamaina handietarako (n>20) W+ estatistikoa banaketa normalaren bitartez hurbil daiteke[6]:


W_+ \sim N\Bigg(\mu=\frac{n(n+1)}{4},\ \sigma=\sqrt{\frac{n(n+1)(2n+1)}{24}}\ \Bigg)


Lagin-tamaina txikiagoetarako ere hurbilketa egokia dela egiaztatu da. Erabil dezagun, arestiko adibiderako, non n=9 den:


W_+ \sim N\Bigg(\mu=\frac{9 \times 10}{2}=22.5,\ \sigma=\sqrt{\frac{9 \times 10 \times 19}{24}}=8.44\ \Bigg)


W+=44 suertatu zen, arestian egindako kalkuluetan. Alternatiboki tareak denbora laburragoan egiten direla pentsatzen denez, egoera horretan X-Y kenketak positiboak izango dira eta W+ estatistikoka handia izateko joera izango du. Beraz, goiko probabilitatea kalkulatu beharko da [7]:


P[W_+>44]=P\Bigg[Z>\frac{44-22.5}{8.44}\Bigg]=P[Z>2.55]=0.0054


Aurrez ezarritako %5eko adierazgarritasun-maila baino txikiagoa denez, Ho hipotesi nulua baztertu eta tareak metodo berriekin azkarrago egiten direla erabaki behar da, arestian kalkulu zehatzarekin bezala.

Probabilitateen kalkulua[aldatu | aldatu iturburu kodea]

Eskuko taulak eratu zein estatistka-paketeek eigten dituzten kalkuluetarako, hipotesi nuluaren pean W+ edo W- estatistikoek (frogaren norabidea zein den) balio jakin bat edo txikiagoa hartzeko probabilitateak kalkulatu behar dira.

Probabilitate hauek nola kalkulatzen diren ikasteko, adibide bat garatzen da ondoren. Lagin-tamaina n=5 izanik, 5 heinak honako taula honetan bana daitezke positibo eta negatiboen artean, guztira 25=32 aukera ezberdin sortuz. Azken bi zutabeetan, zeinuen banaketa bakoitzari dagokion W+ estatistikoaren balioa eta estatistiko horrek balio hori edo txikiagoa suertatzeko probabilitateak (W+ estatistikoaren banaketa-funtzioa alegia) zehazten dira (eta modu berean kalkula daitezke simetria baliatuz, W- estatistikorako):

1 2 3 4 5 W+=k P[W+<k]
- - - - - 0 1/32=0.03125
+ - - - - 1 2/32=0.0625
- + - - - 2 3/32=0.09375
+ - + - - 3 ...
- - + - - 3 5/32=0.15625
- - - + - 4 ...
+ - + - - 4 7/32=0.21875
- - - - + 5 ...
+ - - + - 5 ...
- + + - - 5 10/32=0.3125
+ - - - + 6 ...
- + - + - 6 ...
+ + + - - 6 13/32=0.40625
- + - - + 7 ...
- - + + - 7 ...
+ + - + - 7 16/32=0.5
- - + - + 8 ...
+ - + + - 8 ...
+ + - - + 8 19/32=0.59375
- - - + + 9 ...
+ - + - + 9 ...
- + + + - 9 22/32=0.6875
+ + + + - 10 ...
+ - - + + 10 ...
- + + - + 10 25/32=0.78125
- + - + + 11 ...
+ + + - + 11 27/32=0.84375
- - + + + 12 ...
+ + - + + 12 29/32=0.90625
+ - + + + 13 30/32=0.9375
- + + + + 14 31/32=0.96875
+ + + + + 15 32/32=1

Ohizko adierazgarritasun-mailak %1, %5 eta %10 direnez, ez da beharrezkoa beste n lagin-tamaina ezberdinetarako taulak oso osorik garatzea.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. a b c (Ingelesez) David Sheskin :Handbook of parametric and nonparametric statistical procedures, 189. orrialdea.
  2. (Ingelesez) Lyman Ott, Michael Longnecker: An Introduction to Statistical Methods and Data Analysis, 319. orrialdea.
  3. (Ingelesez) Frank Wilcoxon: Individual Comparisons by Ranking Methods, Biometrics Bulletin, 1 bol. , 6. zbk. (1945-12), 80-83 orr.
  4. Batzuetan, W+ adierazpenaren ordez T+ erabiltzen da; esaterako, (Ingelesez) Wilcoxon Signed Rank Test, mathworld.wolfram.com matematikarako webgune famatuan.
  5. Agindu hauetarako sintaxia eta eskura dauden beste aukerak hemen aurki daitezke: (Ingelesez) Wilcoxon Rank Sum and Signed Rank Tests
  6. David Sheskin: op. cit, 195. orrialdea.
  7. Adibide honetan ikus daiteke W+ beti erabil daitekeela froga burutzeko, estatistika-paketeek egiten duten bezala, baina orduan kalkulatu beharreko probabilitatearen norabidea zehaztu beharko da.