Wilcoxonen zeinu proba

Estatistikan, Wilcoxonen zeinu proba bi lagin dependenteri edo lagin bakarreko bi neurketa errepikaturi dagozkien populazioetako medianen berdintasuna kontrastatzeko estatistika-proba ez parametriko bat da.

Adibidez, honako egoera hauetan erabil daiteke:

haur multzo bati jolas berri bat proposatu ondoren, aurretik eta ondoren duten matematikarako trebetasun-maila hobetu den erabakitzeko;
elikagai berri bat hartu aurretik eta ondoren behi multzo batean jasotako esne-ekoizpenetarako, botika hartu aurretik eta ondoren eske-ekoizpena berdina den probatzeko;

Populazio baten mediana aurrez ezarritako balio bat baino handiagoa edo txikiagoa den erabakitzeko ere erabil daiteke. Adibidez, 45 urteko emakumeek egunero hartu beharreko kaloria kopurua 200 unitatekoa izatea komeni dela ezarri bada, egun batean emakume zenbaitengan neurketa eginez gero, gomendioa betetzen den erabakitzen du Wilcoxonen proba honek^[1].

Proba ez parametrikoa da, hau da, bi populazioei buruzko aurretiko hipotesi gogorrik ez du ezartzen: lagina zoriz jaso izana, populazioa medianaren inguruan simetrikoa izatea ^[2] eta aldagaiak ratio edo tarte motakoak izatea^[1] soilik eskatzen du. Bada Studenten t-testa parametriko bat egoera berean aplikagarri baina populazioak normalak direla suposatzen du. Helburu bera duten beste proba ez parametriko zenbait ere badaude, zeinuen proba binomiala esaterako, erabilgarria populazioa simetrikoa ez denerako^[1]. Proba Frank Wilcoxon kimikariak asmatu zuen 1945 urteko artikulu batean^[3], bi lagin independenteren berdintasunerako proba batekin batera, Wilcoxonen hein proba izenekoa, baina gerora orokorrago Mann-Whitney U proba deituko zena. Nolanahi ere, Wilcoxonen zein probari buruz ari den zehaztea komeni da.

Probarako kalkuluak[aldatu | aldatu iturburu kodea]

Adin bereko 6 haurri matematika-azterketa bat egin zaie, X_i puntuazioak jasoz. Jarraian, matematika trebakuntzarako jolas berri batean aritu dira astebetean. Ondoren, matematika-azterketa egin zaie berriz ere eta Y_i puntuazioak jaso dira. Jolasak matematika-trebetasuna hobetu duen probatu behar da.

Haur bakoitzak aurretik eta ondoren lortutako puntuazioen kenketa egiten da.
Kenketaren zeinua adierazten da.
Kenketaren balio absolutua (BA) kalkulatzen da.
Balio absolutuak ordenatzen dira, heinak emanez, txikienetik handienera.
Arestian emandako zeinuak esleitzen zaizkie heinei azken bi zutabeetan, zeinua zein den taulak bereiztuz.

Haurra (i)	X_i	Y_i	X_i – Y_i	Zeinua (X_i – Y_i)	BA(X_i – Y_i)	Maila(BA)	-(Maila)	+(Maila)
1	86	90	-4	-	4	3	3
2	75	72	3	+	3	2		2
3	84	92	-8	-	8	4	4
4	61	74	-13	-	13	6	6
5	68	66	2	+	2	1		1
6	71	78	-7	-	7	5	5
7	70	85	-15	-	15	7	7

Probarako estatistikoak zeinuzko mailen baturak dira:

W_{-}=25\,;\ \ W_{+}=3\,

Kalkuluak ongi ote diren egiaztatzeko, konprobazio hau egin daiteke:

W_{-}+W_{+}={\frac {1}{2}}n(n+1)

Adibidean, kalkuluak ongi burutu dira:

25+3={\frac {1}{2}}\times 7\times 8

Gehienetan, W₊ soila da erabiltzen dena proba estatistikarako software-pakete baten bitartez burutzen denean^[4]. Probarako eskuko taulak erabiltzen badira, berriz, W₊ zein W_- estatistikoak erabiltzen dira.

W₊/W_- estatistikoetarako taulak[aldatu | aldatu iturburu kodea]

Proba burutzeko, proba alde bakarrekoa edo bikoa den ezarri behar da. Kasu honetan, jolasak trebetasuna hobetu ote duen (eta ez soilik trebetasuna aldatu den) erabaki behar denez, probak norabide jakina eta alde bakarrekoa da.

Hipotesi nuluan, X eta Y bi populazioek (haurren puntuazioak aurretik eta ondoren) mediana berdina dutela suposatzen da. Hipotesi alternatiboa zein den, W₊ edo W_- estatistikoari erreparatu beharko zaio:

hipotesi alternatiboak ondorengo Y populazioak mediana handiagoa duela ezartzen badu (bigarren lagineko datuak handiagoak direnean edo handiagoak izan behar direla espero denean), aztertu beharreko estatistikoa W₊ da;
alternatiboki Y populazioak mediana txikiagoa duela ezartzen bada, aztertu beharreko estatistikoa W_- da;
hipotesi alternatiboak bi populazioen mediana ezberdina dela ezartzen badu, alde biko proba bada alegia, W_- eta W₊ estatistikoetatik txikiena hartu behar da.

Adibidean, aztertu beharrekoa W₊=3 balioa da, jolas ondoren trebetasuna handiagoa ote den ikertzen ari baita (Y handiagoa dela uste da eta datuek hori erakusten dute a priori).

Kasu guztietan, W_- zein W₊ erabiliz, hipotesi nulua W estatistikoak txikia denean baztertuko da (adibidez, jolas ondoren trebetasuna handitu dela W₊ oso txikia denean baztertuko da, gure kasuan datuek erakusten bezala).

n lagin-tamaina eta α adierazgarritasun-maila ezberdinetarako taulak zehazten dira ondoren, probaren norabide ezberdinetarako; medianen berdintasunaren hipotesi nulua baztertu egiten da W₊/W_- estatistikoa erakutsitako balioa baino txikiagoa edo berdina denean:

n	Alde bikoa		Alde bakarrekoa
n	α=0.05	α=0.01	α=0.05	α=0.01
5	.	.	0	.
6	0	.	2	.
7	2	.	3	.
8	3	0	5	1
9	5	1	8	3
10	8	3	10	5
11	10	5	13	7
12	13	7	17	9
13	17	9	21	12
14	21	12	25	15
15	25	15	30	19
16	29	19	35	23
17	34	23	41	27
18	40	27	47	32
19	46	32	53	37
20	52	37	60	43

Adibidean, n=7 denez, eta %5eko adierazgarritasun-maila baterako, balio kritikoa 3 da. Estatistikoaren balioa bat datorrenez horrekin, hipotesi nulua baztertu eta jolas ondoren trebetasuna handitu egin dela erabakitzen da, adierazgarritasun-maila horretarako betiere.

Probarako kalkuluak R softwarean[aldatu | aldatu iturburu kodea]

R estatistikarako software libreak Wilcoxonen zeinu probarako kalkulua eskaintzen du. Adibidez, arestiko adibiderako aginduak hauek lirateke^[5]:

x=c(86,75,84,61,68,71,70)
y=c(90,72,92,74,66,78,85)
wilcox.test(x,y,alternative=c("less"),paired=TRUE)

eta emaitza hauek lortuko lirateke:

Wilcoxon signed rank test
data:  x and y 
V = 3, p-value = 0.03906
alternative hypothesis: true location shift is less than 0

V=W₊ kasu guztietan. p-value balioak estatistikoaren maila kritikoa, suertatu den W₊ edo handiagoa (edo txikiagoa, probaren norabidea zein den) gertatzeko probabilitatea alegia, adierazten du eta aurrez zehazturiko adierazgarritasun-mailarekin alderatu behar da (0.05 adibidean). 0.0396>0.05 betetzen denez, hipotesi nulua baztertu eta beraz, jolasak trebetasuna hobetu duela erabaki behar da.

Berdinketak balioetan eta heinetan[aldatu | aldatu iturburu kodea]

X-Y balio-bikoteetan berdinketa gertatzen denean, X-Y kenketaren balio absolutua 0 da. 0 balio ahauei dagokien elementu edo banakoak ezabatu egin behar dira kalkulua egitkeo. Hala ber, n lagin-tamaina ezartzeko orduan ere baztertu egin behar dira.

Balio absolutuetan berdinketa gertatzen denean, heinak ezin dira ordenatu. Demagun, adibidez, 3. eta 4. balio absolutu handienak 6 direla biak. Kasu honetan, batez besteko 3.5eko heina esleitzen zaie biei.

Adibidez, lantegi batean burutzen diren 9 tarea ezberdin burutzeko denborak aztertu dira metodo berri batek azkarrago egiten ote dituen (X: metodo zaharraz, Y: metodo berriaz):

Tarea (i)	X_i	Y_i	X_i – Y_i	BA(X_i – Y_i)	Maila(BA)	Zeinua
A	5.98	5.88	+0.10	0.10	7.0	+
B	5.88	5.86	+0.02	0.02	2.0	+
C	5.84	5.75	+0.09	0.09	6.0	+
D	5.99	5.80	+0.19	0.19	8.0	+
E	5.94	5.87	+0.07	0.07	4.5	+
F	5.84	5.84	0.00	0.00	bazter	bazter
G	5.86	5.87	–0.01	0.01	1.0	–
H	6.12	5.86	+0.26	0.26	9.0	+
I	5.90	5.83	+0.07	0.07	4.5	+
J	5.91	5.86	+0.05	0.05	3.0	+

n=10-1=9, W_-=1 eta W₊=7+2+6+8+4.5+9+4.5+3=44 izango dira. Alternatiboki eta datuek ere erakusten dutenez, bigarren metodoak denborak murrizten dituela uste denez, erreparatu beharreko estatistikoa W_- da. Tauletan, %5eko adierazgarritasun-maila baterako, balio kritikoa 5 da. W_-=1<5 betetzen denez, hipotesi nulua baztertu eta metodo berriak denborak murriztu dituela erabaki behar da.

Lagin-tamaina handiak[aldatu | aldatu iturburu kodea]

Lagin-tamaina handietarako (n>20) W₊ estatistikoa banaketa normalaren bitartez hurbil daiteke^[6]:

W_{+}\sim N{\Bigg (}\mu ={\frac {n(n+1)}{4}},\ \sigma ={\sqrt {\frac {n(n+1)(2n+1)}{24}}}\ {\Bigg )}

Lagin-tamaina txikiagoetarako ere hurbilketa egokia dela egiaztatu da. Erabil dezagun, arestiko adibiderako, non n=9 den:

W_{+}\sim N{\Bigg (}\mu ={\frac {9\times 10}{2}}=22.5,\ \sigma ={\sqrt {\frac {9\times 10\times 19}{24}}}=8.44\ {\Bigg )}

W₊=44 suertatu zen, arestian egindako kalkuluetan. Alternatiboki tareak denbora laburragoan egiten direla pentsatzen denez, egoera horretan X-Y kenketak positiboak izango dira eta W₊ estatistikoka handia izateko joera izango du. Beraz, goiko probabilitatea kalkulatu beharko da ^[7]:

P[W_{+}>44]=P{\Bigg [}Z>{\frac {44-22.5}{8.44}}{\Bigg ]}=P[Z>2.55]=0.0054

Aurrez ezarritako %5eko adierazgarritasun-maila baino txikiagoa denez, Ho hipotesi nulua baztertu eta tareak metodo berriekin azkarrago egiten direla erabaki behar da, arestian kalkulu zehatzarekin bezala.

Probabilitateen kalkulua[aldatu | aldatu iturburu kodea]

Eskuko taulak eratu zein estatistka-paketeek eigten dituzten kalkuluetarako, hipotesi nuluaren pean W₊ edo W_- estatistikoek (probaren norabidea zein den) balio jakin bat edo txikiagoa hartzeko probabilitateak kalkulatu behar dira.

Probabilitate hauek nola kalkulatzen diren ikasteko, adibide bat garatzen da ondoren. Lagin-tamaina n=5 izanik, 5 heinak honako taula honetan bana daitezke positibo eta negatiboen artean, guztira 2⁵=32 aukera ezberdin sortuz. Azken bi zutabeetan, zeinuen banaketa bakoitzari dagokion W₊ estatistikoaren balioa eta estatistiko horrek balio hori edo txikiagoa suertatzeko probabilitateak (W₊ estatistikoaren banaketa-funtzioa alegia) zehazten dira (eta modu berean kalkula daitezke simetria baliatuz, W_- estatistikorako):

1	2	3	4	5	W+=k	P[W+<k]
-	-	-	-	-	0	1/32=0.03125
+	-	-	-	-	1	2/32=0.0625
-	+	-	-	-	2	3/32=0.09375
+	-	+	-	-	3	...
-	-	+	-	-	3	5/32=0.15625
-	-	-	+	-	4	...
+	-	+	-	-	4	7/32=0.21875
-	-	-	-	+	5	...
+	-	-	+	-	5	...
-	+	+	-	-	5	10/32=0.3125
+	-	-	-	+	6	...
-	+	-	+	-	6	...
+	+	+	-	-	6	13/32=0.40625
-	+	-	-	+	7	...
-	-	+	+	-	7	...
+	+	-	+	-	7	16/32=0.5
-	-	+	-	+	8	...
+	-	+	+	-	8	...
+	+	-	-	+	8	19/32=0.59375
-	-	-	+	+	9	...
+	-	+	-	+	9	...
-	+	+	+	-	9	22/32=0.6875
+	+	+	+	-	10	...
+	-	-	+	+	10	...
-	+	+	-	+	10	25/32=0.78125
-	+	-	+	+	11	...
+	+	+	-	+	11	27/32=0.84375
-	-	+	+	+	12	...
+	+	-	+	+	12	29/32=0.90625
+	-	+	+	+	13	30/32=0.9375
-	+	+	+	+	14	31/32=0.96875
+	+	+	+	+	15	32/32=1

Ohizko adierazgarritasun-mailak %1, %5 eta %10 direnez, ez da beharrezkoa beste n lagin-tamaina ezberdinetarako taulak oso osorik garatzea.

Erreferentziak[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]

Datuak: Q1751970

↑ ^a ^b ^c (Ingelesez) David Sheskin :Handbook of parametric and nonparametric statistical procedures, 189. orrialdea.
↑ (Ingelesez) Lyman Ott, Michael Longnecker: An Introduction to Statistical Methods and Data Analysis, 319. orrialdea.
↑ (Ingelesez) Frank Wilcoxon: Individual Comparisons by Ranking Methods, Biometrics Bulletin, 1 bol. , 6. zbk. (1945-12), 80-83 orr.
↑ Batzuetan, W₊ adierazpenaren ordez T₊ erabiltzen da; esaterako, (Ingelesez) Wilcoxon Signed Rank Test, mathworld.wolfram.com matematikarako webgune famatuan.
↑ Agindu hauetarako sintaxia eta eskura dauden beste aukerak hemen aurki daitezke: (Ingelesez) Wilcoxon Rank Sum and Signed Rank Tests
↑ David Sheskin: op. cit, 195. orrialdea.
↑ Adibide honetan ikus daiteke W₊ beti erabil daitekeela proba burutzeko, estatistika-paketeek egiten duten bezala, baina orduan kalkulatu beharreko probabilitatearen norabidea zehaztu beharko da.

[sheskin-1] (Ingelesez) David Sheskin :Handbook of parametric and nonparametric statistical procedures, 189. orrialdea.

[2] (Ingelesez) Lyman Ott, Michael Longnecker: An Introduction to Statistical Methods and Data Analysis, 319. orrialdea.

[3] (Ingelesez) Frank Wilcoxon: Individual Comparisons by Ranking Methods, Biometrics Bulletin, 1 bol. , 6. zbk. (1945-12), 80-83 orr.

[4] Batzuetan, W₊ adierazpenaren ordez T₊ erabiltzen da; esaterako, (Ingelesez) Wilcoxon Signed Rank Test, mathworld.wolfram.com matematikarako webgune famatuan.

[5] Agindu hauetarako sintaxia eta eskura dauden beste aukerak hemen aurki daitezke: (Ingelesez) Wilcoxon Rank Sum and Signed Rank Tests

[6] David Sheskin: op. cit, 195. orrialdea.

[7] Adibide honetan ikus daiteke W₊ beti erabil daitekeela proba burutzeko, estatistika-paketeek egiten duten bezala, baina orduan kalkulatu beharreko probabilitatearen norabidea zehaztu beharko da.

[1]

[2]

[3]

[4]

[5]

[6]

[7]