Bariantza

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu

Estatistikan, bariantza datu-multzo batek nahiz probabilitate-banaketa batek duen sakabanatzearen neurri absolutu bat da. Hain zuzen, bariantzaren erro karratu positiboa desbidazio estandarra da, eta azken honek datu bakoitza batezbesteko aritmetiko sinpletik zenbat desbideratzen den adierazten du. Kalkuluaren aldetik, bariantza batezbestekoari buruzko bigarren mailako momentua ere bada. Aldakortasun edo sakabanatze neurri izateaz gainera, bere propietate matematikoak direla eta, maiz agertzen da azterketa estatistikoetan. Esate baterako, aldagai batek duen aldakortasun-maila bariantzaren bitartez neurtzen da eta bariantza oso hau beste aldagai edo faktore zenbaitek eragindako aldakortasun-mailetan zatitu daiteke, aldagai horren kausak hauteman eta kausa horien eragina zehazteko, bariantza-analisian eta karratu txikienen erregresioan egiten den bezala.

Kalkulua datuetarako[aldatu | aldatu iturburu kodea]

Honela adierazi eta kalkulatzen da, datuak x_1,x_2,\ldots,x_n izanik:

s_X^2 = \frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2\,

Aurreko formulari jarraiki, pauso hauek jarraitu behar dira kalkulurako:

  1. batezbesteko aritmetiko sinplea (\overline{x}) kalkulatu;
  2. x_i-\overline{x}, datu bakoitzak batezbestekora duen distantzia alegia, kalkulatu;
  3. batuketa egitean konpentsa ez daitezen, distantzia karratuak kalkulatu;
  4. distantzia karratu horien batezbestekoa kalkulatzen da, zati n datu kopurua eginez.

Laburrago kalkulatzeko formula bat ere badago, aurreko formulatik erator daitekeena:

s_X^2 = \frac{\sum_{i=1}^n {x_i^2}}{n}-\overline{x}^2\,

Desbideratze estandarra bariantzaren erro karratu positiboa da:

s_X = \sqrt{\frac{1}{N} \sum_{i=1}^N (x_i - \overline{x})^2\,}=\sqrt{\frac{\sum_{i=1}^n {x_i^2}}{n}-\overline{x}^2}\,



Adibidea datu bakanduetarako[aldatu | aldatu iturburu kodea]

Kalkulurako adibide gisa, azterketa batean ikasle zenbaitek jasotako kalifikazio hauek hartuz (puntutan): 6-7-9-5-3.

Jatorrizko formula Formula laburtua
x_i\, (x_i-\overline{x})^2\,
6 (6-6)2=0
7 (7-6)2=1
9 (9-6)2=9
5 (5-6)2=1
3 (3-6)2=9
30 20
Lehendabizi, batezbesteko aritmetiko sinplea kalkulatzen da:
\overline{x}=\frac{\sum_ix_i}{n}=\frac{30}{5}=6
Jarraian,
s^2_x=\frac{\sum_i(x_i-\overline{x})^2}{n}=\frac{20}{5}=4\rightarrow s_X=\sqrt{4}=2
Bariantza 4 puntu2 izango da, beraz. Desbidazio estandarra emaitza horren erro karratua da: 2 puntu.
x_i\, x_i^2\,
6 62=36
7 72=49
9 92=81
5 52=25
3 32=9
30 200
Lehendabizi, batezbesteko aritmetiko sinplea kalkulatzen da:
\overline{x}=\frac{\sum_ix_i}{n}=\frac{30}{5}=6
Jarraian,
s^2_x=\frac{\sum_ix_i^2}{n}-\overline{x}^2=\frac{200}{5}-6^2=4 \rightarrow s_X=\sqrt{4}=2
Arestiko emaitza berdinak eskuratzen dira, baina kalkuluak erosoago eginez.

Adibidea maiztasun-tauletatarako[aldatu | aldatu iturburu kodea]

Datuak maiztasun-taula batean bildu direnean, maiztasun-taulatik bertatik egin daiteke kalkulua. Aiseago egiten da formula laburtuarekin, hurrengo adibidean egiten den bezala.

xi(balioak) ni(maiztasunak) nixi nixi2
5 2 10 50
6 3 18 108
8 1 64 64
baturak 6 36 670
s^2_x=\frac{\sum_in_i(x_i-\overline{x})^2}{\sum_in_i}=\frac{\sum_in_ix_i^2}{\sum_in_i}-\overline{x}^2=\frac{222}{6}-\Bigg(\frac{36}{6}\Bigg)^2=1

Adibidea tartetan bildutako datuetarako[aldatu | aldatu iturburu kodea]

Datuak tartetan bildu direnean, tarte horietako erdipuntuak hartzen dira kalkuluetarako balio adierazgarri moduan.

Tarteak ni(maiztasunak) xi(balioak) nixi nixi2
0-40 5 20 100 2000
40-80 30 60 1800 108000
80-120 10 100 1000 100000
baturak 45 2900 210000
s^2_x=\frac{\sum_in_i(x_i-\overline{x})^2}{\sum_in_i}=\frac{\sum_in_ix_i^2}{\sum_in_i}-\overline{x}^2=\frac{210000}{45}-\Bigg(\frac{2900}{45}\Bigg)^2=513.63

Tarte bakoitzean hartutako erdipuntuaren hurbilketak dakarren errorea zuzentzeko Shepparden zuzenketa delakoa erabiltzen da, datuak banaketa normalari jarraiki banatzen direnean eta tarte-zabalera konstantea denean soilik aplika daitekeena (b, tarte-zabalera):

\tilde{s}_X^2=s_X^2-\frac{b^2}{12}=513.63-\frac{40^2}{12}=380.3

Kalkulua probabilitate banakuntzetarako[aldatu | aldatu iturburu kodea]

Honela definitzen da, \mu=E[X] izanik itxaropen matematikoa:

\operatorname{var}[X]=\sigma^2_X=E[(X-\mu)^2]

Banakuntza jarraitua bada, honela kalkulatzen da, integralak X aldagaiaren balioen \Omega(X) eremuan ebaluatu behar direlarik:

\operatorname{var}[X] =\sigma^2_X=\int_{\Omega(X)} (x-\mu)^2 \, p(x) \, dx\,, non \mu = \int_{\Omega(X)}  x \, p(x) \, dx

Banakuntza diskretua bada, x_i, p(x_i) aldagaiaren balio eta beren probabilitateak izanik:

\operatorname{var}(X) = \sigma^2_X=\sum_i p_i (x_i - \mu)^2\,, non \mu = \sum_i  x_i \, p(x_i)\,

Definizioaren formula garatuz, jatorriari buruzko momentuetan oinarritutako adierazpen batera heltzen da, kalkulurako erosoagoa dena:

\operatorname{var}[X]=\sigma^2_X=E[(X-\mu)^2]=E[X^2]-\mu^2=E[X^2]-E[X]^2


Banakuntza diskretu baterako adibidea[aldatu | aldatu iturburu kodea]

0 eta 1 balioak 0.4 eta 0.6 probabilitateaz hartzen dituen probabilitate-banaketaren bariantza kalkulatu behar da.

Jatorrizko formula Formula laburtua
x_i\, p(x_i)\, x_ip(x_i)\, (x_i-\mu)^2p(x_i)\,
0 0.4 0 0.144
1 0.6 0.6 0.096
baturak 1 \mu=0.6\, \sigma^2=0.24\,
Lehendabizi, itxaropen matematikoa kalkulatzen da, hirugarren zutabean egiten den bezala.
Jarraian, bariantza kalkulatzeko, bere formula aplikatzen da zuzenean laugarren zutabean.
x_i\, p(x_i)\, x_ip(x_i)\, x_i^2p(x_i)\,
0 0.4 0 0
1 0.6 0.6 0.6
baturak 1 \mu=0.6\, E[X^2]=0.6\,
Itxaropen matematikoa hirugarren zutabean kalkulatzen da.
Jarraian, laugarren zutabean, E[X^2]\, kalkulatzen da.
\sigma^2=E[X^2]-E[X]^2=0.6-0.6^2=0.24

Banakuntza jarraitu baterako adibidea[aldatu | aldatu iturburu kodea]

f_X(x)=2x;\ 0<x<1\, banaketaren bariantza kalkulatu behar da,

Jatorrizko formula Formula laburtua
Lehendabizi, itxaropen matematikoa kalkulatzen da:
\mu=E[X]=\int_{\Omega}xf(x)dx=\int_0^1x2xdx=0.66
Jarraian, bariantza kalkulatzeko:
\sigma^2=\int_{\Omega}(x-\mu)^2f(x)dx=\int_0^1(x-0.66)^2\cdot 2xdx=0.055
Lehendabizi, itxaropen matematikoa kalkulatzen da:
\mu=E[X]=\int_{\Omega}xf(x)dx=\int_0^1x2xdx=0.666
Jarraian, E[X^2]\, kalkulatzen da:
E[X^2]=\int_{\Omega}(x)^2f(x)dx=\int_0^1x^2\cdot 2xdx=0.5
Azkenik, bariantza honela kalkulatzen da
\sigma^2=E[X^2]-E[X]^2=0.5-0.666^2=0.055

Bariantzaren propietateak[aldatu | aldatu iturburu kodea]

Bariantza beti da ez-negatiboa[aldatu | aldatu iturburu kodea]

Bariantza ez da inongo kasutan negatiboa. 0 balioa ere har dezake, datu guztiak berdinak direnean nahiz 1 probabilitatea duen konstante baten kasuan.

Bigarren mailako momentu txikiena[aldatu | aldatu iturburu kodea]

Bariantza bigarren mailako momentu txikiena da:

  • datuetarako, \frac{\sum_i(x_i-k)^2}{n} adierazpena minimotzen duen k\, balioa \overline{x} da;
  • probabilitate banakuntzetarako, E[(X-k)^2] minimiotzen duen k\, balioa \mu da.

Aldagai-aldaketa lineala[aldatu | aldatu iturburu kodea]

  • Y=a+bX\, aldagai-aldaketa lineala egiten bada, a,\ b\, konstanteak izanik,
    • datuen bariantzari buruz, s_Y^2=b^2s_X^2,
    • probabilitate-banakuntzen bariantzari buruz, var[Y]=b^2var[X]

Hau da, datu guztiei (edo zorizko aldagaiari) konstante bat gehitu edo kentzeagatik, bariantzaren emaitza ez da aldatzen, baina konstante batez bidertzean, bariantza bider konstante hori karratura bidertzen da.

Aldagaien baturaren bariantza[aldatu | aldatu iturburu kodea]

X_1,X_2,\ldots,X_n aldagaiak elkarrekiko independenteak badira:

var[X_1+X_2+\cdots+X_n]=var[X_1]+var[X_2]+\cdots+var[Xn]

Aurreko berdintza aldagaiak elkarrekiko korrelazio linealik gabeak direnean ere betetzen da.

Oro har, independenteak ez badira, bariantzak eta aldagai-bikote guztien kobariantzak gehitu behar dira[1]:

var[X_1+X_2+\cdots+X_n]=\sum_ivar[X_i]+\sum_i\sum_{j \ne i}cov[X_i,X_j]=\sum_ivar[X_i]+2\sum_i\sum_{j>i}cov[X_i,X_j]

Bi aldagaien kasurako, esate baterako:

var[X_1+X_2]=var[X_1]+var[X_2]+2cov[X_1,X_2]

Bariantza bi aldagai berdinen arteko kobariantza da[aldatu | aldatu iturburu kodea]

Bariantza kobariantza berezi bat besterik ez da, non kobariantzan parte hartzen duten bi aldagaiak berdinak diren:

var[X]=cov[X,X]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. (Ingelesez)   Feldman, Richard M.; Valdez Flores, Ciriaco (2010), Applied Probability and Stochastic Processes, Springer, 32. orrialdea ..

Kanpo lotutak[aldatu | aldatu iturburu kodea]

Wikiztegian orri bat dago honi buruz: bariantza .