Txebixeven desberdintza

Probabilitate teorian eta estatistikan, Txebixeven desberdintzak edo Bienaymé-Txebixeven desberdintzak edozein probabilitate banaketatan, itxaropen matematiko edo batezbestekoa eta σ bariantza finituaren balioa soilik ezagutzen direlarik, suertatzen den balioa batezbestekotik gehienezko eta gutxienezko distantzia batera izateko probabilitatea hurbiltzen du, probabilitateari buruzko tarte bat ezarriz, probabilitate-banaketa ezaguna ez denez probabilitate zehatza ezin baita finkatu. Zehatzago, suertatzen den balioa batezbestekotik gutxienezko ε distantzia batera izateko probabilitatea σ²/ε² baino txikiagoa dela ezartzen du (eta beraz, gehienezko ε distantzia batera izateko probabilitatea 1-(σ²/ε²) baino handiagoa dela ere bai), non σ² banaketaren bariantza den. Probabilitate-banaketa zehatz bat ezarri ezin eta batezbestekoa eta bariantza soilik finkatu diren egoeretan probabilitateak hurbiltzeko baliatu ahal izateaz gainera, Txebixeven desberdintza teorema estatistiko garrantzitsuak frogatzeko erabiltzen da, hala nola zenbaki handien lege ahula. Konfidantza-tarteak eta horiek behar diren lagin-tamainaak finkatzeko ere erabiltzen da. Irenée-Jules Bienaymé estatistikaria izan zen desberdintza eta dagokion froga lehen aldiz plazaratu zuena 1853 urtean, bereziki beste gai zenbait garatzen zituen artikulu batean egin bazuen ere. Desberdintzaren berezko balioaz jabetu eta zabaldu zuena, ordea, Pafnuti Txebixev matematikaria izan zen 1867 urtean, desberdintzari buruzko berariazko artikulu batean. Hori dela eta, historialari gehienen irizpideari jarraiki, desberdintzaren meritua Txebixevi ematen zaio gehienetan.

Txebixeven desberdintzaren formula[aldatu | aldatu iturburu kodea]

Batezbestekotik zehazten den distantzia desbideratze estandarraren terminoetan jartzen den formulak bi aldaera desberdin ditu. Bietan ez dago inongo lehentasun ordenarik eta bata zein bestea erabil daiteke kasu guztietan, batzuetan erosotasunez formularen aldaera bat bestea baino egokiagoa izan badaiteke ere.

Lehen aldaera[aldatu | aldatu iturburu kodea]

$\scriptstyle \mu \,$ itxaropena eta $\scriptstyle \sigma ^{2}\,$ bariantza finitua dituen probabilitate banaketa batean,

muturretako probabilitaterako,

\forall \epsilon >0,\ \ P\left(\left|X-\mu \right|\geq \epsilon \right)\leq {\frac {\sigma ^{2}}{\epsilon ^{2}}}.

batezbestekoaren inguruko tarte simetriko bati dagokion probabilitaterako, muturretako balioek (aurreko adierazpenean) aurkako gertakizuna osatzen dutela kontuan hartuz,

\forall \epsilon >0,\ \ P\left(\left|X-\mu \right|<\epsilon \right)\geq 1-{\frac {\sigma ^{2}}{\epsilon ^{2}}}.

Bigarren aldaera[aldatu | aldatu iturburu kodea]

Itxaropenerako distantzia desbideratze estandarraren unitatetan neurtzen bada, hau da, ε=kσ bihurtuz soilik, Txebixeven desberdintza honela geratzen da:

muturretako probabilitaterako,

\forall k>0,\ \ P\left(\left|X-\mu \right|\geq k\sigma \right)\leq {\frac {1}{k^{2}}}.

batezbestekoaren inguruko tarte simetriko bati dagokion probabilitaterako,

\forall k>0,\ \ P\left(\left|X-\mu \right|<k\sigma \right)\geq 1-{\frac {1}{k^{2}}}.

ADIBIDEA

Zorizko aldagai baten itxaropena 2000 eta bariantza 100 izanik, zenbatekoa da itxaropenetik 200 baino gutxiago desbideratzeko, hau da, X 1800-2200 bitartean suertatzeko probabilitatea?

P\left(\left|X-2000\right|<200\right)\geq 1-{\frac {100^{2}}{200^{2}}}=0.75

Beraz, eskatutako probabilitatea 0.75 baino handiagoa da.

Desberdintzaren bigarren aldaera erabiliz, berriz:

k\sigma =\epsilon \rightarrow 100k=200\rightarrow k=2

P\left(\left|X-2000\right|<2\times 100\right)\geq 1-{\frac {1}{2^{2}}}=0.75

Tarte nabarmenak, banaketa normalarekin alderatuz[aldatu | aldatu iturburu kodea]

Honako taula honetan, Txebixeven desberdintzak k balio zenbaitetarako $\scriptstyle P[|X-\mu |>k\sigma ]$ probabilitateak zehazten dira, $\scriptstyle N(\mu ,\sigma )$ zorizko aldagai normal estandar batean (non itxaropena eta bariantza 0 eta 1 diren, hurrenik hurren) eta U(0,1) banaketa uniforme jarraitu batean (non itxaropena eta bariantza 0.5 eta 0.2886 diren, hurrenik hurren) suertatuko liratekeen probabilitate zehatzekin batera.

k balioa	Txebixeven desberdintza (1/k²)	Banakuntza normala	U(0,1) banaketa uniformea
1	≥0	0.6827	0.5772
1.25	≥0.36	0.7887	0.7215
1.5	≥0.55	0.8664	0.8658
2	≥0.75	0.9545	1
2.5	≥0.84	0.9876	1
3	≥0.889	0.9973	1
4	≥0.9375	0.99994	1

Aurreko emaitzetan ohartzekoa da Txebixeven desberdintzaren zehaztasuna handiagoa dela k balio handietarako, betiere bi probabilitate-banaketa zehatz horiekin alderaturik.

Desberdintzaren frogapenak[aldatu | aldatu iturburu kodea]

Lehen frogapena[aldatu | aldatu iturburu kodea]

Txebixeven lehen aldaerako formula frogatuko da. Horretarako bariantzaren definiziotik abiatu behar da. $\scriptstyle \epsilon >0$ balio baterako eta X zorizko aldagai jarraitu baterako:

\sigma ^{2}=\int _{-\infty }^{\infty }(x-\mu )^{2}f(x)dx\geq \int _{|x-\mu |\geq \epsilon }(x-\mu )^{2}f(x)dx\ \ \ \

(1)

Azken integralean,

|x-\mu |\geq \epsilon \rightarrow (x-\mu )^{2}\geq \epsilon ^{2}

Beraz, (1) adierazpenera itzuliz,

\int _{|x-\mu |\geq \epsilon }(x-\mu )^{2}f(x)dx\geq \int _{|x-\mu |\geq \epsilon }\epsilon ^{2}f(x)dx=\epsilon ^{2}\int _{|x-\mu |\geq \epsilon }f(x)dx=\epsilon ^{2}P[|x-\mu |\geq \epsilon ]\ \ \ \ \

(2)

Eta, azkenik, (1) garapenaren abiapuntua eta (2) garapenaren bukaerako adierazpena lotuz:

\sigma ^{2}\geq \epsilon ^{2}P[|x-\mu |\geq \epsilon ]\rightarrow P[|x-\mu |\geq \epsilon ]\leq {\frac {\sigma ^{2}}{\epsilon ^{2}}}

Zorizko aldagai diskretu baterako modu berean frogatzen da, integralaren ordez batukaria eta f(x) dentsitate-funtzioaren ordez p(x) probabilitate-funtzioa ezarriz.

Markoven desberdintzan oinarritutako frogapena[aldatu | aldatu iturburu kodea]

$\scriptstyle Y=(X-E[X])^{2}\,$ aldagaia sortuz, $Y\,$ aldagairako Markoven desberdintza balia daiteke, balio ez negatiboak hartu eta bere itxaropen matematikoa, definizioz X aldagaiaren bariantza alegia, existitzen baita. Beraz,

P(Y\geq k^{2}E[Y])\leq {\frac {1}{k^{2}}}

Beste alde batetik, $\scriptstyle E[Y]=E[(X-E[X])^{2}]=\sigma _{X}^{2}$ betetzen denez:

P(Y\geq k^{2}E[Y])=P(\ (X-E[X])^{2}\geq k^{2}\sigma _{X}^{2}\ )=P(|X-E[X]|\geq k\sigma _{X})

Beraz,

P(|X-E[X]|\geq k\sigma _{X})\leq {\frac {1}{k^{2}}}

^[1]

Hirugarren frogapen sinple bat[aldatu | aldatu iturburu kodea]

Ondorengo frogapenak ez du kontuan hartzen banaketa jarraitua edo diskretua den eta ez du baliatzen Markoven desberdintza.^[2]

x aldagaian oinarrituta, zorizko aldagai berri hau sortzen da:

f(n)={\begin{cases}k^{2}\sigma _{X}^{2},&{\text{baldin }}|x-\mu _{x}|\geq k\sigma _{X}\\0,&{\text{baldin }}|x-\mu _{x}|<k\sigma _{X}\end{cases}}

Orduan,

$y\leq (x-\mu _{X})^{2}\rightarrow E[Y]=\sum yp(y)=k^{2}\sigma _{X}^{2}P[|x-\mu _{x}|\geq k\sigma _{X}]+0\times P[|x-\mu _{x}|<k\sigma _{X}]=k^{2}\sigma _{X}^{2}P[|x-\mu _{x}|\geq k\sigma _{X}]\leq E[(X-\mu _{X})^{2}]=\sigma _{X}^{2}$

Hasierako eta bukaerako adierazpenak $\scriptstyle k^{2}\sigma _{X}^{2}$ adierazpenekin zatituz, Txebixeven desberdintza eskuratzen da:

P[|x-\mu _{x}|\geq k\sigma _{X}]\leq {\frac {1}{k^{2}}}

Txebixeven desberdintzaren aldaerak[aldatu | aldatu iturburu kodea]

Banakuntza simetrikoak[aldatu | aldatu iturburu kodea]

Itxaropenaz eta bariantzaz gainera, banaketa simetrikoa dela ezartzen bada, mutur bakar baterako probabilitatea ezar daiteke, hurbildutako probabilitatea zati bi eginez:

\forall x_{0}<\mu \ ;P[X<x_{0}]\leq {\frac {\sigma ^{2}}{2(\mu -x_{0})^{2}}}

\forall x_{0}>\mu \ ;P[X>x_{0}]\leq {\frac {\sigma ^{2}}{2(x_{0}-\mu )^{2}}}

Aplikazioak[aldatu | aldatu iturburu kodea]

Probabilitate banaketa batetik itxaropena eta bariantza ezagutzen direnerako probabilitate-tarteak eratzeaz gainera, Txebixeven desberdintzak beste zenbait aplikazio ditu.

Konfiantza-tarteak[aldatu | aldatu iturburu kodea]

Parametro bati buruzko konfiantza-tarteak erabiltzen da, zenbateslearen lagin banaketari buruz itxaropena, konfidantza-tartea eratzeko parametroaren balioarekin bat etorri behar duena (hau da, zenbateslea alboragabea izan behar da) eta bariantza soilik ezagunak direnean. Konfidantza tarte jakin bat eratzeko jaso beharreko lagin-tamaina kalkulatzeko ere erabil daiteke.

Populazio baten batezbestekoari buruzko konfiantza-tartea[aldatu | aldatu iturburu kodea]

Populazio guztietarako lagin-batezbestekoaren itxaropena eta desbideratze estandarra hauek dira, non $\scriptstyle \mu$ populazio-batezbestekoa den eta n lagin-tamainaa:

\mu _{\overline {x}}=E[{\overline {x}}]=\mu

\sigma _{\overline {x}}=var[{\overline {x}}]={\frac {\sigma }{\sqrt {n}}}

Populazioa normala denean, gainera, lagin-batezbestekoa banaketa normalari jarraiki banatzen da eta beraz, konfiantza-tartea eratzeko banaketa normalean oinarritu behar da. Lagin-tamainaa handia denean (oro har, n>30) ere erabiliko da banaketa normala tartea eratzeko, limitearen teorema zentrala erabiliz, lagin-batezbestekoa normal banatzen baita kasu horretan. Beste kasu guztietan beraz, populazioa normaltzat jo ezin denean eta lagin-tamainaa txikia denean alegia, populazio-batezbestekoari buruzko konfiantza-tartea eratzeko Txebixeven desberdintza erabili behar da, arestian zehaztutako itxaropena eta bariantza baliatuz:

P[|{\overline {x}}-\mu |<k\sigma ]\geq 1-{\frac {1}{k^{2}}}

Hortik konfiantza-tarte hau eratzen da, $\scriptstyle 1-{\frac {1}{k^{2}}}$ konfiantza-mailakoa:

{\overline {x}}\pm k{\frac {\sigma }{\sqrt {n}}}

Adibidez, konfiantza-maila arruntetarako honela eratuko lirateke tarteak:

Konfiantza maila ( $\scriptstyle 1-\alpha$ )	$\scriptstyle k={\sqrt {\frac {1}{1-(1-\alpha )}}}$	Konfiantza-tartea
0.8	2.23	$\scriptstyle {\overline {x}}\pm 2.23{\frac {\sigma }{\sqrt {n}}}$
0.9	3.16	$\scriptstyle {\overline {x}}\pm 3.16{\sigma }{\sqrt {n}}$
0.95	4.47	$\scriptstyle {\overline {x}}\pm 4.47{\frac {\sigma }{\sqrt {n}}}$
0.99	10	$\scriptstyle {\overline {x}}\pm 10{\frac {\sigma }{\sqrt {n}}}$

Populazio-proportzio bati buruzko konfiantza-tarteak[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Proportzio baterako konfiantza-tarte»

Egoera guztietan $\scriptstyle {\hat {p}}$ lagin proportzioaren itxaropena eta desbideratzen estandarra hauek dira, non p populazio-proportzioa den eta n lagin-tamainaa:

\mu _{\hat {p}}=E[{\hat {p}}]=p

\sigma _{\hat {p}}=var[{\hat {p}}]={\sqrt {\frac {p(1-p)}{n}}}

Gainera, lagin-tamainaa handia denean (oro har, n>30) lagin-proportzioa banaketa normalaren bitartez hurbil daiteke eta orduan konfiantza-tartea gutxi gorabehera zehatza era daiteke. Lagin-tamainaa txikia denean, konfiantza-tartea eratzeko lagin-proportzioaren jatorriko banaketa den banaketa binomiala har daiteke oinarritzat, Clopper-Pearson tartea eratzeko ondoren. Beste soluzio bat, tarte zabalagoak (baina bide batez, zuhurragoak ere bai) ematen dituen arren, Txebixeven desberdintza erabiltzea da, arestiko itxaropena eta desbideratzeak erabiliz:

P[|{\hat {p}}-p|<\epsilon ]\geq 1-{\frac {\sigma ^{2}}{\epsilon ^{2}}}=1-{\frac {p(1-p)}{n\epsilon ^{2}}}

Konfiantza maila modu zuhur batez finkatzearren, p proportzio ezjakintasunean, $\scriptstyle 1-{\frac {p(1-p)}{nk^{2}}}$ adierazpenak balio minimoa hartzen duela pentsatu behar da: hori $\scriptstyle p(1-p)=1/4$ adierazpenaren gehienezko balioa betetzen denean gertatzen da, kontuan hartuz p probabilitatea 0 eta 1 balioen artean egon behar dela. Beraz,

P[|{\hat {p}}-p|<\epsilon ]\geq 1-{\frac {1}{4n\epsilon ^{2}}}

Hortik, konfiantza-tarte hau eratzen da:

{\hat {p}}\pm \epsilon

, non konfiantza

1-{\frac {1}{4n\epsilon ^{2}}}

den.

Ondorengo taulan, lagin-tamaina zenbaitetarako (lagin-tamainaa 30 edo handiagoa denean, hurbilketa normala erabil daiteke) eta gutxieneko ohiko konfiantza-mailetarako sortuko liratekeen tarteak azaltzen dira, aurreko formulatik abiatuta:

Lagin-tamainaa / Konfiantza-maila	%80	%90	%95	%99
n=3	$\scriptstyle {\hat {p}}\pm 0.645$	$\scriptstyle {\hat {p}}\pm 0.913$	-	-
n=5	$\scriptstyle {\hat {p}}\pm 0.559$	$\scriptstyle {\hat {p}}\pm 0.790$	-	-
n=10	$\scriptstyle {\hat {p}}\pm 0.354$	$\scriptstyle {\hat {p}}\pm 0.500$	$\scriptstyle {\hat {p}}\pm 0.707$	-
n=15	$\scriptstyle {\hat {p}}\pm 0.289$	$\scriptstyle {\hat {p}}\pm 0.408$	$\scriptstyle {\hat {p}}\pm 0.577$	-
n=20	$\scriptstyle {\hat {p}}\pm 0.250$	$\scriptstyle {\hat {p}}\pm 0.354$	$\scriptstyle {\hat {p}}\pm 0.500$	-
n=25	$\scriptstyle {\hat {p}}\pm 0.224$	$\scriptstyle {\hat {p}}\pm 0.316$	$\scriptstyle {\hat {p}}\pm 0.447$	-

Ikusten denez, Txebixeven desberdintzak oso konfiantza-tarte zabalak ematen ditu populazio-proportziorako, proportzioa [0,1] bitarteko balioak hartzen dituela kontuan hartuz. %99ko konfiantza-mailarako ezin da inongo tarterik zehaztu, kasu guztietan [0,1] mugetatik kanpo geratzen baita.

Zenbaki handien legea[aldatu | aldatu iturburu kodea]

Txebixeven desberdintza zenbaki handien lege ahula frogatzeko erabiltzen da, zeinak batezbesteko aritmetiko sinpleak populazioko batezbesteko edo itxaropen matematikotik distantzia batetik harago urruntzeko probabilitatea, laginaren tamainaa handitu ahala, zerorantz doala baieztatzen duen:

\lim _{n\to \infty }\Pr \!\left(\,|{\overline {X}}_{n}-\mu |>\varepsilon \,\right)=0.

Txebixeven desberdintzaren doitasuna[aldatu | aldatu iturburu kodea]

k-mugako banaketak[aldatu | aldatu iturburu kodea]

Txebixeven desberdintzak ezartzen duen probabilitate-muga hobezina dela esan daiteke, probabilitate-mugaren balioarekin bat datorren probabilitate-banaketa bati buruzko probabilitate zehatza existitzen delako. Txebixeven probabilitate-muga zehazki betetzen duten banaketak k-mugako banaketak direla esaten da. Hain zuzen, oinarrian honelakoak dira Txebixeven desberdintzaren k-mugako banaketak:

x	p(x)
-1	$\scriptstyle {\frac {1}{2k^{2}}}$
0	$\scriptstyle 1-{\frac {1}{k^{2}}}$
1	$\scriptstyle {\frac {1}{2k^{2}}}$

Arestiko probabilitate-banaketan itxaropena eta desbideratze estandarra $\scriptstyle \mu =0\$ eta $\scriptstyle \sigma =1/k$ hurrenik hurren direla jakinik eta Txebixeven desberdintza aplikatuz:

P[|X-\mu |<k\sigma ]=P[|X|<1]\leq 1-{\frac {1}{k^{2}}}

Probabilitate zehatza Txebixeven desberdintzaren mugaraino doi-doi heltzen da:

P[|X|<1]=P[X=0]=1-{\frac {1}{k^{2}}}

Froga daiteke aurreko probabilitate-banakuntzetarako burutzen den edozein y=mx+b motako aldagai aldaketen ondorioz sortutako probabilitate-banaketa berriak ere k balio bererako k-mugako banaketak direla. Hortik, x k-mugako banaketa orori, estandartuz, hau da, z=(x-μ)/σ aldaketa eginez, k-mugako banaketa estandar (batezbestekoa 0 eta desbideratzea 1 dituena, alegia) bakarra dagokiola froga daiteke.

Froga daiteke, beste alde batetik ez dagoela k-mugako probabilitate-banaketa jarraiturik.^[3]

k-bildutako banaketak[aldatu | aldatu iturburu kodea]

k-bildutako banakuntzetan probabilitateak, k balio jakin baterako, Txebixeven desberdintzak ezarritako probabilitate-mugatik urrutien dauden banaketak dira. Adibidez, Txebixeven desberdintzak P[80<X<120]≥0.60 betetzen dela ezartzen duen kasuetarako, k-bildutako banaketan P[80<X<120]=1 betetzen da. Arestiko atal batean, U(0,1) banaketa uniforme jarraitua k=2 baliotik gorako tarteetarako k-bildutako banaketa da. Zehatzago, probabilitate-banaketa bat k-bildutakoa dela esaten da $\scriptstyle P[|X-\mu |<k\sigma ]=1$ , hots, $\scriptstyle P[|X-\mu |\geq k\sigma ]=0$ betetzen denean.

Itxaropenetik batez besteko desbideratzea dela ezartzen duen desbideratze estandarraren definizioan oinarrituz, argi dago ez dagoela k<1 balio baterako k-bildutako banaketarik: probabilitate-masa guztia ezin da bildu $\scriptstyle \mu \pm \sigma$ baino estuagoa den tarte batean, $\scriptstyle \sigma$ parametroak itxaropenetik batez besteko desbideratzea adierazten duelako. Hala ere, badira ia k-bildutako-banaketak direnak.^[3] Probabilitate-banaketa hau definitzen bada, non $\scriptstyle \mu =0$ eta $\scriptstyle \sigma ={\frac {1}{\sqrt {n}}}$ betetzen diren:

x	p(x)
-1	$\scriptstyle {\frac {1}{2n}}$
0	$\scriptstyle 1-{\frac {1}{n}}$
1	$\scriptstyle {\frac {1}{2n}}$

\forall 0<k\leq 1\ ;\ P[|X-\mu |<k\sigma ]=1-{\frac {1}{n}}

, zeinen limitea 1 den, n infiniturantz joan ahala.

Beste alde batetik, k-bildutako banaketa izatetik neurri jakin batean hurbil dauden banaketak ere gara daitezke, baina oro har funtzio konplexuak dira, batere balio praktikorik ez dutenak.^[3]