Kuantil

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu
Bi banakuntzen kuantil zenbait erakusten dituen diagrama: kuantilak azpitik datuen portzentaje zehatz bat uzten duten balioak dira.

Estatistikan, kuantilak banaketa edo datu-multzo batean datu-kopuru bereko datu-azpimultzoak mugatzen dituzten balioak dira[1]. Adibidez, azterketa bat burutu duten ikasleen kalifikazioak jasotzen direnean, 4-koantilek banaketa osatzen duten kalifikazioak lau datu-azpimultzoetan zatitzen dute eta bakoitzean ikasleen %25 kokatzen da; 4-kuantil hiru daude, kuartil izenekoak, eta horrela, adibidez, hirugarren kuartilaren azpitik ikasleen %75ak daude.

Probabilitate banaketa baterako ere definitzen dira kuantilak. Notazio arrunt bati jarraiki, Q(p) koantila bere azpitik p probabilitatea uzten duen zorizko aldagaiaren balioa da. Era horretan, Q(0.75) 75garren pertzentila da, adibidez. Datuetarako, beraz, lagin-koantilak, Q(p) populazio-kuantilen zenbatespen moduan, \hat{Q}(p) izendatzen dira eta ordena-estatistikoetan oinarrituta kalkulatzen dira.

Kuantilek banaketa bateko kokagune jakingarriak zehazteaz gainera (ikasleen %80ak zein kalifikaziotik behera kokatzen diren, adibidez), hainbat estatistiko jasankor kalkulatzeko erabiltzen dira, hala nola zentro joerako neurrietan (moztutako batezbestekoak, kasu) eta sakabanatze-neurrietan (kuartil arteko ibiltartea eta dezil arteko ibiltartea, kasu).

Kuantil jakingarriak[aldatu | aldatu iturburu kodea]

Badira izen berezia jasotzen duten k-kuantil jakingarriak:

  • 4-kuantilak 3 dira eta kuartil deritze: Q1, Q2, Q3 (lehenengo kuartila, bigarren kuartila, hirugarren kuartila);
  • 10-kuantilak 9 dira eta dezil deritze: D1, ...., D9;
  • 100-kuantilak 99 dira eta pertzentil edo zentil deritze: P1, ...., P99.

Era berean kintilek eta oktilek maiztasun bereko 5 eta 8 azpimultzoetan, hurrenez hurren, zatitzen dute banaketa.

Kuantil ezberdinen artean baliokidetasunak daude; adibidez, lehenengo koartila bat dator 25garren pertzentilarekin.

Mediana 2-kuantila da, bere azpitik datuen %50ak utzi eta horrela banaketa bi zatitan egiten duelako [2]

Kuantilen kalkulua[aldatu | aldatu iturburu kodea]

x_1,x_2,\ldots,x_n\, datuetarako, oro har, interpolazio lineala darabilen formula honi jarraiki kalkulatzen dira kuantilak[3]:


\hat{Q}(p)=(1-\gamma )X_j+\gamma X_{j+1}\,\ ,


\ j=\lfloor np+m \rfloor\,
\gamma=(np+m)-\lfloor np+m \rfloor\, izanik.


Adibidez, toki batean otsaileko 3 egunetako x_1=2,x_2=5,x_3=10\, tenperatura minimoak jasota, m=0\, balioa aukeratuz:


\ j=\lfloor 3 \times 0.6 \rfloor=\lfloor 1.8 \rfloor=1\,
\gamma=(1.8)-\lfloor 1.8 \rfloor=1.8-1=0.8\, izanik.


\hat{Q}(0.6)=(1-0.8)X_1+ 0.8X_2=0.2 \times 2 + 0.8 \times 5 = 4.4


Horrela, lagin horretan oinarriturik, egun guztietatik %60etan tenperatura minimoa otsailean 4.4 edo txikiagoa dela zenbatesten da.

Estatistika-paketeetan koantilak kalkulatzeko bestelako aukerak ere eskaintzen dira, m\, balio ezberdinetarako. Ondoren, R estatistika paketeetan eskaintzen diren aukerak zehazten dira:


R aukera m Oharrak
R-4 m=0 p<1/n kasuan, Q(p)=x1 hartzen da. p=1 kasuan, Q(p)=xn hartzen da. Ez du ordea mediana ematen p=1/2 denean.
R-5 m=1/2 p<1/2n kasuan, Q(p)=x1 hartzen da. p ≥ (N - 1/2) / N kasuan, Q(p)=xn hartzen da.
R-6 m=p p < 1 / (N+1) kasuan, Q(p)=x1 hartzen da. pN / (N + 1) kasuan Q(p)=xn hartzen da.
R-7 m=1-p p=1 kasuan Q(p)=xn hartzen da.
R-8 m=(p+1)/3 p < (2/3) / (N + 1/3) kasuan, Q(p)=x1 hartzen da. p ≥ (N - 1/3) / (N + 1/3) kasuan Q(p)=xn hartzen da.
R-9 m=p/4+3/8 p < (5/8) / (N + 1/4) kasuan, Q(p)=x1 hartzen da. p ≥ (N - 3/8) / (N + 1/4) kasuan Q(p)=xn hartzen da. Horrela, populazioa normala denean, zenbatespenak ia alboragabeak dira.
m=2p-1/2 p < (3/2) / (N + 2) kasuan, Q(p)=x1 hartzen da. p ≥ (N + 1/2) / (N + 2) kasuan Q(p)=xn hartzen da.

Arestiko metodoarekin bat ez datozen formulak ere erabiltzen dira:

  • np baliotik gertuen dagoen zenbaki osoari dagokion datua kalkulatzen da; adibidez, 30. pertzentila kalkulatu behar bada 6 datuetan, 6×0.3=1.8 emaitza lortzen da eta beraz, gertuen dagoen zenbaki osoa 2 izanik, 30. pertzentila 2. datua izango da, datuak txikienetik handienera ordenaturik betiere; R paketeko 3. aukera da kantilak kalkulatzeko;
  • \lceil np+1/2 \rceil\, balioari dagokion datua kalkulatzen da. Adibidez, 20. pertzentila kalkulatu behar bada 6 datuetan, 6×0.2=1.2 emaitza lortzen da eta beraz, sabai-funtzioa erabiliz, 30. pertzentila 2. datua izango da; R paketeko 1. aukera da koantilak kalkulatzeko;
  • \lceil np+1/2 \rceil\, eta \lfloor np+1/2 \rfloor,balioei dagozkien datuen batez bestekoa kalkulatzen da. Adibidez, 20. pertzentila kalkulatu behar bada 6 datuetan, 6×0.2=1.2 emaitza lortzen da eta beraz, 30. pertzentila 1. eta 2. datuen batez besteko aritmetiko sinplea da; R paketeko 2. aukera da.

Kalkulua tartetan bilduriko datuetarako[aldatu | aldatu iturburu kodea]

Datuak tartetan bildurik daudenean, ez da ezagutzen datu bakoitzaren balio zehatza eta beraz, kuantilak zenbatesteko tarte barneko hurbilketa bat egin behar da interpolazio linealez. Adibidez, herri bateko biztanleen adinari buruzko datuak bilduta, \hat{Q}(0.3)=P_{30} balioa kalkulatu behar bada:

Biztanleen adinak Biztanleak Maiztasun metatuak
0-20 9 9
20-40 18 27
40-60 26 53
60-80 7 60
80-100 4 64

Lehenengo pausoa np kalkulatzea da. Kasu honetan: np=64×0.3=19.2. Beraz, 30. pertzentila 19.2garren datua litzateke, 20-40 tartean kokatzen dena, maiztasun metatuetan egiazta daitekeenez. 19.2garren datuaren balio hurbildua hiruko erregela sinple batez kalkulatzen da:

Kuantilen kalkulua datuak tartetan bilduta daudenean, interpolazio linealez egiten da. 30. pertzentila 19.2garren datua denez, dagokion tartea 20-40 da, datuen maiztasun-taulan ikusten denez. 30. pertzentiletik behera (marra eten gorriz) 19.2 datu daude. 40 urtetik behera 27 biztanle daude. 20 urtetik behera 9 biztanle daude. Bi puntuak lotuz, OAB eta OCD hirukiak baliokideak dira eta, beraz, katetoen arteko erlazio berdina dute. OAB triangeluan, OB=x eta AB=10.2. OCD triangeluan OD=20 eta CD=18. Hiruko erregela sinple batez x=11.33 eta beraz, mediana 40+x=31.33 dela ondorioztatzen da.

Horrela, biztanleen %30ak 31.33 urtetik beherakoa dela zenbatesten da. Emaitza hau hurbilketa bat dela nabarmendu behar da. Emaitza zehatza izateko jatorrizko datuetara jo behar da.

Historia[aldatu | aldatu iturburu kodea]

Kuantilen kontzeptua 1879. urtean sortu bazen ere, kuartilak lehenengo aldiz erabili zirenean, 1940. urtean agertu zen terminoa lehen aldiz Maurice Kendall estatistikariaren eskutik, berak idatziriko "Note on the Distribution of Quantiles for Large Samples" artikuluan.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Aldagai kuantitatibo eta ordinaletarako kalkula daitezke koantilak.
  2. Gainera, mediana bat dator bigarren koartilarekin, bosgarren dezilarekin eta berrogeita hamargarren pertzentilarekin: Me=Q2=D5=P50.
  3. \ \lfloor x \rfloor funtzioa zoru-funtzioa da. Adibidez, \ \lfloor 4.72 \rfloor=4.

Kanpo loturak[aldatu | aldatu iturburu kodea]

Commonsen badira fitxategi gehiago, gai hau dutenak: Kuantil Aldatu lotura Wikidatan