Kurtosi

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu
Kurtosi maila ezberdinak: kurtosi handieneko banaketa gorria da, zentroan zorrotza eta mutur luze eta astunak dituelako; kurtosi txikiagoa du banaketa berdeak, zentroan zapalagoa eta mutur motzagoak eta finagoak dituelako; banaketa urdina da kurtosi txikiena duena, zapala izateak gainera, muturrak ez dituelako. Nabarmentzekoa da banaketa simetriko hauek zentro eta bariantza berdintsuak dituztela eta hala ere ezberdinak direla: kurtosia dute ezberdin.

Estatistikan, kurtosia (grezierazko κυρτός, kyrtos edo kurtos, "gainezka egin", "nabarmendu") banaketa baten zorroztasun maila da. Batezbesteko eta bariantza berdina dituzten bi banaketa simetriko itxuraz ezberdinak izan daitezkeela eta, kurtosi ezaugarria aztertzen da. Itxuraz, kurtosi handia duen banaketa bat zorrotzagoa izango da bere batez bestekoaren inguruan; zehatzago muturretatik bariantzaren zati handiena hartzen duena izango da kurtosi handiena duena, zentroan kokatzen diren datuek dakarten bariantzaren aldean. Kurtosi handiko banakuntzek zentro zorrotza dute eta mutur luze eta astunagoak; kurtosi txikiagoko banakuntzek, berriz, zentro zapala eta mutur labur eta arinagoak dituzte[1]. Horrela, era grafiko batean, banaketa batean burua (zentroa), sorbaldak eta besoak bereizten direla, kurtosi handiko banakuntzetan maiztasuna sorbaldetatik beso eta buruetara mugitu dela adierazi izan da.

Kurtosiak banaketaren ezaugarri jakingarri bat azaltzeaz gainera, aplikazio interesgarriak ditu. Mutur eta muturreko datuen azterketan kontzeptu erabilgarria da. Aldi berean, estatistikan eredu gisa maiz erabiltzen den banaketa normalak kurtosi-maila jakina eta finkoa duenez, kurtosia datu-multzo baterako eredu normala egokia den baieztatu ahal izateko erabiltzen da.

Kurtosiaren lagin neurriak[aldatu | aldatu iturburu kodea]

Pearsonen kurtosi-koefizientea[aldatu | aldatu iturburu kodea]

Lagin edo datu multzoetarako ohiko kurtosi neurria honela definitzen da Karl Pearsonek asmatu zuen koefizientea, n lagin tamaina izanik eta x_1, x_2,\ldots,x_n\, datuetarako[2][3][4]:


b_2= \frac{m_4}{m_{2}^2} = \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^4}{\left(\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2\right)^2}\ ,

non m_k\, k mailako lagin-momentu zentrala den.

Frogatu denez, neurri honen arabera kurtosia batez bestekoaren inguruan desbideratze estandar bateko tarte batean dagoen sakabanatze moduan ulertzen da[5]. Aurreko neurri horretatik eratorrita eta kontuan harturik banaketa normalaren kurtosi-mailak, aurreko prozedura erabiliz, 3 dela egoera guztietan, aurreko neurria era honetan ere kalkulatzen da, kurtosi-soberakina izena erabiliz, interpretazioa normalizatzeko:  b_2 - 3\, .

Emaitzaren interpretaziorako banaketa normala hartzen da erreferentzia gisa, banaketa normalak 3 balioa hartzen baitu beti:

  •  b_2-3 kurtosi koefizienteak 0 balioa hartzen duenean, edo 0tik gertuko balio bat lagin errore bat onartzen bada, banaketa edo datu multzoa mesokurtikoa dela esaten da, maila kurtosi ertaina duela alegia;
  • koefizienteak balio positiboa hartzen badu, banaketa leptokurtikoa dela esaten da, maila kurtosi altua duela, edo banaketa normala baino zorrotzagoa dela alegia;
  • koefizienteak balio negatiboa hartzen badu, banaketa platikurtikoa dela esaten da, banaketa normala baino zapalagoa dela alegia.

Banakuntza U itxurakoa denean, kurtosi-gehiegizkoak -1.2 balioa baino txikiagoa da [6].

Kurtosi maila txikiena b_2=-2\,, datu guztiak batez bestekoaren inguruko desbideratze bateko tarte batean daudenean (\overline{x} \pm s_x\, edo \mu \pm \sigma\, tartean kokatzen direnean, alegia) gertatzen dena. Egoera honetako adibidea txanpon baten jaurtiketak dira, non emaitza bakoitza (0 eta 1, adibidez) %50eko maiztasunez gertatzen diren: batez bestekoa 0.5 da eta desbideratze estandarra ere 0.5 eta, beraz, emaitza guztiak, 0 eta 1 alegia, 0.5±0.5 tartean daude.

Koefiziente honen eragozpena bere ez-jasankortasuna: muturreko datuek koefizientearen emaitza alde batera zein bestera eraman dezakete, interpretazioa aldaraziz. Abantaila gisa, datu guztiak kontuan hartzen dituela esan behar da.

Kalkulua datu bakanetarako[aldatu | aldatu iturburu kodea]

xi (x_i-\overline{x})^2\, (x_i-\overline{x})^4\,
1 (1-3)2=4 (1-3)4=16
3 (3-3)2=0 (3-3)4=0
3 (3-3)2=0 (3-3)4=0
3 (3-3)2=0 (3-3)4=0
5 (5-3)2=4 (5-3)4=16
15 8 32


\overline{x}=\frac{15}{5}=3\,
 b_2 = \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^4}{\left(\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2\right)^2} - 3 =
\frac{32/5}{(8/5)^2}-3=-0.5

Kurtosi-koefizientea 0 baino txikiagoa denez, datuek banaketa platikurtiko bat, banaketa normala baino banaketa zapalagoa, osatzen dutela ondorioztatu behar da [7].

Kurtosi-neurri jasankorrak[aldatu | aldatu iturburu kodea]

Pearsoen kurtosi-koefizientearen alternatiba jasankor moduan, koefiziente alternatiboak proposatu dira. Moorsek (1988) [5][8] oktil edo 8-koantiletan oinarrituriko koefiziente hau proposatu zuen:

\frac{(O_7-O_5)+(O_3-O_1)}{O_6-O_2}=\frac{(P_{87.5}-P_{62.5})+(P_{37.5}-P_{12.5})}{P_{75}-P_{25}}

non O 8-koantilak eta P dagozkien pertzentilak diren.

Koefizienteak 1.23 balioa hartzen du banaketa normalerako eta 1 balioa banaketa uniformerako. Beraz, era normalizatuan honela kalkula daiteke koefizientea, Pearsonen koefizientearekin egiten denaren antzera:

\frac{(O_7-O_5)-(O_3-O_1)}{O_6-O_2}-1.23

Interpretazioari dagokionez, positiboa bada banaketa leptokurtikoa ondorioztatuko da, eta platikurtikoa negatiboa bada.

Kurtosiaren zenbatespena[aldatu | aldatu iturburu kodea]

Datuetarako arestian emandako g_2\, kurtosirako estatistikoa zenbatesle alboratua da. Hori dela eta, populazio bateko kurtosia zenbatesteko ohiko zenbateslea hau da (populazio normaletarako ezik, alboratua ere badena, ordea):


\begin{align}
\beta_2 & = \frac{k_4}{k_{2}^2} \\
& = \frac{n^2\,((n+1)\,m_4 - 3\,(n-1)\,m_{2}^2)}{(n-1)\,(n-2)\,(n-3)} \; \frac{(n-1)^2}{n^2\,m_{2}^2} \\
& = \frac{n-1}{(n-2)\,(n-3)} \left( (n+1)\,\frac{m_4}{m_{2}^2} - 3\,(n-1) \right) \\
& = \frac{n-1}{(n-2) (n-3)} \left( (n+1)\,g_2 + 6 \right) \\
& = \frac{(n+1)\,n\,(n-1)}{(n-2)\,(n-3)} \; \frac{\sum_{i=1}^n (x_i - \bar{x})^4}{\left(\sum_{i=1}^n (x_i - \bar{x})^2\right)^2} - 3\,\frac{(n-1)^2}{(n-2)\,(n-3)} \\
& = \frac{(n+1)\,n}{(n-1)\,(n-2)\,(n-3)} \; \frac{\sum_{i=1}^n (x_i - \bar{x})^4}{k_{2}^2} - 3\,\frac{(n-1)^2}{(n-2) (n-3)}
\end{align}

Aplikazioak[aldatu | aldatu iturburu kodea]

Normaltasunerako frogak diren D'Agostinoren K-karratu froga eta Jarque-Bera froga kurtosian oinarritzen dira.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Testuliburu zenbaitetan akats nabarmena dago: kurtosia zorroztasun hutsa dela adierazten dute, kurtosi handiko edo txikiko banakuntzetako muturren ezaugarriak aipatu ere egin gabe.
  2. Beraz, kurtosia 4. mailako momentu estandarra da.
  3. Bariantzaren karratuaz zatitzean, muturrek dakarten bariantzaren gehikuntzaren efektua ezabatu eta horrela kurtosiari bariantzarekin izan dezakeen erlazioa baztertzen da.
  4. Neurri hau adimentsionala, hots, unitaterik gabea da. Gainera, eskala-aldaketa eginez ez da aldatzen.
  5. a b (Ingelesez)   Moors, J. J. A. (1988), «A quantile alternative for kurtosis», The statistician (37): 25-32, http://www.jstor.org/pss/2348376 .
  6. -1.2 baita, hain zuzen, banaketa uniformeak hartzen duen kurtosi-gehiegizko balioa.
  7. Azken ondorio bat emateko, emaitzaren adierazgarritasuna aztertu behar da, balioa 0tik aski aldentzen den egiaztatu alegia.
  8.   Kim, Tae-Hwam; White, Halbert (2003), On More Robust Estimation of Skewness and Kurtosis: Simulation and Application to the S&P500 Index, http://escholarship.org/uc/item/7b52v07p#page-1 ..

Kanpo loturak[aldatu | aldatu iturburu kodea]

Commonsen badira fitxategi gehiago, gai hau dutenak: Kurtosi Aldatu lotura Wikidatan