Kurtosi

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu
Kurtosi maila ezberdinak: kurtosi handieneko banakuntza gorria da, zentroan zorrotza eta mutur luze eta astunak dituelako; kurtosi txikiagoa du banakuntza berdeak, zentroan zapalagoa eta mutur motzagoak eta finagoak dituelako; banakuntza urdina da kurtosi txikiena duena, zapala izateak gainera, muturrak ez dituelako. Nabarmentzekoa da banakuntza simetriko hauek zentro eta bariantza berdintsuak dituztela eta hala ere ezberdinak direla: kurtosia dute ezberdin.

Estatistikan, kurtosia (grezierazko κυρτός, kyrtos edo kurtos, "gainezka egin", "nabarmendu") banakuntza baten zorroztasun maila da. Batezbesteko eta bariantza berdina dituzten bi banakuntza simetriko itxuraz ezberdinak izan daitezkeela eta, kurtosi ezaugarria aztertzen da. Itxuraz, kurtosi handia duen banakuntza bat zorrotzagoa izango da bere batez bestekoaren inguruan; zehatzago muturretatik bariantzaren zati handiena hartzen duena izango da kurtosi handiena duena, zentroan kokatzen diren datuek dakarten bariantzaren aldean. Kurtosi handiko banakuntzek zentro zorrotza dute eta mutur luze eta astunagoak; kurtosi txikiagoko banakuntzek, berriz, zentro zapala eta mutur labur eta arinagoak dituzte[1]. Horrela, era grafiko batean, banakuntza batean burua (zentroa), sorbaldak eta besoak bereizten direla, kurtosi handiko banakuntzetan maiztasuna sorbaldetatik beso eta buruetara mugitu dela adierazi izan da.

Kurtosiak banakuntzaren ezaugarri jakingarri bat azaltzeaz gainera, aplikazio interesgarriak ditu. Mutur eta muturreko datuen azterketan kontzeptu erabilgarria da. Aldi berean, estatistikan eredu gisa maiz erabiltzen den banakuntza normalak kurtosi-maila jakina eta finkoa duenez, kurtosia datu-multzo baterako eredu normala egokia den baieztatu ahal izateko erabiltzen da.

Eduki-taula

Kurtosiaren lagin neurriak [aldatu]

Pearsonen kurtosi-koefizientea [aldatu]

Lagin edo datu multzoetarako ohiko kurtosi neurria honela definitzen da Karl Pearsonek asmatu zuen koefizientea, n lagin tamaina izanik eta x_1, x_2,\ldots,x_n\, datuetarako[2][3][4]:


b_2= \frac{m_4}{m_{2}^2} = \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^4}{\left(\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2\right)^2}\ ,

non m_k\, k mailako lagin-momentu zentrala den.

Frogatu denez, neurri honen arabera kurtosia batez bestekoaren inguruan desbideratze estandar bateko tarte batean dagoen sakabanatze moduan ulertzen da[5]. Aurreko neurri horretatik eratorrita eta kontuan harturik banakuntza normalaren kurtosi-mailak, aurreko prozedura erabiliz, 3 dela egoera guztietan, aurreko neurria era honetan ere kalkulatzen da, kurtosi-soberakina izena erabiliz, interpretazioa normalizatzeko:  b_2 - 3\, .

Emaitzaren interpretaziorako banakuntza normala hartzen da erreferentzia gisa, banakuntza normalak 3 balioa hartzen baitu beti:

  •  b_2-3 kurtosi koefizienteak 0 balioa hartzen duenean, edo 0tik gertuko balio bat lagin errore bat onartzen bada, banakuntza edo datu multzoa mesokurtikoa dela esaten da, maila kurtosi ertaina duela alegia;
  • koefizienteak balio positiboa hartzen badu, banakuntza leptokurtikoa dela esaten da, maila kurtosi altua duela, edo banakuntza normala baino zorrotzagoa dela alegia;
  • koefizienteak balio negatiboa hartzen badu, banakuntza platikurtikoa dela esaten da, banakuntza normala baino zapalagoa dela alegia.

Banakuntza U itxurakoa denean, kurtosi-gehiegizkoak -1.2 balioa baino txikiagoa da [6].

Kurtosi maila txikiena b_2=-2\,, datu guztiak batez bestekoaren inguruko desbideratze bateko tarte batean daudenean (\overline{x} \pm s_x\, edo \mu \pm \sigma\, tartean kokatzen direnean, alegia) gertatzen dena. Egoera honetako adibidea txanpon baten jaurtiketak dira, non emaitza bakoitza (0 eta 1, adibidez) %50eko maiztasunez gertatzen diren: batez bestekoa 0.5 da eta desbideratze estandarra ere 0.5 eta, beraz, emaitza guztiak, 0 eta 1 alegia, 0.5±0.5 tartean daude.

Koefiziente honen eragozpena bere ez-jasankortasuna: muturreko datuek koefizientearen emaitza alde batera zein bestera eraman dezakete, interpretazioa aldaraziz. Abantaila gisa, datu guztiak kontuan hartzen dituela esan behar da.

Kalkulua datu isolatuetarako [aldatu]

xi (x_i-\overline{x})^2\, (x_i-\overline{x})^4\,
1 (1-3)2=4 (1-3)4=16
3 (3-3)2=0 (3-3)4=0
3 (3-3)2=0 (3-3)4=0
3 (3-3)2=0 (3-3)4=0
5 (5-3)2=4 (5-3)4=16
15 8 32


\overline{x}=\frac{15}{5}=3\,
 b_2 = \frac{\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^4}{\left(\tfrac{1}{n} \sum_{i=1}^n (x_i - \overline{x})^2\right)^2} - 3 =
\frac{32/5}{(8/5)^2}-3=-0.5

Kurtosi-koefizientea 0 baino txikiagoa denez, datuek banakuntza platikurtiko bat, banakuntza normala baino banakuntza zapalagoa, osatzen dutela ondorioztatu behar da [7].

Kurtosi-neurri jasankorrak [aldatu]

Pearsoen kurtosi-koefizientearen alternatiba jasankor moduan, koefiziente alternatiboak proposatu dira. Moorsek (1988) [5][8] oktil edo 8-koantiletan oinarrituriko koefiziente hau proposatu zuen:

\frac{(O_7-O_5)+(O_3-O_1)}{O_6-O_2}=\frac{(P_{87.5}-P_{62.5})+(P_{37.5}-P_{12.5})}{P_{75}-P_{25}}

non O 8-koantilak eta P dagozkien pertzentilak diren.

Koefizienteak 1.23 balioa hartzen du banakuntza normalerako eta 1 balioa banakuntza uniformerako. Beraz, era normalizatuan honela kalkula daiteke koefizientea, Pearsonen koefizientearekin egiten denaren antzera:

\frac{(O_7-O_5)-(O_3-O_1)}{O_6-O_2}-1.23

Interpretazioari dagokionez, positiboa bada banakuntza leptokurtikoa ondorioztatuko da, eta platikurtikoa negatiboa bada.

Kurtosiaren zenbatespena [aldatu]

Datuetarako arestian emandako g_2\, kurtosirako estatistikoa zenbatesle alboratua da. Hori dela eta, populazio bateko kurtosia zenbatesteko ohiko zenbateslea hau da (populazio normaletarako ezik, alboratua ere badena, ordea):


\begin{align}
\beta_2 & = \frac{k_4}{k_{2}^2} \\
& = \frac{n^2\,((n+1)\,m_4 - 3\,(n-1)\,m_{2}^2)}{(n-1)\,(n-2)\,(n-3)} \; \frac{(n-1)^2}{n^2\,m_{2}^2} \\
& = \frac{n-1}{(n-2)\,(n-3)} \left( (n+1)\,\frac{m_4}{m_{2}^2} - 3\,(n-1) \right) \\
& = \frac{n-1}{(n-2) (n-3)} \left( (n+1)\,g_2 + 6 \right) \\
& = \frac{(n+1)\,n\,(n-1)}{(n-2)\,(n-3)} \; \frac{\sum_{i=1}^n (x_i - \bar{x})^4}{\left(\sum_{i=1}^n (x_i - \bar{x})^2\right)^2} - 3\,\frac{(n-1)^2}{(n-2)\,(n-3)} \\
& = \frac{(n+1)\,n}{(n-1)\,(n-2)\,(n-3)} \; \frac{\sum_{i=1}^n (x_i - \bar{x})^4}{k_{2}^2} - 3\,\frac{(n-1)^2}{(n-2) (n-3)}
\end{align}

Aplikazioak [aldatu]

Normaltasunerako frogak diren D'Agostinoren K-karratu froga eta Jarque-Bera froga kurtosian oinarritzen dira.

Erreferentziak [aldatu]

  1. Testuliburu zenbaitetan akats nabarmena dago: kurtosia zorroztasun hutsa dela adierazten dute, kurtosi handiko edo txikiko banakuntzetako muturren ezaugarriak aipatu ere egin gabe.
  2. Beraz, kurtosia 4. mailako momentu estandarra da.
  3. Bariantzaren karratuaz zatitzean, muturrek dakarten bariantzaren gehikuntzaren efektua ezabatu eta horrela kurtosiari bariantzarekin izan dezakeen erlazioa baztertzen da.
  4. Neurri hau adimentsionala, hots, unitaterik gabea da. Gainera, eskala-aldaketa eginez ez da aldatzen.
  5. a b (Ingelesez) Moors, J. J. A. (1988), «A quantile alternative for kurtosis», The statistician (37): 25-32, http://www.jstor.org/pss/2348376 
  6. -1.2 baita, hain zuzen, banakuntza uniformeak hartzen duen kurtosi-gehiegizko balioa.
  7. Azken ondorio bat emateko, emaitzaren adierazgarritasuna aztertu behar da, balioa 0tik aski aldentzen den egiaztatu alegia.
  8. Kim, Tae-Hwam; White, Halbert (2003), On More Robust Estimation of Skewness and Kurtosis: Simulation and Application to the S&P500 Index, http://escholarship.org/uc/item/7b52v07p#page-1 .

Kanpo loturak [aldatu]

Commons-logo.svg
Commonsen badira fitxategi gehiago, gai hau dutenak:
Kurtosia