Sturges erregela

Wikipedia, Entziklopedia askea
Sturgesen erregela» orritik birbideratua)

Estatistikan, Sturges erregela, datu-multzo bati dagokion histograma bat eratzeko behar den tarte kopurua kalkulatzen duen erregela bat da, Herbert Sturgesek 1926 urtean proposatutakoa. Erregelak n datu kopuruaren arabera kalkulatzen du tarte kopurua:

Erregelak datu-multzoa banaketa normal bati jarraiki banatzen dela hartzen du hipotesi moduan. Oinarri estatistiko sendorik ez badu ere, maiz erabiltzen da praktikan.

Formularen dedukzioa[aldatu | aldatu iturburu kodea]

Sturgesen arabera histograma ideala i=0, 1, ..., (k-1) balioetan zentraturiko tarteak dituena da, balioko maiztasunekin. Adibidez, k=5 tarteetarako, maiztasun idealak 1-5-10-5-1 lirateke. [1]Beraz, datu kopuru totala honela adieraz daiteke:

Koefiziente binomialen propietateak erabiliz,[2]

Eta hortik, k tarte kopurua honela kalkulatu behar da:

Formularen hipotesiak[aldatu | aldatu iturburu kodea]

maiztasunak B(k-1,0.5) banaketa binomial bateko probabilitateak kalkulatzeko koefiziente binomialak dira. Banakuntza binomial honetan, probabilitateak honela kalkulatzen dira:

.

handitzean, aurreko probabilitateak (eta beraz, enpirikoki dagozkion maiztasunak) mendean soilik geratzen dira, koefizientea ez baitago i-ren mendean.

Beste alde batetik, banaketa binomial hori, k handietarako banaketa normal baten bitartez hurbildu daiteke.

Beraz, Sturgesek histogramako tarteetako erdipuntuak banaketa binomial bati jarraiki banatzen direla irizten du. Tarte kopuru handietarako, banaketa normala litzateke datuen eredua.[3]

Erabilera[aldatu | aldatu iturburu kodea]

Sturges erregela eratzean onarttuako hipotesiak oso murritzak direnez, formulak oinarri estatistiko eskasa duela esan daiteke. Hala ere, maiz erabiltzen da praktikan, bereziki datu-kopuru txikietarako (n<200) formula zorrotzagoen antzeko emaitzak ematen dituelako, datu-kopurua soilik hartuta eta datuetan oinarrituta beste kalkulurik egin beharrik gabe. Datu kopuru handiagoetarako erregelak beste formulek baino tarte kopuru txikiagoa ematen du, bereziki alborapen handiko eta moda anitzeko datu-multzoetan, histograma leunduz horrela.

Formula aplikatzean, tarte kopurua zenbaki ez-osoak ematen ditu oro har. Gehienetan, gehiegiz biribildu eta hurrengo balioa hartzen da aplikatu beharreko tarte kopuru moduan.

Ondoren, datu-kopuru batzuetarako ematen dituen tarte kopuruak azaltzen dira:


n (datu kopurua) k (tarte kopurua)
20-32 6
33-64 7
64-128 8
128-200 9

Erreferentziak[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]

  1. (Ingelesez) Sturges, Herbert A.. (1926). «The Choice of a Class Interval» Journal of the American Statistical Association.
  2. (Ingelesez) Binomial Sums, mathworld.wolfram.com, 2012-11-07an kontsultatua.
  3. (Ingelesez) Scott, David W.. (1992). Multivariate Density Estimation. , 47-48 or..