Histograma

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu
Pertsona multzo baten altueren histograma.

Estatistikan, histograma balio ezberdin asko hartzen dituen aldagai kuantitatibo bati buruzko datuak (adibidez, pertsonen altuerak, autobus batek ibilbide bat egiteko behar duen denbora minututan) irudikatzeko erabiltzen den datu-diagrama mota bat da, datuak tartetan bildu eta maiztasun-banaketa osatu ondoren, maiztasunen araberako zutabeak altxatuz. Histogramatik maiztasun-poligono izeneko diagrama eratortzen da. Biztanleria-piramidea ere histogramak baliatuz eratzen da. Ez da diagrama egokia datu kopurua txikiegia denean (20 bat baino gutxiago); kasu horietarako puntu diagrama egokiagoa da. Estatistikan gehien erabiltzen den datu-diagrametako bat da, datuen ezaugarri estatistiko nagusienak (zentroa, sakabanatzea, ...) hautemateko aukera ematen baitu. Halaber, datu-multzo zenbait alderatzeko aukera ematen du, dagozkien histogramak batera aztertuz.

Eduki-taula

Adibide bat [aldatu]

Datu hauek jaso dira, tomate bariedade jakin bateko pisuari buruzkoak, kilotan:

0,547 0,563 0,532 0,521 0,514 0,547 0,578 0,532 0,552 0,526 0,534 0,560 0,502 0,503 0,516 0,565
0,532 0,574 0,521 0,523 0,542 0,539 0,543 0,548 0,565 0,569 0,574 0,596 0,547 0,578 0,532 0,552
0,554 0,596 0,529 0,555 0,559 0,503 0,499 0,526 0,551 0,589 0,588 0,568 0,564 0,568 0,556 0,523
0,526 0,579 0,551 0,584 0,551 0,512 0,536 0,567 0,512 0,553 0,534 0,559 0,498 0,567 0,589 0,579

Datuak 7 tartetan biltzea erabaki bada, tarteak zehazteko pauso hauek jarraitu behar dira:

  • datu txikiena (0.498) eta handiena (0.596) bilatu eta diferentzia kalkulatu (0.596-0.498=0.098);
  • diferentzia zati tarte kopurua kalkulatu, 0.098/7=0.014;
  • balio hori zenbaki esanguratsu batera gehiegiz borobildu, tarte erregularrak sortuko dituen tartearen zabalera izango baita, 0.014→0.015;
  • tarte zabalera bider tarte kopurua kalkulatu, 0.015×7=0.105; balio hori tarte guztiek hartzen duten zabalera izango da
  • datu txikienaren azpitik dagoen balio esanguratsu batetik hasi eta egiaztatu aurreko zabalera osoarekin datu guztiak estaltzen diren; adibidez, 0.495 balio hartuz, 0.495+0.105=0.600 eta horrela datu guztiak estaltzen dira;
  • tarteak osatu behar dira, balio txikienetik abiatuta, aldi bakoitzean 0.015 gehituz: 0.495-0.510, 0.510-0.525, ...
  • datuak tartetan bildu eta maiztasun absolutuak eta erlatiboak kalkulatu behar dira.

Aurreko pausoak burutuz maiztasun-banaketa hau eskuratzen da:

Tomateen pisuen histograma: zutabeek altuerak maiztasun absolutuen arabera altxatu dira. Maiztasun erlatiboak (portzentajeak) erabiliz histograma berbera suertatuko litzateke.
Tomateen pisuak
Tartea (kilotan) Tomateak (maiztasun absolutua) Portzentajea (maiztasun erlatiboak)
0.495-0.510 5  %7.8
0.510-0.525 8  %12.5
0.525-0.540 12  %18.7
0.540-0.555 14  %21.9
0.555-0.570 13  %20.3
0.570-0.585 7  %10.9
0.585-0.600 5  %7.8
64 %100

Histogramak eratzeko gidalerroak [aldatu]

  • Tarte kopurua 5-15 bitartekoa izatea gomendatzen da, oro har. Tarte kopuru txikiegia ezartzen bada, informazio-galera handia gertatzen da; tarte gehiegi eratzen badira, berriz, histogramak egitura nahasia erakust dezake, datuak behar bezainbat bildu ez direlako. Hala ere, badira tarte-kopuru egokiena kalkulatzen duten formula zenbait.
  • Tarteak eskuinetik irekiak eta ezkerretik itxiak dira, [-,-) motakoak alegia. Honela, 0.570 kiloko tomate bat 0.570-0585 tartean barneratu behar da eta ez aurreko 0.555-0.570 tartean.
  • Balio erregularreko tarteak eratuko dira; adibidez, 5-10, 10-15, ...
  • Oro har, zabalera konstanteko tarteak eratuko dira.

Histogramak eta informazio-galera [aldatu]

Jatorrizko datuak tarteetan biltzean, histogramak informazio-galera dakar datu haien aldean. Datuak zenbat eta tarte gutxiagotan biltzen diren, orduan eta informazio-galera handiagoa dago. Tarte kopuru handia ezartzen denean, berriz, informazio galera txikia da baina histograma xedea, datuak modu grafiko batean laburbiltzea alegia, kolokan gera daiteke. Histograma bateko tarte-kopurua finkatzeko, oreka bat bilatu behar da, beraz, datuak behar bezala laburbildu eta informazio gehiegi ez galtzeko helburuen artean. Tarte kopuru egoki batek informazio behar den mailan laburbiltzen du informazioa, datuen egitura modu argian azalaraziz. Histogramak dakarren informazio galdera saihesteko, orobat datuak tartetan biltzen dituen adar eta orrien diagrama izenekoa ere garatu da aukera moduan.

Tarte kopurua (k) eta tarte-zabalera (h) kalkulatzeko erregelak eta formulak [aldatu]

Erregela eta formula zenbait garatu dira histogramako tarte kopurua edo tarte zabalera finkatzeko. Sturgesen erregelak datuetarako eredu eredu normal bat ezartzen du. Scotten erregelak ere banakuntza normala hartzen erreferentzia moduan, baina oinarri teoriko sendoagoekin. Freedmam Diaconisen erregela oinarri estatistiko sendoak ditu eta ez du aurrez datuetarako inongo eredurik ezartzen. Doaneren erregela Sturgesen erregelaren hobekuintza bat da, datuetarako eredu egokiena normala ez denean. Tarte kopurua kalkulatzen duten formulen kasuan zenbaki ez osoa ateratzen denean, hurrengo zenbaki osora borobiltzea izaten da gehien erabiltzen den irizpidea.

Erregelaren izena Formula Erabilera
Sturgesen erregela k =  \log_2 n + 1 = \frac{\ln n}{\ln 2}-1 n, datu-kopurua
Scotten erregela h = \frac{3.5 s}{n^{1/3}} n, datu-kopurua; s, desbideratze estandarra
Freedman-Diaconisen erregela h = 2 \frac{\operatorname{I_Q}}{n^{1/3}} n, datu-kopurua; IQ, kuartil arteko ibiltartea
Doaneren erregela k= 1 + \ln n + \ln \Big(1+k\sqrt{\frac{n}{6}}\Big) k, Pearsonen kurtosi-koefizientea; n, datu-kopurua
- k = \sqrt{n}\, Oinarri teorikorik gabekoa, baina batzuetan erabilia.

Tarte zabalera ezberdinak [aldatu]

Argitasunagatik komeni izaten da tartearen zabalera konstantea izatea, baina batzuetan, histograman zehar maiztasunik gabeko hutsuneak sor ez daitezen, tarteak bateratzea, zabaltzea eta estutzea komeni da. Tarte-zabalera konstanterik gabe eratzen diren histogramak bereziki alborapen nabarmena duten datu-multzoei aplikatzen zazikie. Beste batzuetan, hasierako eta bukaerako tarteak mugatu gabe uztea gomendatzen da (adibidez, >100, <25). Zabalera ez konstanteko egoera horietan guztietan aldaketa batzuk egin behar dira histograma eratzeko, zutabeek datuen trinkotasuna edo dentsitatea era egokian irudika dezaten. Zehatzago, tarte bakoitzeko zutabearen altuera, a alegia, honela kalkulatu behar da, n tarteko maiztasuna, N datu kopuru totala eta h tarte zabalera izanik:

Ezker aldeko maiztasun-banaketan 10-30 tartean 5-10 tartean baino datu gehiago bildu arren, dentsitatea, eta ondorioz zutabearen altuera, handiagoa izan behar da 5-10 tartean, 5 datu 5-10 tartean gehiago baitira 8 datu 10-30 tartean baino.
a=\frac{n}{Nh}


Tartea n (maiztasun absolutua) Dentsitatea (a=n/Nh)
0-3 4 0.055
3-4 2 0.083
4-5 5 0.208
5-10 5 0.041
10-30 8 0.016
24

N-tigramak [aldatu]

Maiztasun-banaketa baten irakurketa sinple eta eroso baterako, zabalera konstanteko histogramak dira egokienak. Batzuetan, ordea, zabalera konstanteko tarteek hutsuneak utz ditzakete daturik ez dagoenean. Aldi berean, zabalera konstanteko tarte batean datu asko suertatzen direnean, tarte horretan datuak nola banatzen diren ezkutuan geratzen da. Aukera moduan, n-tigramak garatu dira, maiztasun bereko zabalera ezberdineko tarteak dituzten histogramak alegia. Horiek eratzeko, aski da tarte bakoitzean bildu nahi den datu-kopurua zehaztea eta hortik tarteak osatzen joatea, beti maiztasun berdinekin. Tarte zabalerak ezberdinak suertatuko direnez, histogramako zutabeak eratzeko, dentsitateak kalkulatu beharko dira aurreko atalean bezala.

Histogramaren interpretazioa [aldatu]

Histograma maiz alderatzen da eredu moduan hartzen den banakuntza normalarekin. Banakuntza normala kanpia itxurakoa eta guztiz simetrikoa eta bere propietateak oso erabilgarriak dira estatistika-tresnak garatzean. Horregatik da garrantzitsua histograma itxura aztertzea (kanpai itxurakoa eta simetrikoa den), datuek banakuntza horretarako duten egokitzapenari buruzko lehen hurbilketa moduan.

Bestelako informazioa ere ematen du histogramak: zentroa gutxi gorabehera non kokatzen den azaltzen du eta sakabanatzea histogramaren zabalerari begiratuz azter daiteke. Interpretazio konplexuagoak ere egin daitezke: moda edo gailur anitz dituen histogramak datuetan heterogeneotasuna dagoela erakusten du, ezaugarri ezberdinetako datu-multzoak batera jarri direla alegia. Datuek behe-muga batekin topo egiten duten ere igar daiteke.

260
Histograma bat banakuntza normalarekin alderatzen.
260
Moda anizteko histograma, datuetan heterogeneotasuna adierazten duena.
260
Moztutako histograma: datuek behe-muga bat dute.

Euren interpretazio bisual kanonikoa alde batera utzirik, histogramak datuen hurbilketarako tresna matematiko eta informatiko garrantzitsu dira, hala nola datuen hurbilketan eta datu-konpresioan.[1]

Baterako histogramak [aldatu]

Ohizkoa da, datu multzo ezberdinak erkatu nahi denean, datu multzo hauei dagokien histogramak batera eratzea, beraien arteko ezaugarri estatistiko ezberdinak argiago ikusteko (zentroa, sakabanatzea, ...).

Baterako histogramak, herri bateko gizon eta emakumeen adinak azaltzen dituztenak: emakumezkoek adin altuagoa dute oro har eta sakabanatuagoak dira adinari buruz.

Histograma metatua [aldatu]

Histograma maiztasun metatuekin, maiztasun bakunekin kalkulatu ordez, eratu bada (aurreko zutabeak metatuz, alegia), histograma metatua dela esaten da. Histograma metatuak oso erabilgarriak dira kuantilak aztertzeko.

Histograma arrunta eta dagokion histograma metatua.

Erreferentziak [aldatu]

Ikus gainera [aldatu]

Kanpo loturak [aldatu]

Commons-logo.svg
Commonsen badira fitxategi gehiago, gai hau dutenak:
Histograma
Wikiztegia
Wikiztegian orri bat dago honi buruz:
histograma
Wikiesanak
Wikiesanetan artikulu bat dago honi buruz:
Histograma