Edukira joan

Erregresio-analisi

Wikipedia, Entziklopedia askea
Artikulu hau estatistika prozedurari buruzkoa da; beste esanahietarako, ikus «Erregresio (argipena)».
Karratu txikienen erregresio zuzena. Lerro gorriak datu-multzoaren doikuntza optimoa adierazten du, esta puntu urdinek benetako behaketak. Helburua puntuen eta lerroen arteko distantzia bertikalen karratuen batura minimizatzea da.

Estatistikan, erregresio-analisia aldagai batek beste aldagai batekiko duen mendekotasuna adierazten duen prozedura da.  Adibidez, pertsona baten adina bere soldatari zelan eragiten dion ulertzeko, erregresioa erabil daiteke bi aldagaien arteko erlazio bat aurkituz. Laburbilduta, bi aldagairen arteko erlazioa zuzen baten bidez erakusten da grafiko batean, datuen joera jarraituz.

Erregresio-analisia mendeko aldagaiaren aldaketa adierazten du aldagai independentearen arabera, azkenengo hau finkaturik. Bestela esanda, mendeko aldagaiaren batezbesteko balioa estimatzen du aldagai independenteak finkatzean; prozesu honen helburua erregresio funtzio bat lortzea da. Are gehiago, interesekoa da erregresio funtzioarekiko mendeko aldagaien bariantza bereiztea, probabilitate-banaketa baten bidez deskribatuta dagoena.

Erregresio-analisia oso erabilia da aurreikuspenerako. Bere sinpletasunagatik, ikasketa automatikoaren eremuan erabiltzen den lehenengo tresna matematikoetako bat da. Erregresioa erabiltzen da, halaber , ulertzeko ze lotura dute aldagai independenteak, mendeko aldagaiarekin.[1]

Erregresioa aztertzeko modurik ohikoena erregresio lineala da, non irizpide matematiko zehatz baten arabera datuetara gehien hurbiltzen den lerroa (edo konbinazio lineal konplexuago bat) aurkitzen da.

Ezagutzen den erregresio linealaren lehen forma Isaac Newton-en lan batean ikusi zen, 1700.urtean; lan horrek ekinokzioak aztertzen zituen (hots, eguzkia ekuatorean dagoen momentua, egunaren eta gauaren iraupena berdina duena mundu osoan). Lan horri esker, erregresio linealaren hasiera egotzi zitzaion Newtoni, Tobias Mayer-ek baino 50 urte lehenago datu multzo baten batezbestekoa egiteaz gain, hondarrak batuz eta emaitza osoa zerora berdintzean, erregresioaren lerroa batez besteko puntutik pasatzera behartu baitzuen. Gainera, aurretik, batez besteko puntua lortzeko metodo bat erabili zuen 1671ko bere lanean, non Newtonen eraztunak aztertzen baitzituen; eta horrek ez zuen aurrekaririk garai hartan.

Karratu txikienen metodoa Legendre-k eta Gauss-ek argitaratu zuten 1805[2]ean eta 1809[3]an, hurrenez hurren. Biek metodoa aplikatu zioten Eguzkiaren inguruko gorputzen orbitak zehatzeko problemari. Geroago, 1821[4]ean, Gaussek  karratu txikienen teoriaren garapen bat argitaratu zuen, Gauss-Markov teoremaren bertsio bat barne.

“Erregresio” terminoa Francis Galton-ek eskaini zuen XIX. mendean, fenomeno biologiko bat deskribatzeko. Fenomeno horren arabera, arbaso altuen ondorengoen altuerek batezbesteko normal batera itzultzeko joera dute (''batezbestekorako erregresio'' ere esaten zaio).[5][6] Galtonentzat, erregresioak esanahi biologikoa[7][8] baino ez zuen, baina aurrerago Udny Yule-k eta Karl Pearson-ek testuinguru estatistiko orokorrago batera zabaldu zuten.[9][10] Zabalpen horretan suposatzen da mendeko aldagaiaren eta aldagai independentearen banaketa bateratua gausiarra dela, baina R.A. Fisher-ek hipotesi hori ahuldu egin zuen 1922an eta 1925ean[11][12][13] egindako lanekin. Fisherrek onartu zuen mendeko aldagaiaren baldintzazko banaketa gausiarra dela, baina ikusi zuen banaketa bateratuak ez duela zertan izan.  

1950eko eta 1960ko hamarkadetan, ekonomialariek mahai gaineko kalkulagailu elektromekanikoak erabiltzen zituzten erregresioak kalkulatzeko. Garai hartan, ez zen arraroa hogeita lau ordu behar izatea erregresio baten emaitza jakiteko.

Gaur egun, erregresio-metodoek ikerketa-eremu aktiboa izaten jarraitzen dute. Azken hamarkadan metodo berriak garatu dira erregresio mota askotarako, erregresio sendoetatik hasi eta behaketak baino aldagai iragarle gehiago dituzten erregresioetaraino.

Erregresio-analisi modernoa, normalean, ordenagailuetako estatistika-softwareko paketeekin eta kalkulu-orriekin egiten da, baita kalkulagailu zientifiko eta kalkulagailu grafiko eramangarrietan ere. Teknologiaren aurrerapenak asko lagundu du horien kalkulua azkarragoa eta errazagoa izaten.

Erregresio-analisi motak

[aldatu | aldatu iturburu kodea]

Erregresio lineala:

[aldatu | aldatu iturburu kodea]

Estatistikan, erregresio lineala edo doikuntza lineala eredu matematiko bat da, mendeko aldagai baten () eta m aldagai independenteren  () arteko mendekotasun-harremana hurbiltzeko  erabiltzen dena, ausazko termino baten laguntzarekin (non eta ausazko termino bat den). Metodo hau oso erabilgarria da hainbat egoeratan, bi aldagairen edo gehiagoren arteko harremanak aztertzeko edo portaera baten aurreikuspena egiteko, baita teknologiarekin zuzenean loturarik ez duten kasuetan ere. Bestalde, azterlan batean erregresio-eredua aplikagarria ez denean, ondorioztatzen da aldagaien artean ez dagoela korrelaziorik. Erregresio linealaren eredua honela adieraz daiteke:

Erregresio linealaren adibidea

non:

: mendeko aldagaia den. Aurreikusi edo azaldu nahi duguna.

: aldagai independenteak. Emaitzan eragina duten baldintzak, gertaerak…

: ereduaren parametroak dira, eta haien bidez neurtzen da aldagai independenteek mendeko aldagaian (-n) duten eragina.

Erregresio linealaren eredua  aldagai independentea () jarraitua den egoeretan erabiltzen da. Eredu linealak mendeko aldagaiaren () eta m aldagai erregresoreren edo aldagai independenteen () arteko erlazioa ezartzen du, non den.  Bestela, parametro ezezagunak erabiliz, erlazio hori hiperplano baten bidez adieraz daiteke, aldagaien eraldaketen bidez lortua:

ε ausazko aldagaia da, eta honek benetako errealitatean kontrolaezinak edo behagarriak ez diren faktore guztiak biltzen ditu. Faktore horiek, beraz, zorizko osagaitzat hartzen dira eta ereduaren azalpenetik kanpo geratzen dira.

Erregresioaren arazoa honako honetan datza: parametro ezezagunei balio egokiak esleitzean, ekuazioa erabat zehaztuta gera dadin. Horretarako, beharrezkoa da behatze multzo bat edo eredu horretatik eratorritako lagin estatistiko bat izatea; honen  bidez parametro horiek estimatu eta eredua doitu ahal izango da.

Anscombeko laukoteko datu-multzoak gutxi gorabehera erregresio linealeko lerro bera izateko diseinatuta daude baina grafikoki oso desberdinak dira. Horrek agerian uzten du aldagaien arteko erlazioa ulertzeko doitutako eredu batean soilik oinarritzeak sortzen dituen eragozpenak.

Erregresio linealetarako zenbakizko metodoak:

  • Erregresio sinplea: Erregresio lineal sinpleko eredua bi aldagaik soilik osatzen dute, hau da, eta aldagaiek. Aldagai independente bakarra, , hartzen da kontuan, eta mendeko aldagai bat, . Bi aldagai horien arteko harremana lineala dela suposatzen da.[14]

  • Erregresio lineal anizkoitza: Erregresio linealak, bi aldagai aztertu ez ezik, aldagai anitzen arteko harremana aztertzeko aukera ere ematen du ekuazioen bidez; azken honi erregresio anizkoitza edo erregresio lineal anizkoitza deritzo. Ikerketa estatistikoaren praktikan maiz gertatzen da zenbait aldagai elkarri lotuta egotea; horregatik, posible da aldagai bat beste aldagai batzuen funtzio gisa adierazi ahal izatea matematikoki. Eredu honek zenbait aldagai erregresore ditu eta, ondorioz, zenbait parametro ere bai. Erregresio lineal anizkoitzaren kasuan, mendeko aldagaia aldagai erregresoreekin erlazionatuta dagoela suposatzen da, honako erlazio funtzionalaren bidez:[15]

Erregesio ez-lineala

[aldatu | aldatu iturburu kodea]

Estatistikan, erregresio ez-lineala interferentzia-metodo bat da, hurrengo eredu mota baterako:

Non parametro ezezagunen mendeko funtzio ez lineala den.

Metodo honetan, gutxienez, doikuntza-kurbarik onenarekin lotutako parametroen balioak lortu nahi dira, normalean, karratu txikienen metodoaren bidez. Eredua egokia den zehazteko, beharrezkoa izan daiteke inferentzia estatistikoaren kontzeptuak erabiltzea, hala nola parametroetarako konfiantza-tarteak eta doikuntzaren egokitasun probak.

Erregresio ez-lineal baten adibidea

Kasu bakoitzean, erregresio ez-linealaren beharra argitu daiteke erregresio polinomikoaren kasua kontuan hartzean; izan ere, batzuetan hobe da erregresio ez-linealtzat ez hartzea. Zehazki, f funtzioak ondorengo forma hartzen duenean:

funtzioa ez-lineala izango -en funtzio gisa, baina lineala , eta parametro ezezagunekiko. Horixe da erregresio estatistikoaren testuinguruan “lineal” terminoak duen esanahia. Erregresio polinomialerako prozedura konputazionalak erregresio linealeko (anizkoitzeko) prozedurak dira; kasu honetan, bi aldagai aurresale dituzte: eta . Hala ere, batzuetan aditzera ematen da erregresio ez-lineala polinomioak doitzeko ere beharrezkoa dela. Interpretazio txar honen ondorio praktikoek optimizazio-prozedura ez-lineal bat erabiltzera eraman dezakete, erregresio linealeko emaitza eskuragarri egonda ere.  

Erregresio ez-linealetarako zenbakizko metodoak:

[aldatu | aldatu iturburu kodea]
Erregresio esponentziala
[aldatu | aldatu iturburu kodea]

Esperimentu jakin batzuetan, gehienak biologikoak, eta aldagaien arteko mendekotasuna esponentziala da. Kasu horietan, mota honetako funtzio bat doitu nahi zaio puntuen hodeiari:

Transformazio lineal baten bidez, logaritmoak hartuz, erregresio linealeko problema bihurtzen da; hau da, logaritmoak hartuz, hurrengo hau lortzen da:

x y ln(y) x2 x ln(y)
1 3 1,0986 1 1,0986
1,2 3,4 1,2237 1,44 1,4684
1,5 5 1,6094 2,25 2,4141
2 2 0,6931 4 1,3862
3 4,1 1,4109 9 4,2327
3,7 5 1,6094 13,69 5,9547
4 7 1,9459 16 7,7836
4,5 6,5 1,8718 20,25 8,4231
Σ 20,9 Σ 36 Σ 11,4628 Σ 67,63 Σ 32,7614

Datu zenbakia:

X-ren batezbestekoa:

Y-ren batezbestekoa:

Erregresio esponentzialaren forma lineala erabilita:

=


Sistema modelatzen duen ekuazioa hau da:

Erregresio logaritmikoa
[aldatu | aldatu iturburu kodea]

kurba logaritmikoa ere zuzena da, baina eta jatorrizko aldagai gisa adierazita egon beharrean, eta aldagaiekiko dago.

x y ln x ln2 x ln x * y y2
1 3 0 0 0 9
1.2 3.4 0.1823 0.0332 0.6198 11.56
1.5 5 0.4054 0.1643 2.027 25
2 2 0.6931 0.4803 1.3862 4
3 4.1 1.0986 1.2069 4.5042 16.81
3.7 5 1.3083 1.7116 6.5415 25
4 7 1.3862 1.9215 9.7034 49
4.5 6.5 1.5040 2.2620 9.776 42.25
Σ 20.9 Σ 36 Σ 6.5779 Σ 7.7798 Σ 34.5581 Σ 182.62

Sistema modelatzen duen ekuazioa hau da:

Erregresio polinomiala
[aldatu | aldatu iturburu kodea]

Batzuetan, mendeko aldagaien eta aldagai independenteen arteko erlazioa ez-lineala denean, erabilgarria da termino polinomialak sartzea, mendeko aldagaiaren aldaketa azaltzen laguntzeko.

Erregresio polinomialak hainbat terminorekin doi ditzake aldagai independentea.

Koefiziente bakoitzarekiko deribatuz, ekuazio sistema bat ematen digu planteamenduak:

Erregresio polinomiala

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. Armstrong, J. Scott. (2012-07-01). «Illusions in regression analysis» International Journal of Forecasting 28 (3): 689–694.  doi:10.1016/j.ijforecast.2012.02.001. ISSN 0169-2070. (kontsulta data: 2025-11-06).
  2. (Frantsesez) Legendre, Adrien Marie. (1805). Nouvelles méthodes pour la détermination des orbites des comètes. F. Didot (kontsulta data: 2025-11-27).
  3. Gauss, Carl Friedrich. (2011-05-19). Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientium. Cambridge University Press ISBN 978-1-108-14311-0. (kontsulta data: 2025-11-27).
  4. (Latinez) Gauss, Carl Friedrich. (1823). Theoria combinationis observationum erroribus minimis obnoxiae. H. Dieterich (kontsulta data: 2025-11-27).
  5. Robert Mogull. (2004-08-01). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company ISBN 978-0-7575-1181-3. (kontsulta data: 2025-11-27).
  6. Statistical Science a Review Journal of the Institute of Mathematical Statistics 1989-05: Vol 4 Iss 2. Institute of Mathematical Statistics 1989-05 (kontsulta data: 2025-11-27).
  7. «Typical Laws of Heredity 1» Nature 15 (389): 512–514. 1877-04-12  doi:10.1038/015512b0. ISSN 0028-0836. (kontsulta data: 2025-11-27).
  8. «Galton 2/8/1/11/4 composite portrait of ‘the Jewish type’» doi.org (kontsulta data: 2025-11-27).
  9. Yule, G. Udny. (1897-12). «On the Theory of Correlation» Journal of the Royal Statistical Society 60 (4): 812.  doi:10.2307/2979746. (kontsulta data: 2025-11-27).
  10. (Ingelesez) Pearson, Karl. (1903). «THE LAW OF ANCESTRAL HEREDITY» Biometrika 2 (2): 211–228.  doi:10.1093/biomet/2.2.211. ISSN 0006-3444. (kontsulta data: 2025-11-27).
  11. Fisher, R. A.. (1922-06). «The Goodness of Fit of Regression Formulae, and the Distribution of Regression Coefficients» Journal of the Royal Statistical Society 85 (4): 597.  doi:10.2307/2341124. (kontsulta data: 2025-11-27).
  12. Fisher, Ronald Aylmer. (1938). Statistical methods for research workers. Edinburgh, Oliver and Boyd ISBN 978-0-05-002170-5. (kontsulta data: 2025-11-27).
  13. Statistical Science a Review Journal of the Institute of Mathematical Statistics 2005-11: Vol 20 Iss 4. Institute of Mathematical Statistics 2005-11 (kontsulta data: 2025-11-27).
  14. Urbano Pintos, N.; Lavorato, M.B.. (2025-06-28). «AUTOMATIC TRANSPORTABLE UNIT FOR MEASURING THE UV RADIATION ANDTHE UV INDEX OF CONTINUOUS USE.» Anales AFA 36 (2): 36–42.  doi:10.31527/analesafa.2025.36.2.36. ISSN 1850-1168. (kontsulta data: 2025-11-27).
  15. Torres-Obregón, Reyna. (2023). «Análisis de regresión lineal. Regresión lineal simple y múltiple» Bioestadística: Guía para un programa académico (Ediciones La Biblioteca): 125–134. ISBN 978-607-69591-4-5. (kontsulta data: 2025-11-27).
  • Canavos, George C.; Probabilidad y Estadística. Aplicaciones y Métodos. McGraw-Hill. México. ISBN 9684518560.
  • Devore, Jay L.; Probabilidad y Estadística para Ingeniería y Ciencias. International Thomson Editores. México. ISBN 9706864571.
  • Walpole, Ronald E.; Raymond, H.; Myers, Sharon L.; Probabilidad y Estadística para Ingenieros. Prentice-Hall Hispanoamericana, S.A. México. ISBN 9701702646.
  • G.A.F Seber and C.J. Wild. Nonlinear Regression. New York: John Wiley and Sons, 1989.
  • R.M. Bethea, B.S. Duran and T.L. Boullion. Statistical Methods for Engineers and Scientists. New York: Marcel Dekker, Inc 1985 ISBN 0-8247-7227-X

Kanpo estekak

[aldatu | aldatu iturburu kodea]