Osagai nagusien analisi: berrikuspenen arteko aldeak

← Aurreko ezberdintasuna Hurrengo ezberdintasuna →

Ezabatutako edukia Gehitutako edukia

Lerroan

13:08, 5 maiatza 2011ko berrikusketa

Aldagai anitzeko estatistikan, osagai nagusien analisia elkarrekiko korrelazioa duten aldagai multzo bat korrelaziorik gabeko osagai izeneko aldagai kopuru txikiago batez laburbiltzen duen teknika bat da, hasierako aldagaien aldakortasuna, bariantzaren bitartez neurtzen dena, osagaietan ahalik eta gehien murrizteko helburuarekin. Osagai bakoitza aldagai guztien konbinazio lineal bat izango da eta batez ere elkarrekiko korrelazio nabarmena duten aldagaiekin izango da loturik. Adibidez, izarrei buurzko aldagaia asko jasotzen badira (distira, masa, ...), osagai nagusien analisiak izarren tipologia bat osatzen lagunduko du, elkar loturik dauden aldagaiak osagaien bitartez azalduz. Osagaiak agertzen duten bariantza totalaren zatiari buruz ordenatuko dira: lehenbizi bariantza totalaren zati handiena azaltzen duen osagaia erauziko da, ondoren geratzen den bariantzatik zati handiena azaltzen duena, ... Horrela, osagai nagusien analisia aldagai multzo batean seinalea (osagaia eta azaltzen duen bariantza) eta zarata (azaldu gabeko bariantza) bereizteko ere erabiltzen da. Karl Pearson estatistikariak asmatu zuen 1901 urtean eta geroztik aplikazio zabalak izan ditu psikologian, ekonomian eta oro har aldagai asko jasotzen diren ikerketetan. Irudien prozesamenduan ere erabiltzen da.

Jatorria

Datuen analisirako teknika hau Hotelling-i (1933) zor zaio, nahiz eta lehen aurrekariak K. Pearson-en doitze ortogonaletan (1901) aurkitzen diren. Aplikazio arloaren arabera beste izen batzuekin ere ezagutzen da, esaterako: Karhunen-Loève transformatua (KLT) edo Hotelling transformatua.

Erabilera

Erabilera bikoitza du; lehenik agerian ez dauden aldagaiak aurkitzen laguntzen du, eta gainera normalean koerlazionatuta dauden aldagaiak aldagai independente berrietan bihurtzen ditu.

Azalpena

Transformazio ortogonal baten bidez, Konposatu Nagusiak deituriko aldagai berriak kalkulatzen dira, zeinak aldagai orijinalen konbinazio linealak diren. Lehen konposatu nagusiak datuen bariantzaren gehiengoa azaldu behar du, eta bigarrenak honekiko ortogonala izan behar du, eta gainera ahalik eta bariantza gehien azaldu. Aldagai berri hauen balioari faktore deritzo, eta geometrikoki behaketa orijinalen Konposatu Nagusien gaineko proiekzio bezala uler daiteke.

Faktore hauek aldagaien korrelazioz kalkulatzen dira eta faktore bakoitzak aldagai batekin duen korrelazioak biek amankomunean duten informazioa azaltzen du, korrelazio honi, pisua deitzen zaio. Hala ere, konposatu nagusiak beraien artean independenteak izateko datu orijinalek aldagai anitzeko distribuzio normala jarraitu behar dute.

KNA burutzeko prozedura matematiko eta estatistiko konplexua jarraitzen da, zeinetan zehar eigenbektore eta eigenbalio deituriko kontzeptuak erabiltzen diren.

Azalpen matematikoa

Emaitzak

KNA-ren emaitzak irudi moduan ematen dira. Bi irudikapen ezberdin bila daitezke, lehena, indibiduoak irudikatzeko eta bigarrena aldagaiak irudikatzeko. Indibiduoak irudikatzeko, behapenen proiekzioak konposatu nagusien gainean lortzen dira, eta indibiduo bakoitza konposatu nagusi horiekiko non dagoen ikus daiteke.

Bigarren irudikapenean, aldagaiak konposatuek osatutako espazioan irudikatzen dira pisuak bere koordinatu bezala erabiliz. Aldagaiak, beraz, bere korrelazio koefizienteen bidez irudikatuko dira, eta hauen edo pisuen karratuen baturak unitatea balio du beti aldagai bakoitzarentzat.

Bi konposatu nagusiek era perfektuan irudikatzen dutenean informazio guztia, puntuek zirkunferentzia bat osatuko dute, zirkunferentzia bat koordenatuen karratuen baturak konstantea ematen duen irudi geometrikoa da eta. Bi konposatu nagusiek informazio guztia perfektuki azaltzen ez dutenean puntuak korrelazio biribilaren barruan egongo dira.

KNA-ren irudikatzearen garrantzia irudi horien interpretazioaren erraztasunean datza, korrelazio biribilaren logikari jarraituz erraz ulertzen baita aldagai bakoitzaren garrantzia zenbatekoa den. Horrela, aldagai bat korrelazio biribiletik hurbil badago bi konposatu nagusientzat garrantzia izango du, eta, aldiz, zentrutik hurbil badago aldagaiak garrantzi txikiagoa izango du.

Artikulu hau zirriborroa da. Wikipedia lagun dezakezu edukia osatuz.

@@ 1. lerroa: / 1. lerroa: @@
 [[Aldagai anitzeko estatistika]]n, '''osagai nagusien analisia''' elkarrekiko [[korrelazio]]a duten aldagai multzo bat korrelaziorik gabeko ''osagai'' izeneko aldagai kopuru txikiago batez laburbiltzen duen teknika bat da, hasierako aldagaien aldakortasuna, [[bariantza]]ren bitartez neurtzen dena, osagaietan ahalik eta gehien murrizteko helburuarekin. Osagai bakoitza aldagai guztien konbinazio lineal bat izango da eta batez ere elkarrekiko korrelazio nabarmena duten aldagaiekin izango da loturik. Adibidez, izarrei buurzko aldagaia asko jasotzen badira (distira, masa, ...), osagai nagusien analisiak izarren tipologia bat osatzen lagunduko du, elkar loturik dauden aldagaiak osagaien bitartez azalduz. Osagaiak agertzen duten bariantza totalaren zatiari buruz ordenatuko dira: lehenbizi bariantza totalaren zati handiena azaltzen duen osagaia erauziko da, ondoren geratzen den bariantzatik zati handiena azaltzen duena, ... Horrela, osagai nagusien analisia aldagai multzo batean seinalea (osagaia eta azaltzen duen bariantza) eta zarata (azaldu gabeko bariantza) bereizteko ere erabiltzen da. [[Karl Pearson]] estatistikariak asmatu zuen [[1901]] urtean eta geroztik aplikazio zabalak izan ditu psikologian, ekonomian eta oro har aldagai asko jasotzen diren ikerketetan. Irudien prozesamenduan ere erabiltzen da.
+== Jatorria ==
+Datuen analisirako teknika hau [[Hotelling]]-i (1933) zor zaio, nahiz eta  lehen aurrekariak [[K. Pearson]]-en doitze ortogonaletan (1901) aurkitzen diren. Aplikazio arloaren arabera beste izen batzuekin ere ezagutzen da, esaterako: [[Karhunen-Loève transformatua (KLT)]] edo [[Hotelling transformatua]].
+== Erabilera ==
+Erabilera bikoitza du; lehenik agerian ez dauden aldagaiak aurkitzen laguntzen du, eta gainera normalean koerlazionatuta dauden aldagaiak aldagai independente berrietan bihurtzen ditu.
+== Azalpena ==
+[[Fitxategi:PCA of Haplogroup J using 37 STRs.png|thumb|Ysearch datubasetik egindako 354 Y-chromosome haplotype erabiliz egindako Konposatu Nagusien Analisia]]
+[[Transformazio ortogonal]] baten bidez, Konposatu Nagusiak deituriko aldagai berriak kalkulatzen dira, zeinak aldagai orijinalen konbinazio linealak diren. Lehen konposatu nagusiak datuen [[bariantza]]ren gehiengoa azaldu behar du, eta bigarrenak honekiko ortogonala izan behar du, eta gainera ahalik eta bariantza gehien azaldu. Aldagai berri hauen balioari faktore deritzo, eta geometrikoki behaketa orijinalen Konposatu Nagusien gaineko proiekzio bezala uler daiteke.
+Faktore hauek aldagaien [[korrelazio]]z kalkulatzen dira eta faktore bakoitzak aldagai batekin duen korrelazioak biek amankomunean duten informazioa azaltzen du, korrelazio honi, pisua deitzen zaio. Hala ere, konposatu nagusiak beraien artean independenteak izateko datu orijinalek aldagai anitzeko [[distribuzio normal]]a jarraitu behar dute.
+KNA burutzeko prozedura [[matematika|matematiko]] eta [[estatistika|estatistiko]] konplexua jarraitzen da, zeinetan zehar [[eigenbektore]] eta [[eigenbalio]] deituriko kontzeptuak erabiltzen diren.
+== Azalpen matematikoa ==
+== Emaitzak ==
+KNA-ren emaitzak irudi moduan ematen dira. Bi irudikapen ezberdin bila daitezke, lehena, [[indibiduo]]ak irudikatzeko eta bigarrena [[aldagai]]ak irudikatzeko. Indibiduoak irudikatzeko, behapenen proiekzioak konposatu nagusien gainean lortzen dira, eta indibiduo bakoitza konposatu nagusi horiekiko non dagoen ikus daiteke.
+Bigarren irudikapenean, aldagaiak konposatuek osatutako espazioan irudikatzen dira pisuak bere koordinatu bezala erabiliz. Aldagaiak, beraz, bere korrelazio koefizienteen bidez irudikatuko dira, eta hauen edo pisuen karratuen baturak unitatea balio du beti aldagai bakoitzarentzat.
+Bi konposatu nagusiek era perfektuan irudikatzen dutenean informazio guztia, puntuek [[zirkunferentzia]] bat osatuko dute, zirkunferentzia bat koordenatuen karratuen baturak konstantea ematen duen irudi geometrikoa da eta. Bi konposatu nagusiek informazio guztia perfektuki azaltzen ez dutenean puntuak korrelazio biribilaren barruan egongo dira.
+KNA-ren irudikatzearen garrantzia irudi horien interpretazioaren erraztasunean datza, korrelazio biribilaren logikari jarraituz erraz ulertzen baita aldagai bakoitzaren garrantzia zenbatekoa den. Horrela, aldagai bat korrelazio biribiletik hurbil badago bi konposatu nagusientzat garrantzia izango du, eta, aldiz, zentrutik hurbil badago aldagaiak garrantzi txikiagoa izango du.
 {{zirriborro}}