Aldagai anitzeko banaketa normal

Wikipedia, Entziklopedia askea

Probabilitatean eta estatistikan, aldagai anitzeko banaketa normalaaldagai anitzeko banaketa gaussarra ere deitua— dimentsio bakarreko banaketa normalaren dimentsio handiagoetara orokortzea da.

Definizioa[aldatu | aldatu iturburu kodea]

Notazioa[aldatu | aldatu iturburu kodea]

dimentsioko ausazko bektore bat baldin bada aldagai anitzeko banaketa normal normalarekin, orduan idazten dugu:

edo dimentsioaren bektorea dela esan nahi badugu, orduan, erabiliko dugu:

Ausazko bektorea, , aldagai anitzeko banaketa normalari jarraitzen dio baldintza baliokide hauek betetzen baditu:

  • Edozein konbinazio lineal normal banatuta dago.
  • Ausazko bektore bat dago, , eta bere osagaiak estandar normalaren arabera banatutako ausazko aldagai independenteak dira, bektore bat, , eta matrize bat, , hala nola .
  • Bektore bat dago, , eta matrize erdidefinitu positibo simetriko bat, ; beraz, funtzio ezaugarria da

matrize ez-singular bat bada, orduan, banaketa dentsitate-funtzio honen bidez deskriba daiteke:

non -k matrizearen determinantea adierazten duen. Kontuan har nola goiko ekuazioa banaketa normalera murrizten den baldin eta eskalar bat bada (hau da, 1x1 matrizea).

Bektorea, egoera hauetan, -ren itxaropena da, eta matrizea osagaien kobariantza matrizea da.

Kobariantza matrizea singularra izan daitekeela ulertzea garrantzitsua da (nahiz eta goiko formulak horrela deskribatzen ez duen, zeinarentzat definituta dagoen).

Egoera hori maiz agertzen da estatistiketan; adibidez, erregresio linealeko problema arruntetan hondar bektorearen banaketan. Kontuan har, oro har, Xi-ak ez direla, orokorrean, independenteak, aldagai arrunten bilduma batera transformazio lineala aplikatzearen emaitza gisa ikus baitaiteke.

Banaketa funtzioa[aldatu | aldatu iturburu kodea]

Banaketa funtzioa definitzen da ausazko bektore baten balio guztiak -ri dagozkion bektorearenak baino txikiagoak edo berdinak izateko probabilitatea bezala. Hala ere, -k formularik ez badu ere, zenbakizko zenbatespena ahalbidetzen duten algoritmo batzuk daude[1].

Kontrako adibide bat[aldatu | aldatu iturburu kodea]

Izan ere, bi ausazko aldagaik, eta , bakoitzak banaketa normal bat jarraitu arren, ez du esan nahi bikoteak (X , Y) banaketa normal bateratua jarraitzen duenik. Adibide sinple bat ematen da Normala (0,1), eta . Hori ausazko bi aldagai baino gehiagotan ere egia da[2].

Normalki banatua eta independentzia[aldatu | aldatu iturburu kodea]

eta normal banatuta eta independenteak badira, haien banaketa bateratua ere normal banatuta dago; hau da, bikoteak (X , Y ) aldagai biko banaketa bat izan behar du. Nolanahi ere, normal banatutako ausazko aldagai pare bat ez du zertan independentea izan behar elkarrekin kontuan hartzerakoan.

Aldagai biko egoera[aldatu | aldatu iturburu kodea]

Bi dimentsioen egoera partikularrean, dentsitate-funtzioa (0, 0 batebestekoarekin) da:

non eta arteko korrelazio-koefizientea den. Egoera honetan:

Eraldaketa afina[aldatu | aldatu iturburu kodea]

, izan ere, -ren eraldaketa afina bada. non konstanteen bektorea den eta den matrizea, orduan, -k aldagai anitzeko banaketa normala du itxaropenarekin eta bariantzarekin, hau da, . Bereziki, -renedozein azpimultzok banaketa marjinal bat du, aldagai anitzeko normala ere badena.

Hori ikusteko, kontuan har honako adibide hau: azpimultzoa ateratzeko, erabili

nahi diren elementuak zuzenean ateratzen dituena.

banaketaren beste ondorio bat izango litzateke bektorea -ren luzera berekoa dela, eta puntuak biderketa bektoriala adierazten du, eta dimentsio bakarreko banaketa gaussarra izango litzateke rekin. Emaitza hau erabiliz lortzen da:

eta produktuaren lehen osagaia soilik kontuan hartuta (-ren lehen lerroa bektorea da). Kontuan har nola -ren definizio positiboak gurutzatutako produktuaren bariantza positiboa izan behar dela esan nahi duen.

Interpretazio geometrikoa[aldatu | aldatu iturburu kodea]

Aldagai anitzeko banaketa normal baten ekidensitate-kurbak elipsoideak dira (hau da, hiperesferen transformazio linealak) batezbestekoan zentratuta[3]. Elipsoideen ardatz nagusien norabideak kobariantza matrizearen bektore propioek ematen dituzte. Ardatz nagusien karratuen luzera erlatiboak dagozkien bektore propioek ematen dituzte.

deskonposizio espektral bat bada, non U-ren zutabeak unitate-bektore propioak diren eta balio propioen matrize diagonal bat den, orduan, dugu:

Era berean, U biraketa-matrize bat izan dadin hauta daiteke -n ardatz bat alderantziz egiteak eraginik izango ez duena baina, zutabe bat irauliz, U' -ren determinatzailearen zeinua aldatuko duena. banaketa da, hain zuzen, -tik eskalatua, U-rekin biratua eta -tik itzulia.

Alderantziz, -ren edozein aukerak U maila osoko matrizea, eta balio diagonal positiboak bide ematen dio banaketa normal ez singular bati. Edozein zero bada eta U karratua bada, -ren kobariantza matrizea singularra da. Geometrikoki, horrek esan nahi du kurba elipsoide bakoitza infinitu mehea dela eta bolumen nulua duela n dimentsioko espazioan, betiere, gutxienez ardatz nagusietako batek luzera nulua badu.

Korrelazioak eta independentzia[aldatu | aldatu iturburu kodea]

Oro har, ausazko aldagaiak korrelaziorik gabekoak izan daitezke, baina oso menpekoak izan daitezke. Baina, ausazko bektore batek aldagai anitzeko banaketa normala badu, korrelaziorik gabeko bere osagaietako bi edo gehiago independenteak dira.

Baina ez da egia (bereizita, marjinalki) normal banatuta eta korrelaziorik gabeko bi ausazko aldagai independenteak direnik. Normalki banatuta dauden bi ausazko aldagai baliteke elkarrekin ez egotea. Erlazionatu gabe baina independenteak ez diren banatzen diren bi aldagairen adibide bat ikusteko, ikus: Normalki banatuak eta korrelazionatuak ez dira independentzia suposatzen .

Momentu gorenak[aldatu | aldatu iturburu kodea]

X -ren k-garren ordenako momentu estandarra honela definitzen da

non

k ordenako momentu zentralak honela ematen dira:

(a) k bakoitia bada, .

(b) k bikoitia bada, k-rekin, orduan,

non batura multzoen xedapen guztien gainean hartzen den bikotetan (ordenatu gabeak). Hau da, k-garren bat badugu () une nagusia kobariantzaren produktuak gehituko ditugu (- notazioa irakurgarritasunagatik alde batera utzi da):

Horrek sorrarazten du terminoak baturan (15 goiko kasuan), bakoitzaren produktua (3 kasu honetan) kobariantza izanik. Laugarren ordenako mementuetarako (lau aldagai), hiru termino daude. Seigarren ordenako momentuetarako, 3 × 5 = 15 termino daude, eta zortzigarren ordenako momentuetarako 3 × 5 × 7 = 105 termino dira.

Ondoren, kobariantzak zerrendako terminoak, izan ere, batzuk zerrendari dagozkion terminoekin ordezkatuz zehazten dira, orduan biak, etab... Hau argitzeko, kontuan har hurrengo laugarren ordenako momentu zentralaren kasua:

non Y -ren kobariantza den. Goiko metodoaren ideia da lehen kasu orokorra aurkitzen dugula da -garrena mementorako, non aldagai desberdinak - dauden, eta, gero, modu egokian sinplifikatu daitezke. baduzu, gero, izan dadila, eta hortik dator.

Banaketa baldintzatuak[aldatu | aldatu iturburu kodea]

eta honela banatzen badira:

neurriekin
neurriekin

orduan, -ren banaketa baldintzatuta, aldagai anitzeko normala da non

eta kobariantza matrizea

Matrize hori -ren Schur-en osagarria da -en. Horrek esan nahi du baldintzapeko kobariantza-matrizea kalkulatzeko kobariantza-matrize globala alderantzikatu egiten dela, baldintzatzen den aldagaiei dagozkien errenkadak eta zutabeak alde batera uzten direla eta, ondoren, berriro alderantzikatzen dela baldintzapeko kobariantza-matrizea lortzeko.

Kontuan har jakina dela bariantza aldatzen duela, nahiz eta bariantza berria ez den balio zehatzaren araberakoa; agian, harrigarriagoa dena, batezbestekoa -tik aldatzen da; Konparatu hori ezagutzen ez den balioaren egoerarekin; kasu horretan, -ek banaketa gisaizango luke:

matrizea erregresio-koefizienteen matrize bezala ezagutzen da.

Baldintzazko itxaropena aldagai bikoa[aldatu | aldatu iturburu kodea]

Bada

gero

non azken ratio horri alderantzizko Mills ratioa deitu ohi zaio.

Fisher-en informazio matrizea[aldatu | aldatu iturburu kodea]

Fisher Information Matrix-ek (FIM) formulazio berezi bat hartzen du banaketa normal baterako. FMI-ren elementua -rentzako da:

non

  • matrize baten aztarna funtzioa da.

Kullback-Leibler dibergentzia[aldatu | aldatu iturburu kodea]

Kullback-Leiblerren dibergentzia a da:

Logaritmoa e oinarriarekin hartu behar da bi terminoetan (logaritmo neperiarrak); logaritmoari jarraituz, dentsitate-funtzioaren faktore biak diren adierazpenen logaritmo naturalak daude, edo, bestela, modu naturalean sortzen dira. Goiko dibergentzia nat-etan neurtzen da. Goiko adierazpena loge 2 artean zatituz biten dibergentziari bide ematen zaio.

Parametroen estimazioa[aldatu | aldatu iturburu kodea]

Aldagai anitzeko banaketa normal baten kobariantza matrizearen probabilitate maximoaren estimatzailearen deribazioa da, agian harrigarriro, sotila eta dotorea. Ikus kobariantza matrizeen estimazioa.

Laburbilduz, N dimentsioko aldagai anitzeko normal baten probabilitate-dentsitate-funtzioa da:

eta kobariantza matrizearen MV estimatzailea n behaketetako lagin baterako da:

laginaren kobariantza matrizea besterik ez dena. Hau Itxaropena duen estimatzaile alboratuarena da:

Laginaren kobariantza alboragabea da:

Entropia[aldatu | aldatu iturburu kodea]

Aldagai anitzeko banaketa normalaren entropia diferentziala[4] da:

non den kobariantza matrizearen determinatzailea.

Aldagai anitzeko normaltasun-probak[aldatu | aldatu iturburu kodea]

Aldagai anitzeko normaltasun probek datu multzo jakin batek aldagai anitzeko banaketa normalarekin duen antzekotasuna egiaztatzen du. Hipotesi nulua da datu multzoa banaketa normalaren antzekoa dela, beraz, p-balio nahiko txiki batek datu ez-normalak adierazten ditu. Aldagai anitzeko normaltasun proben artean, Cox-Small proba[5] eta Smith eta Jain-en[6] Friedman-Rafsky probaren egokitzapena daude.

Banaketa-balioak simulatzea[aldatu | aldatu iturburu kodea]

Ausazko bektore bat simulatzeko oso erabilia den metodoa aldagai anitzeko banaketa normaletik -dimentsioa batez besteko bektorearekin eta kobariantza matrizea (simetrikoa eta definitu positiboa izateko eskatua) honela funtzionatzen du:

  1. -ren Choleskyren deskonposizioa kalkulatzen da; hau da, beheko matrize triangeluar bakarra hala nola aurkitzen dugu. Kontuan har beste edozein matrize baldintza hori betetzen duena, hau da, -ren erro karratua dela, erabil liteke, baina, askotan, halako matrize bat aurkitzea, Cholesky-ren deskonposizioaz gain, dezente zailagoa izango litzateke konputazionalki.
  2. Dela osagaiak dituen bektorea aldagai normalak eta independenteak aldatzen direnak (sor daitezkeenak, adibidez, Box-Muller metodoa erabiliz.
  3. Dela

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Véase MVNDST en (incluye código FORTRAN) o (incluye código MATLAB).
  2. Véase también normalmente distribuidas e incorreladas no implica independencia
  3. Nikolaus Hansen. The CMA Evolution Strategy: A Tutorial. .
  4. Gokhale, DV; NA Ahmed, BC Res, NJ Piscataway. (mayo de 1989). «Entropy Expressions and Their Estimators for Multivariate Distributions» Information Theory, IEEE Transactions on 35 (3): 688–692. doi:10.1109/18.30996..
  5. Cox, D. R.; N. J. H. Small. (agosto de 1978). «Testing multivariate normality» Biometrika 65 (2): 263–272. doi:10.1093/biomet/65.2.263..
  6. Smith, Stephen P.; Anil K. Jain. (septiembre de 1988). «A test to determine the multivariate normality of a dataset» IEEE Transactions on Pattern Analysis and Machine Intelligence 10 (5): 757–761. doi:10.1109/34.6789..

Kanpo estekak[aldatu | aldatu iturburu kodea]