Lankide:BeñatC/Proba orria

Neurona-sare konboluzional bat, neurona-sare artifizial mota bat da, non neurona artifizialak, garun biologiko baten ikusmen-kortex primarioan dauden neuronen antzera, eremu hartzaileei dagozkien. Sare-mota hau geruza anitzeko pertzeptroietan oinarrituta dago. Hala ere, bere aplikazioa matrize bidimentsionaletan egiten denez, oso eraginkorrak dira ikusmen artifizialeko zereginetarako, adibidez; irudien sailkapenean eta irudien segmentazioan, beste aplikazio batzuen artean.

Historia

Neurona-sare konboluzionalen oinarriak, Kunihiko Fukushima-k 1980an ^[1] proposatutako Neocognitron-ean oinarritzen dira. Eredu hau beranduago Yann LeCunn-ek eta beste batzuek hobetu zituzten 1998an ^[2], atzeranzko hedapenean oinarritutako ikasketa-metodo bat sartu zuenean, sistema behar bezala entrenatu ahal izateko. Neocognitroia, sareko posizio desberdinetan kokaturiko unitateak, pisu partekatuak izatea behar dituzten, lehen neurona-sare artifiziala da, neurona-sare konboluzionalen bereizlea.

2012. urtean, Dan Ciresan eta beste batzuek findu zituzten, eta grafikoak prozesatzeko unitate baterako (GPU) inplementatu ziren, emaitza ikaragarriak lortuz. Urte berean AlexNet atera zen garaile ImageNet txapelketan, AlexNet sarea iraultzailea izan zen adimen artifizialean eta ikasketa sakonean.

Oinarri biologikoak

Hubel eta Wieselek 1959an egindako lanak paper garrantzitsua izan zuten ikusmen-azalak nola funtzionatzen duen ulertzeko, batez ere V1 ikusmen-kortex nagusiaren barruko ikusmen-estimuluetan, orientazio-selektibitatea eta ertzak detektatzea eragiten duten zelulak ulertzeko. Bi zelula mota nagusi identifikatu ziren hemen, hauek eremu hartzaile luzeak dituztelarik, horrela erantzun hobea dute ikusmen estimulu luzatuei, hala nola lerroak eta ertzak. Zelula sinple eta zelula konplexu deitzen zaie horiei.

Zelula sinpleek eskualde estimulatzaileak eta inhibitzaileak dituzte, biek oinarrizko patroi luzeak osatuz norabide, posizio eta tamaina jakin batean zelula bakoitzean. Ikusmen-estimulu bat zelulara iristen bada orientazio eta posizio berdinarekin, zelula eskualde estimulatzaileek sortutako patroiekin guztiz bat etortzen, eta aldi berean eskualde inhibitzaileak aktibatzea saihesten badira, zelula aktibatu egiten da eta seinale bat igortzen du.

Zelula konplexuek antzera egiten dute lan. Zelula sinpleek bezala, hauek orientazio berezi bat dute, zeinen gainean sentikorrak diren. Hala ere, hauek ez dira posizioarekiko sentsibleak. Horregatik, estimulu bisual batek orientazio egokian baino ez du iritsi behar, zelula hori aktiba dadin.

Kortex bisualeko zelulei buruzko beste puntu garrantzitsu bat zelulek osatzen duten egitura da. Kortexaren hierarkian zehar, kortex bisualaren V1 eskualdetik hasita, gero V2, V4 eta IT eskualdeak jarraituz, estimulu idealen konplexutasuna gero eta handiagoa dela ikusten da. Aldi berean, zelulen aktibazioak ez dira hain sentikorrak hasierako estimuluen posizio eta tamainarekiko. Hau gertatzen da zelulek beren estimuluak aktibatzen eta hedatzen dituztelako hierarkia berean konektatuta dauden beste zelulei, batez ere zelula sinpleen eta konplexuen arteko alternazioari esker.

Arkitektura

Neurona sare konboluzionalak, sarrerako geruza batez, ezkutuko geruzez eta irteerako geruza batez osatuta daude. Neurona-sare konboluzionaletan, ezkutuko geruzek geruza bat edo gehiago biltzen dituzte non koboluzioa egiten den. Normalean, geruzetako batek, geruzaren sarrera-matrizearen eta konboluzio-nukleoaren arteko biderketa eskalarra egiten du, geruza honen aktibazio funtzioa ReLU izan ohi da. Konboluzio-nukleoa geruzaren sarrerako matrizean zehar lerratzen den heinean, konboluzio-eragiketak ezaugarri-mapa bat sortzen du, eta horrek hurrengo geruzaren sarreran laguntzen du. Horren ondoren, beste geruza batzuk daude, esate baterako, bilketa-geruzak, guztiz konektatutako geruzak eta normalizazio-geruzak.

Sailkapen-sareen gisa, hasieran ezaugarriak ateratzeko fasea dago, konboluzio neuronaz eta lagin murrizketa neuronaz osatuta. Sarearen amaieran pertzeptroi neurona sinpleak daude, ateratako ezaugarriekin azken sailkapena egiteko.

Neurona konboluzionalak

Ezaugarriak ateratzeko fasean, pertzeptroi neurona sinpleak ordezkatuak dira matrize-prozesadoreengatik, hauek eragiketa bat egiten dute, iristen diren 2D irudien datuekin. Konboluzio neurona bakoitzaren irteera honela kalkulatzen da:

$Y_{j}=g\left(b_{j}+\sum _{i}K_{ij}\otimes Y_{i}\right)$

$j$ neurona baten $Y_{j}$ irteera, matrize bat da, matrize hau aurreko geruzan dauden neuronen $Y_{i}$ irteeren, eta $K_{ij}$ nukleo konboluzionalen konbinazio-linealaren bidez kalkulatzen da. Horri $b_{j}$ eragin bat gehitzen zaio eta gero $g(\cdot )$ aktibazio-funtzio ez-lineal batetik pasatzen da $Y_{j}$ lortzeko.

Konboluzio-eragiketak, sarrerako irudia aurrez entrenatutako nukleo batekin iragazten du. Honek datuak eraldatzen ditu, ezaugarri batzuk nagusiagoak bilakatzen dira irteerako irudian, haiek adierazten dituzten pixelei zenbakizko balio handiagoa esleitzen zaielako. Nukleo hauek irudiak prozesatzeko gaitasun espezifikoak dituzte, geroz eta geruza ezkutu gehiago jarri, gaitasun hauek konplexuagoak bilakatzen dira, adibidez, lehenengo geruzetan ertz-detekzioa eduki dezake eta sakonago joatean begiak desberdindu ditzake.

Lagin murrizketa neuronak

Neurona sareek nolabaiteko tolerantzia dute sarrerako datuetan gertatzen diren perturbazio txikiekiko. Adibidez, ia berdinak diren bi irudi (pixel batzuk alde batetik bestera eramateak soilik bereizten dituenak) neurona-sare batekin aztertzen badira, emaitzak funtsean berdina izan beharko luke. Neurona sare konboluzional baten barruan gertatzen den lagin-murrizketari esker lortzen da hori. Bereizmena murriztean, ezaugarri berak sarrerako irudian aktibazio-eremu handiago bati dagozkio.

Hasiera batean, neurona sare konboluzionalek subsampling prozesu bat erabiltzen zuten eragiketa hori egiteko. Hala ere, azken ikerketek frogatu dute beste eragiketa batzuk, max-pooling, adibidez, askoz ere eraginkorragoak direla eskualde bati buruzko ezaugarriak laburbiltzen.

Max-pooling eragiketak lagin-leiho baten arteko balio maximoa aurkitzen du, eta balio hori pasatzen du eremu horren ezaugarrien laburpen gisa. Ondorioz, datuen tamaina txikiagotu egiten da, eragiketa egiten den laginaren leihoaren tamainaren berdina den faktore baten bidez.

Neurona sailkatzaileak

Ezaugarriak ateratzeko fase bat edo gehiago igaro ondoren, azkenean sailkapen fasera iristen dira datuak. Ordurako, sarrerako irudirako ezaugarri paregabe batzuk ere araztu dituzte datuek, eta, orain, azken fase horren lana da ezaugarri horiek etiketa batean edo bestean sailkatu ahal izatea, entrenamendu-helburuen arabera.

Fase honetako neuronek geruza anitzeko pertzeptroi baten antzera funtzionatzen dute, eta bakoitzaren irteera honela kalkulatzen da:

$Y_{j}=g\left(b_{j}+\sum _{i}w_{ij}\cdot Y_{i}\right)$

$j$ neurona baten $Y_{j}$ irteera lortzeko, lehenengo aurreko geruzan dauden neuronen $Y_{i}$ irteerak $w_{ij}$ pisuekin biderkatzen dira eta $b_{j}$ eragin bat gehitzen zaio, ondoren $g(\cdot )$ aktibazio-funtzio ez-lineal batetik pasatzen da, $Y_{j}$ lortuz.

Aplikazioak

Neurona sare konboluzionalen barruko konboluzioen izaera dela eta, konboluzio horiek egokiak dira mota guztietako datuak sailkatzen ikasteko, baldin eta datu horiek sarrera-mapan zehar modu jarraituan banatuta badaude eta, aldi berean, estatistikoki antzekoak badira sarrera-mapako edozein tokitan. Horregatik, bereziki eraginkorrak dira irudiak sailkatzeko.

Argazkien ezagupena

Neurona sare konboluzionalak irudiak ezagutzeko sistemetan erabiltzen dira askotan. 2012an, MNIST datu-basean %0,23ko errore-tasa izan zen. Irudiak sailkatzeko neurona sare konboluzionalen erabilerari buruzko artikulu batek, ikasketa prozesua "harrigarri azkarra" zela jakinarazi zuen.

Aurpegi-ezagutzan aplikatu zirenean, errore-tasa asko jaistea lortu zuten. Bideoen kalitatea ebaluatzeko ere erabili ziren, modu objektiboan eskuzko entrenamenduaren ondoren; lortutako sistemak, batez besteko akats koadratiko oso txikia lortu zuen.

Bideo analisia

Argazkien ezagupenarekin alderatuta, nahiko lan gutxi dago neurona sare konboluzionalak bideoen sailkapenean aplikatzeko. Bideoak irudiak baino konplexuagoak dira, beste dimentsio bat baitu (denbora). Hala ere, bideoen domeinuan gauza batzuk arakatu dira. Modu bat, espazioa eta denbora dimentsio baliokide bezala tratatzea da sarreran eta bai denbora, bai espazioan konboluzioak egitea da. Beste modu bat, bi neurona sare konboluzionalen ezaugarriak fusionatzea da, bat espazio-fluxuarentzat eta bestea denbora-fluxuarentzat.

Hizkuntzaren prozesamendua

Neurona sare konboluzionalak hizkuntzaren prozesamenduan ere erabili dira. Ereduak eraginkorrak dira hainbat HP-ko arazoetarako, eta emaitza bikainak lortu dituzte bilaketak berreskuratzen, esaldiak modelatzen, sailkapenean, iragarpenean eta beste HP-ko zeregin tradizional batzuetan.

Anomalien detekzioa

1-D konboluzioak dituen neurona sare konboluzional bat erabili zen maiztasunaren domeinuko denbora-serieetan (espektro-hondakina), gainbegiratu gabeko eredu baten bidez, denboraren domeinuko anomaliak detektatzeko.

Drogen aurkikuntza

Neurona sare konboluzionalak drogen aurkikuntzan erabili izan dira. Molekulen eta proteina biologikoen arteko interakzioak aurreikusteak balizko tratamenduak identifika ditzake. 2015ean, Atomwisek, AtomNet presentatu zuten, egituran oinarritutako drogen diseinurako ikasketa sakoneko lehen neurona-sarea. Sistemak zuzenean elkarrekintza kimikoen hiru dimentsioko irudikapenetan entrenatzen du. Irudiak ezagutzeko sareek egitura handiagoetan eta konplexuagoetan ezaugarri txikiagoak eta espazialki hurbilak konposatzen ikasten duten antzera, AtomNet ezaugarri kimikoak aurkitzen ditu, hala nola aromatikotasuna, sp3 karbonoak eta hidrogenoaren lotura. Beranduago, AtomNet erabili zen gaixotasunen hainbat zurirentzako biomolekula hautagai berriak aurreikusteko, batez ere ebola birusarentzako eta esklerosi anizkoitzarentzako tratamenduak.

Erreferentziak

↑ Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position". Biological Cybernetics 36 (4): 193–202.
↑ LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE 86 (11): 2278–2324.

[1] Fukushima, Kunihiko (1980). "Neocognitron: A Self-organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position". Biological Cybernetics 36 (4): 193–202.

[2] LeCun, Yann; Léon Bottou; Yoshua Bengio; Patrick Haffner (1998). "Gradient-based learning applied to document recognition". Proceedings of the IEEE 86 (11): 2278–2324.

[1]

[2]