Hitzen adiera-desanbiguazioa

Hizkuntzalaritza konputazionalean, hitzen adiera-desanbiguazioa (ingelesez Word sense disambiguation edo WSD) perpaus jakin batean hitz polisemiko batek duen adiera antzematean datzan prozesua da. Esate baterako, hori hitzak adiera ezberdinak izan ditzake testu-inguruaren arabera, hauek tartean:

erak. Entzuten ari denaren inguruko pertsonei eta gauzei ezartzen zaien erakuslea (izenordain gisa ere erabil daiteke). (Harluxet)
iz. Argi zuriaren espektroko hirugarren kolorea, laranjaren eta berdearen artekoa. (Harluxet)

Eta adibide bezala honako perpaus hauek eman daitezke:

Giltza honek horko ate hori irekitzen du.
Galtza hori batzuk erosi ditut.

Hizkuntza ezagutzen duen gizaki batentzako erraza da lehen esaldiko hori hitza 1. adierari, eta bigarren esaldikoa 2.ari dagokiola antzematea. Era automatikoan funtzinatuko duen algoritmo baten bitartez egitea, ordea, lan zaila da.

Zailtasunak[aldatu | aldatu iturburu kodea]

Hitz polisemiko baten adiera antzematerakoan maila ezberdinetako zailtasunak aurki daitezke. Goiko adibidea bezalako kasu batzuetan errazagoa izan daiteke adiera egokia hautatzea, erakusle edo izenordain eta izen arteko ezberdintasuna antzematea errazagoa izan daitekeelako, baina beste batzuetan gerta daiteke ezberdintasun hau ez ematea; adibidez, paper hitzak idazteko erabiltzen den materiala edo pertsona batek hartzen duen rola adieraz dezake, besteak beste, bietan ere izen bezala. Azken hauek dira sistema hauen aurrean zailtasun handienak aurkezten dituzten hitz polisemikoak.

Desanbiguaziorako sistemak[aldatu | aldatu iturburu kodea]

Hitzen esanahiaren desanbiguazio prozesua (Word Sense Desambiguation), Manuel García Vegaren esanetan, hitz polisemiko bati zentzu edo esanahia jakin bat ematean datza, hots, anbiguitatea ekiditzeko modu bat da, betiere delako hitzaren testuingurua aintzat hartuz. Anbiguitatea aspaldiko arazoa dugu, izan ere 50eko hamarkadatik datorren kezka da. Desanbiguazio arazo hau oso erabilgariia suertatzen da Hizkuntza Naturalaren prozesamendurako, hala nola informazioa berreskuratzeko, testuen sailkapenerako, itzulpen automatikoak gauzatzeko etab. Desanbiguazioak, adibidez, hainbat erabilpen ditu gizakien eta ordenagailuen arteko interaktuazioan.

Makina bidezko itzulpenetan itzulpen posible batzuetatik egokiena aukeratzea.
Interneten hitz bat duen artikulu bat bilatzen duzunean zuk aukeratu duzun esanahiekoa izatea aurkitutakoa.
Erantzunak ematerakoan, galderek erantzun posible bat baino ez izatea kontestuaren arabera.
Jakintza bilatzean, zerbait ezezaguna ikasi nahi izanez gero, gaiari lotuen dagoen erantzuna eta informazioa bilatzea.

Ezagutza bidezko desanbiguazioa[aldatu | aldatu iturburu kodea]

Anbiguitate arazoak ekiditzeko beste modu bat Andres Montoyok proposatutakoa da, hau da, ezagupenean oinarritutako hitzen esanahiaren desanbiguazio prozesua (WSD knowledge-driven). Metodo hau desanbiguatu beharreko hitzaren testuingurua kanpoko ezagupen lexikoaren errekurtsoari buruzko informazioarekin lotzean datza. Horretarako, Wordnet ezagupen lexikoaren oinarritzat hartu izan da.

Alicanteko Unibertsitatean egindako tesi, Espainiako Lengoaia Naturalaren Prozesamenduaren Sozietateak argitaratutakoaren arabera,beste metodo bat ere badago anbiguitate lexikoa konpontzeko. Honen izena Espezifitate Marken Metodoa (Método de Marcas de Especificidad)da. Hau ezagutza linguistikoan eta taxonomiaren erlazio semantiko eta sintaktikoen erlazioetan datza, honen abiapuntua WordNet-eko(ingeleko datu base lexikoa) ezagutza lexikoa delarik.Honen helburua gainera,WordNet semantikoki aberastea da, dominioko etiketen bidez edo beste sistematako klasifikazio kategorien bidez.

Normalean kontestu berean dauden hitzek esanahia erlazionaturik daukate. Horregatik, garrantzitsua da hitzetak klasetan (hierarkia)bananduta egotea euren esanahi semantikoaren arabera.Horregatik, bi hitz klase berdinekoak badira,estu lotuta daudela esan nahi du. Horrela, Espezifitate Marken bidez hierrarkia ordena jartzen da: hiperonimia/hiponimia.Bi gauzek gero eta informazio gehiago elkarbanatzen badute, gero eta hurbilago eta batuago egongo dira haien artean.Biek konpartitzen duten hori, "aita kontzeptua"-ren bidez azalduta dago, zein Espezifitate Marka deituko deiogun(ME). Espezifitate Markak berarekin erlazioa duten hitzak bilatuko ditu, hauek lotuz.

Ikuskapenezko desanbiguazioa[aldatu | aldatu iturburu kodea]

Honekin batera beste metodo bat ere erabili dute horrela %12 hobetu dutelarik anbiguetate lexikoaren arazoa. Hau Entropia Goreneko probabilitate modeloa (MEM, Maximum Entropy Method) da. Corpusean oinarritutako ikaskuntza gainbegiratuaren bidez gauzatzen da eta honen helburua hitzen esanahien klasifikatzailea aurkitzea da, Maxima Entropia printzipioan oinarritutako probabilitate modelo baten bidez.

Maxima Entropiako modeloek probabilitate banaketa onena bilatzen dute ez da entrenamendu multzoan (hitz-multzoan)islatzen den ezagutzarik hartzen. Bere abantaila kontestu hetereogeneko informazio iturrien errepresentazio gaitasunean datza. Hau ,batez ere, izen, aditz eta adjektiboei ezartzen zaie.Ikaskuntza adibide multzo batetik abiatzen da klasifikadorea osatzeko. Hitzen esanahien anbiguitatearen gainean eginiko ikerketek diotenez, ezagupenean eta corpusean oinarritutako desanbiguazio sistema hibrido batek hitzen desanbiguazio prozesua, %12 hain zuzen.

Corpusean oinarritutako metodoek duten eragozpenik handiena corpusarekiko duten menpekotasuna litzateke, bere erabilagarritasuna, egokitasuna eta bestelako dominioetan aplikatzeko gaitasun ezagatik. Ezagupenean oinarritutakoek, aldiz, aurreko metodoek baino emaitza txarragoak lortzen dituzte eta gainera, ezagupena errepresentzatzeko esfortzu handi eskatzen dute. Baina dominio heterogeneoetan aplikatzeko erraztasuna eskaintzen dute. Horregatik, bi metodoen arteko konbinaketa batek bien abantailak aprobetxatzeaz gain aspektu negatiboak minimizatuko lituzke.

Disanbiguaziorako sistemak eta programak[aldatu | aldatu iturburu kodea]

Hizkuntza teknologien arloan hainbat ikertzailek disanbiguazio sistemak garatu dituzte gero aplikatuak izan ahal izateko. Programak aipatutako bi sistema orokorretan oinarrituta garatu dira. Hauetako bat Senseval izan daiteke, zeinek hitz bat zein esanahirekin erabili behar den erabakitzen duen.

Ikus, gainera[aldatu | aldatu iturburu kodea]

Erreferentziak[aldatu | aldatu iturburu kodea]

Wilks, Y., Slator, B., Guthrie, L. (1996) Electric Words: dictionaries, computers and meanings. Cambridge, MA: MIT Press.
Steve Hoenisch, Identifying and Resolving Ambiguity Last updated on August 20, 2004; kontsulta: 2008-04-28 12.55 http://www.criticism.com/linguistics/types-of-ambiguity.php#section-Lexical-Ambiguity
Glorias y miserias de la traducción automática. Kontsulta data, 2008ko maiatzak 12, 13:00 http://www.ati.es/gt/lengua-informatica/simo1/SIM1_jmf.html
Manuel García Vega. Resolución de la ambiguedad léxica mediante el aprendizaje por cuantificación vectorial.Kontsulta data: 2008ko maiatzaren 10a, 10:56. https://web.archive.org/web/20081119232249/http://sepln.org/revistaSEPLN/revista/38/15.pdf

Kanpo estekak[aldatu | aldatu iturburu kodea]

(Ingelesez) https://web.archive.org/web/20050902115653/https:/// (Hitzen adiera-desanbiguazioa ebaluatzeko ariketak)
(Ingelesez) Computational Linguistics aldizkariaren ale berezia hitzen adiera-desanbiguazioaren inguruan (1998)
(Ingelesez) Word Sense Disambiguation: The State of the Art (PDF)
(Ingelesez) Hitzen adiera-desanbiguazioari buruzko tutoriala.
(Ingelesez) www.wsdbook.org Word Sense Disambiguation: Algorithms and Applications liburua.
(Ingelesez) Word Sense Disambiguation: A Survey