Kategoria gramatikalen etiketatzea

Corpus hizkuntzalaritzan, kategoria gramatikalen etiketatzea (ingelesez part-of-speech tagging, POS tagging edo POST), testu (corpus) batean hitz jakin bati dagokion kategoria gramatikala etiketatze-prozesuari deritzo. Horretarako, hitzaren beraren definizioan eta bere testuinguruan —hau da, bere ondoko eta erlazionatutako hitzetan, perpaus, esaldi edo paragrafoan— oinarritzen da. Horren sinplifikazio bat irakatsi ohi zaie eskola-umeei, izenak, aditzak, adjektiboak, adberbioak, eta abar gisa identifikatzeko hitzak.Kanpo loturak

Garai batean eskuz eta hitz gutxirekin egiten zena, orain modu erdiautomatikoan eta masiboki egiten da hizkuntzalaritza konputazionalaren testuinguruan, termino diskretuak zein ezkutuko elipsiak dagokien etiketa gramatikalekin lotuz algoritmoak erabiliz. Kategoria gramatikalen etiketatze-algoritmo hauek bi multzotan bereizten dira: erregeletan oinarritutakoak eta estokastikoak. E. Brillit-en etiketatzailea, ingeleserako lehenengotarikoa, eta gehien erabilia izan dena, erregela bidezkoa da.

Eustagger da euskarazko testuak kategoriarekin etiketatzeko aplikazioetako bat.^[1]

Printzipioa[aldatu | aldatu iturburu kodea]

Kategoria-etiketatzea ez da hasieran uste daitekeen bezain erraza, ez da nahikoa hitz posibleen zerrenda bat biltzea eta bakoitzari dagokion kategoria gramatikala taula bat osatzea. Hitz batzuek etiketa gramatikal bat baino gehiago har ditzaketelako testuinguruaren arabera, edo kategoria konplexuen edo elipsiaren agerpenarengatik. Hori gertatzea ohikoa da hizkuntza naturaletan (hizkuntza artifizialetan ez bezala), testuetako hitz-formen ehuneko handi bat anbiguoak dira. Adibidez, "hori" hitzak bi ehirusanahi izan ditzake:

Ekar diezadazu liburu hori. (Hori: determinante erakuslea)
Niretzat kolore atseginena hori iluna da da. (Hori: izen arrunta)
Liburu horia da nire gustukoena dena. (Hori: adjektiboa)
Alde urdin hori margo ezazu, hori ezazu. (Hori(tu): aditza)

Lehengo esaldian "hori" hitza erakuslea da, "horkoa" esan nahi du. Bigarrengoan berriz, "hori" hitzak limoiaren koloreari egiten dio erreferentzia; Hirugarrenean kolorea adjektibo moduan erabiltzen da. Eta laugarren esaldian "hori(tu)" aditza erabiltzen da, "horiztatu" ere esan ohi dena.

Eskolan txikitatik irakasten dira oinarrizko kategoria gramatikal batzuk: izena, aditza, izenlaguna, adjektiboa, izenordea, adberbioa, adizlaguna eta aditzondoa. Hala ere, argi eta garbi, askoz kategoria eta azpi-kategoria gehiago daude. Hizkuntzaren arabera kategoria ezberdinak izan ditzakegu, izenak kasuaren arabera sailka daitezke (NOR-NORI-NORK), edo aditzak denbora eta aspektuaren arabera. Hizkuntzalariek kategoria gramatikalak maila bateraino sailkatzen dituzte, aukeratutako etiketatze-sistemaren arabera.

Etiketatze gramatikal automatikorako ingelesaren kasuan adibidez 50-150 kategoria gramatikal ezberdin bereizten dira. Adibidez NN izen arrunt singularrentzat, NNS izen arrunt pluralarentzat, NP izen berezi singularrarentzat eta abar. Morfolokigoki aberatsak diren hizkuntzentzat deskriptore morfologikoak erabili ohi dira, adibidez, Ncmsan; Kategoria = Izena (Noun), Mota = arrunta (common), Generoa = maskulinoa, Zenbakia = singularra, Kasua = akusatiboa, Biziduna = ez (no).

Historia[aldatu | aldatu iturburu kodea]

Brown Corpusa[aldatu | aldatu iturburu kodea]

Kategoria etiketatzean ikerketa corpus-hizkuntzalaritzari estuki lotuta dago. Ingeleserako lehen ordenagailu-analisirako corpus nagusia Brown Corpusa izan zen. Brown Unibertsitatean garatutakoa da, Henry Kučera eta W. Nelson Frantzisren eskutik, 1960ko hamarkadaren erdialdean. 1,000,000 hitz ingelesezko prosa testu arruntek osatzen dute, ausaz aukeratutako argitalpenen 500 laginek zehazki. Lagin bakoitza 2,000 hitz edo gehiagok osatzen dute ( 2.000. hitzaren ondorengo lehen esaldi-amaieran amaituz, beraz, corpusak esaldi osoek bakarrik osatzen dute).

Brown Corpusa esportzu handiz "etiketatu" zen kategoria gramatikalen markatzaileekin urte askotan zehar. Lehen hurbilketa bat egin zuten Greene eta Rubinek programa batekin, eskuz egindako erregela multzo erraldoi batean oinarrituz, gerta zitezkeen kategoria posible guztiak zerrendatuz. Adibidez, artikuluaren ondoren, izena gerta daiteke, baina ez aditza. Programak %70 zuzen sailkatu zituen. Bere emaitzak behin eta berriz, eskuz berrikusi eta zuzendu ziren, eta gerora, erabiltzaileek bidalitako zuzenketekin. 70eko hamarkada amaierarako etiketatzea ia perfektua zen(giza hiztunak ados jarri daitezkeen puntura arte).

Corpus hau hainbat ikerketatan erabili izan da, hitzen maiztasuna eta kategoria gramatikalak etiketatzeko, besteak beste, eta beste hainbat hizkuntzatan antzeko korpusak sortzeko inspirazioa izan da. Bertatik eratorritako estatistikak aztertuz beste tresna batzuk sortu dira. Hala eta guztiz ere, une honetan (2005tik) corpus handiagoez ordeztua izan da, hala nola 100 milioi hitz dituen British National Corpusa.

Denbora luzez, kategoria gramatikalen etiketatzea hizkuntza naturala prozesatzearen zati bereizezintzat jotzen zen. Zenbait kasutan etiketatze zuzena erabakitzeko, semantika ulertzeko, eta testuinguruaren pragmatika ulertzeko beharra dagoelako. Honek kostu handia du, batez ere maila gorenak aztertzeko, askoz zailagoa delako kategoria gramatikal ugari daudenean zuzena aukeratzea hitz bakoitzarentzat.

Markoven eredu ezkutuen erabilera[aldatu | aldatu iturburu kodea]

80. hamarkadan, Europan, ikerlariak Markoven eredu ezkutua (HMM) erabiltzen hasi ziren kategoria gramatikalen desanbiguaziorako, Ingeles britainiarraren Lancaster-Oslo-Bergen Corpusarekin lanean ari zirelarik. HMMak, kasuak zenbatu eta sekuentzia jakin batzuen probabilitateen taula bat egitean zetzan. Adibidez, "the" artikuluaren atzetik %40ko aukera dago izen bat joateko, eta %20koa zenbaki bat izateko. Hori jakinik, "the can" esaldian "can" hitzak ziurrenik izen kategoria hartuko du, aditzaren edo modalaren beharrean. Metodo berdina erabili dezakegu gainontzeko hitzen desanbiguaziorako.

Eredu aurreratuagoetan, HMMk bikotekako probabilitateez gain, hirukote zein sekuentzia luzeagoenak ikasten ditu. Adibidez, hitz baten atzetik aditza aurkitu baduzu, ondoren datorren hitza, izena, adjektiboa, edo adberbioa izatea da ohikoena, askoz arraroagoa izango da beste aditz bat aurkitzea (Ingelesaren kasuan, euskararen kasuan ordena askeagoa da).

Hainbat hitz anbiguo elkarren ondoan azaltzen direnean, aukerak biderkatu egiten dira. Hala ere, erraza da konbinazio guztiak enumeratu eta probabilitate erlatibo bat esleitzea bakoitzari, aukera bakoitzari dagokion probabilitateak biderkatuz. Probalilitate altueneko konbinazioa aukeratzen da ondoren. Europako taldeak CLAWS garatu zuen, etiketatze programa bat zen, zehazki metodo hau erabiliz zebilena, eta %93-95 bitarteko zehaztasuna lortu zuten.

Merezi du gogoratzeak, Eugene Charniakek Estatistika-teknikak hizkuntza naturala analizatzean (1997),^[2] lanean dioen bezala, besterik gabe, hitz bakoitzari etiketa ohikoena esleitzeak %90eko zehaztasuna lortzen duela. Hitz batzuetan ez dagoelako zalantzarik, eta beste batzuetan gutxitan azaltzen delako hitzaren adiera arraroena.

Programazio dinamikoko metodoak[aldatu | aldatu iturburu kodea]

1987an, Steven DeRose^[3] eta Ken Churchek independenteki garatu zituzten programazio dinamikoa algoritmoak, arazo bera denbora gutxiagoan konpontzeko. Beren metodoak beste eremu batzuetan ezagunak ziren Viterbi algoritmoen antzekoak ziren. DeRosek bikoteen taulak erabiltzen zituen, Churchek berriz, hirukoteen taula bat eta hirukote arraroen (Brown corpusean) balioen estimazioa lortzeko metodo bat erabiltzen zituen. Bi metodoek %95eko zehaztasuna gainditu zuten.

Aurkikuntza horiek harrigarriak izan ziren hizkuntza naturalaren prozesamenduko arloan. Ezagutza sintaktiko, morfologikoa eta semantikoa zerabilten algoritmo sofistikatuen zehaztasuna gainditu zuten metodo arin hauek. Semantika beharrezkoa zen kasu batzuetan huts egiten zuten, baina oro har, kasu bakanak ziren. Hau dela eta, kategoria gramatikalen etiketatzea gainontzeko prozesatze mailetatik aparte kokatu zuten, eta beste prozesu batzuekin bide berdina hartu zuten, konputagailu bidezko hizkuntza-analisiaren teoria eta praktika sinplifikatuz. Gaur egun, Markoven ereduak

Etiketatzaile ez gainbegiratuak[aldatu | aldatu iturburu kodea]

Dagoeneko eztabaidatutako metodoek aurrez existitzen den corpus batekin lan egitea inplikatzen dute, etiketen probabilitateak ikasteko. Badago ordea, kategoria gramatikalen etiketatze ez-gainbegiratu bat erabiltzea. Ez-gainbegiratuak diren etiketatze teknikek, corpus etiketatu gabe bat hartu eta bertatik hitzen patroiak aztertzen dituzte, eta hauetatik kategoria gramatikalak induzitzen dituzte. Adibidez, estatistikak agerian uzten du ingelesezko "the", "a", eta "an" antzeko testuinguruetan agertzen direla, eta "jan" berriz, oso desberdinak direnetan topatu dezakegu. Nahikoa iterazio egin ostean, antzekotasuna duten hitz kategoriak azaleratzen dira, hizkuntzalariek espero lituzkeenen antzekoak nabarmen.

Bi kategoria hauek gehiagotan banatu daitezke: erregeletan oinarritutakoak, estokastikoak, eta neurona-sareen bidezkoak.

Bestelako etiketatzaileak eta metodoak[aldatu | aldatu iturburu kodea]

Gaur egungo kategoria gramatikalen etiketatze algoritmo nagusien artean, besteak beste, Viterbi algoritmoa, Brillit etiketatzailea, Murriztapen Gramatika, eta Baum-Welch-algoritmoa daude. Etiketatzeko Markov-en ezkutuko eredua eta Markov eredu ikusgarria, biak ere Viterbi algoritmoa erabiliz inplementatu daitezke.

Ikasketa automatikoko metodo asko ere aplikatu izan da POS etiketatzearen probleman. Besteak beste, SVM, entropia maximoaren sailkatzailea, perceptron, eta bizilagun hurbilena(nn) probatu dira, eta guztien kasuan, %95eko zehaztasuna gainditu dute.

Berriki garatutako kategoria gramatikalen etiketatze-metodo batek, estruktura erregularizazioa erabiliz, %97.36ko zehaztapena lortu zuen.

Arazoak[aldatu | aldatu iturburu kodea]

Oinarrizko kategorien adostasun zabala dagoen bitartean, muturreko kasu batzuetan zailtasun handiak daude etiketa zuzenak esleitzen. Adibidez, zaila da esatea "elektriko" adjektiboa edo izen bat den:

auto elektriko berria.

Bigarren adibide garrantzitsu bat honakoa da; erabili/aipatu bereizketa; hurrengo adibideko "urdina" hitza beste edozein kategoria gramatikaleko edozein hitzekin ordeztu liteke:"urdina" hitzak 6 letra ditu.

Atzerriko hizkuntzetako hitzak hizkuntza "nagusi" baten baitako testuan ageri direnean "erdara" gisa etiketatzen dira, testuinguruan dagokion kategoria gramatikala etiketatzeaz gain.

Erreferentziak[aldatu | aldatu iturburu kodea]

↑ (Ingelesez) «Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages | IXA taldea» ixa.si.ehu.eus (ACL) (Noiz kontsultatua: 2018-06-10).
↑ Eugene Charniak
↑ DeRose, Steven J. 1988. "Gramatika kategoria argipena arabera estatistika optimizazioa." Hizkuntzalaritza 14(1): 31–39. [1]

Ikusi gainera[aldatu | aldatu iturburu kodea]

Hitzen adiera-desanbiguazioa

Kanpo estekak[aldatu | aldatu iturburu kodea]

Desanbiguatzaile morfosintaktikoa. Sareko Euskal Gramatika.

Datuak: Q1271424

[1] (Ingelesez) «Combining Stochastic and Rule-Based Methods for Disambiguation in Agglutinative Languages | IXA taldea» ixa.si.ehu.eus (ACL) (Noiz kontsultatua: 2018-06-10).

[2] Eugene Charniak

[3] DeRose, Steven J. 1988. "Gramatika kategoria argipena arabera estatistika optimizazioa." Hizkuntzalaritza 14(1): 31–39. [1]

[1]

[2]

[3]