Lankide:Ibourb/Itzulpen automatikoa balioztatzeko metodoak

Wikipedia, Entziklopedia askea

Itzulpen automatikoa balioztatzeko metodoak[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Itzulpengintza automatiko»

Behin testu baten itzulpen automatikoa dugula, testu horren kalitatea balioztatzea komeni da. Lantzen ari garen arlo eta testuinguruaren araberakoa izango da erabiliko dugun ebaluatzeko zorroztasun maila. Izan ere, ez ditugu modu berdinean zuzenduko enpresa batek bidalitako gutun bat edo demo egoeran dagoen txatbot batek bidalitako mezua. Lehenengo kasuan oso zorrotzak izango gara testuak duen kalitatearekin eta bigarrenean ordea, mezua ulertzearekin konformatu gaitezke.

Joan-etorriko itzulpena[aldatu | aldatu iturburu kodea]

Gehienek itzulpen automatiko baten kalitatea balioztatzeko prozedura hau jarraitzen dute: testu bat helburuko hizkuntzara itzuli eta lortutako itzulpena berriro ere sarrerako hizkuntzara itzuli. Intuizioz, pentsa genezake prozedura zuzena dela itzulpen automatikoak ebaluatzeko, baina ez da honela.

Itzulpen automatikoak ebaluatzeko sistema zuzena ez izatearen arrazoia honakoa da: ez da itzulpen automatikoaren sistema bakarrik balioztatzen; bi sistema ebaluatzen dira. Izan ere, lortutako itzulpena jatorrizko hizkuntzara berriro itzultzeko beste sistema bat erabiltzen da.

Hurrengo adibideak Sommers-ek (2005)[1] egindakoak dira, ingelesetik italierara eta ingelesetik portugesera egindako joan-etorriko itzulpenak dira:

  • Ingelesetik italierara:
    • Sarrerako testua: Select this link to look at our home page.
    • Itzulpena: Selezioni questo collegamento per guardare il nostro Home Page.
    • Joan-etorriko itzulpena: Selections this connection in order to watch our Home Page.
  • Ingelesetik portugesera:
    • Sarrerako testua: Tit for tat.
    • Itzulpena: Melharuco para o tat.
    • Joan-etorriko itzulpena: Tit for tat.


Sommers-ek dio lehenengo adibidean italierako itzulpena onargarria dela eta joan-etorriko itzulpena egin ondoren ingelesez zentzua mantentzen dela. Bigarren adibidean ordea, portugeseko itzulpena ez dela batere ona dio.

Balioztatze objektiboa[aldatu | aldatu iturburu kodea]

Gizaki baten ebaluazioaren beharra ez duten metodoak azaltzen dira hemen.

WER (word error rate)
Sortu berri den esaldia zuzentzeko egin beharreko ordezkapen, txertaketa eta ezabapen kopuru minimoa neurtzen du.
PER (position-independent word error rate)
WER metrikaren hobekuntza bat da esaldi barruko hitzen posizioekiko independente izan dadin.
mWER (multi-reference word error rate)
Sortutako esaldiaren eta erreferentzia gisa dugun esaldi multzotik antzekotasun gehien dituzten esaldien artean WER kalkulatzen da. Erreferentzia gisa erabiltzen dugun esaldia bakarra bada, desberdintasun handia aurki dezakegu honen eta gure sistemaren itzulpenaren artean. Izan ere, erreferentzia gisa ditugun esaldiak itzultzaile den pertsona batek egindakoak dira eta honek, askatasun osoz itzuli ahal izan du emandako esaldia. Hori dela eta, erreferentzia gisa hainbat itzulpen hartzen baditugu emaitzak nabarmen hobetzen dira.
BLEU
Erreferentzia gisa ditugun itzulpenekiko n-gramen (unigrama, bigrama, trigrama eta 4-grama) doitasuna neurtzen du.
NIST
BLEU metrikaren aldaera bat da non maiztasun txikiko n-gramei pisu gehiago ematen zaien.

Balioztatze subjektiboa[aldatu | aldatu iturburu kodea]

Metodo hauetan gizakiaren balorazioa da itzulpenaren ebaluazioan kontuan hartzen dena.

SSER (subjective sentence error rate)
Gizaki batek automatikoki itzulitako esaldiari 0 eta 1 arteko puntuazioa esleituko dio. Itzulpen perfektu batek 0ko kalifikazioa jasoko du eta erroredun itzulpen batek 1eko kalifikazioa.
IER (information item error rate)
Froga-faseak itemetan banatzen dira. Gizaki batek item bakoitzeko informazioa itzulpenean dagoen aztertuko du. Honela, itzulpena osotasunean akastuna izanik, zuzenak diren atalak dauden jakin dezakegu.

Eskala handiko balioztatze ikerketak[aldatu | aldatu iturburu kodea]

Automatic Language Processing Advisory Committee (ALPAC)[aldatu | aldatu iturburu kodea]

ALPAC-ek egindako ikerketaren bitartez alderatu egin zituzten hizkuntzalariek egindako itzulpenak itzulpen automatikoen emaitzekin, entrenatutako gizakiak erabiliz epaile bezala. Zehazki errusieratik eta ingelesera egindako itzulpenak epaitzen ziren, bi balio emanez.

Lehenengo balioa 1-9 arteko zenbakiaren bitartez adierazten zen esaldiaren "ulergarritasuna" adierazteko. Balio hau ezartzen zuten hasierako esaldiarekiko erreferentziarik eduki gabe.

Bigarrengo balioa "fidagarritasuna" zen eta itzulpenaren ondoren mantentzen den informazio kantitatea adierazteko balio zuen. 0-9 arteko zenbakiaren bitartez, hauetako zenbaki bakoitzak hitzezko sinonimo bat zeukaten. Adibidez 3 zenbakiak "Orokorrean ulertezina" deritzo.

Ikerketaren bitartez iritsitako ondorioa zera izan zen: itzulpen automatikoaren bitartez emaitza fidagarriak lortu daitezke.

Defense Advanced Research Projects Agency (DARPA)[aldatu | aldatu iturburu kodea]

DARPA-k metodologia bat sortu zuen itzulpen automatikoen balioztapenak egin ahal izateko, urteetan zehar adosten egon dira zeintzuk diren metodo aproposenak. Azkenean, honako metodo hauek izan dira denboran zehar erabiltzea erabaki direnak: ulergarritasunaren balioztapena, kalitate balioztapena eta egokitasun eta erraztasunaren bidezko balioztapena.

Ulergarritasunaren balioztapenaren helburua sistemak alderatzea zen. Metodo honetan hizkuntzalari profesionalen bitartez lortzen diren testuak beste hizkuntza batera itzuli eta itzulpen hauek itzultzaile automatikoak erabiliz berriro ere hasierako hizkuntzara pasatzen ziren. Denbora gutxira konturatu ziren metodo hau ez zela batere aproposa sistemak alderatzeko.

Kalitate balioztapenak hizkuntzalari profesionalak erabiltzen zituen baita ere, kasu honetan hauek balioztatzen zuten itzulpena aproposa zen ala ez eskala batean jarriz. Metodo honek denbora asko eramaten zuen hizkuntzalari guztiak adostu behar zutelako zein balio eman itzulpenari, azkenean metodo hau baztertu egin zuten.

Azkenean egokitasuna eta erraztasunaren bidezko balioztapena da gehien erabili dena; epaileak aukeratzen zituzten itzulpena egokitasun mailan eta erraztasun mailan balio bat emateko bere eskalan. ALPAC erabiltzen duen metodoaren antzekoa da hau. Hau da gaur egun erabiltzen DARPA-k duen metodologia.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Somers, Harold. (2005-12). «Round-trip Translation: What Is It Good For?» Proceedings of the Australasian Language Technology Workshop 2005: 127–133. (Noiz kontsultatua: 2021-03-02).