Estatistiketan oinarritutako itzulpen automatikoa

Estatistiketan Oinarritutako Itzulpen Automatikoa (EOIA edo SMT, Statistical Machine Translation), itzulpen automatikoko paradigma bat da, zeinetan itzulpenak corpus eleanitzetatik erauzitako eredu estatistikoetan oinarrituta sortzen baitiren. Estatistiketan oinarritutako estrategia adibideetan oinarritutako edo erregeletan oinarritutako metodoez bestelakoa da.

Azken urteotako ikerketa-lerroak ildo honetan zuzendu dira eta optimismorako bideak ireki dituela esan daiteke lortutako emaitzen kalitatea dela medio. Hizkuntzatik independentea da metodo hau eta RBMT baino merkeagoa neurri batean, beharrezko baliabide nagusia corpus handiak baitira. Halere, corpus handiak ez daude hizkuntza ez eta erakunde guztien esku-eskura, beraz murriztapen handi hau gogoan izan behar da.

Arkitektura

SMT sistemaren ideia nagusia bi urratsetan bana daiteke:

Datu estatistikoak corpus elebidunetatik erauztea.
Itzulpenak informazio linguistiko espliziturik gabe egitea.

Ikus daitekeenez, itzulpen-ereduaren probabilitateak erauzi behar dira alde batetik, corpus paraleloan oinarrituta eta analisi estatistikoa burututa. Bestetik, helburu-hizkuntzako testuak erabilita hizkuntza-eredua ikasten da. Bi kontzeptu hauek honela definitzen dira:

Itzulpen-eredua: helburu-hizkuntzako kate bat iturburu-hizkuntzako itzulpena izateko probabilitatea.
Hizkuntza-eredua: helburu-hizkuntzako kate bat helburu-hizkuntzako baliozko esaldia izateko probabilitatea.

Kateak, hasiera batean hitzetan oinarritzen ziren, gaur egun ordea, n-gramak izan daitezke eta konputazio-beharra n balioaren arabera garestitzen da. Behin itzulpen- eta hizkuntza-ereduak ikasita, biak konbinatzen dira deskodetzaile bat erabilita (Moses), itzulpenaren probabilitatea lortzeko.

Corpusak

Lortutako probabilitateen kalitatea estuki lotuta dago corpusaren tamainarekin. Izan ere, geroz eta corpus handiagoak izan, emaitzak hobeak izango dira. Sistema honek, beraz, ez ditu EBMT sistemen mugak. Franz Joseph Och-ek zehaztu zuen beharrezko datu kopurua^[1]:

«

Zenbat datu kopuru behar da? GEHIAGO

»

Datu multzo handi horietan oinarrituta, SMT sistemen helburua erabaki optimoak egitea da, hau da, itzulpen onena zein den erabakitzea. Corpusa handia eta ona bada, itzulpenaren hurbilpen azkar eta merkea lortu ahal izango da, probabilitateen erauzketa eta IAko prozesua automatikoki egin baitaiteke. Aldiz, corpusa txikia bada, eremu zehatz batera zuzendutako itzulpenetara bidera daiteke mota honetako sistema bat.

Mugak

Azkenaldian, ordea, nabaritu da hobekuntzek mugak ere badituztela eta emaitzak hobetze aldera, informazio linguistiko sinplea sartzeko bidean dira ikerketak. Hortaz, etorkizuna hibridazioari eta sistemen arteko konbinazioari lotuta ikus daiteke.

Sistema honen arrakastaren isla nabarmenena Interneteko Google bilatzailean aurki dezakegu, urte gutxiren buruan 57 hizkuntza-parerako gaitu baitu web bidez eskaintzen dituen IA zerbitzuak. 2010eko maiatzaren 13tik aurrera, gainera, Google Translate zerbitzua euskaraz ere erabiltzeko aukera gehitu zen.^[2]

Softwarea

SMT sistemak eraikitzeko software librea doan deskarga daiteke Internetetik. Itzulpen-eredua erauzteko, GIZA++ programa erabili ohi da; hizkuntza-eredua lortzeko, aldiz, SRILM. Bi hauek konbinatuta itzulpenaren probabilitateak lortzeko, Moses erabiltzen da.

Ikus, gainera

Erreferentziak

Kanpo estekak

(Ingelesez) GIZA++, itzulpen-ereduak erauzteko programa librea.
(Ingelesez) SRLIM, hizkuntza-eredua modelatzeko tresna multzo librea.
(Ingelesez) Moses, estatistiketan oinarritutako sistemak eraikitzeko software librea.

Datuak: Q3245113

[1] Statistical Machine Translation: Foundations and Recent Advances

[2] Five more languages on translate.google.com

[1]

[2]