Itzulpengintza automatiko

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu

Itzulpen automatikoa (labur IA edo MT - Machine translation) da iturburu-hizkuntzako testu batetik abiatuta helburu-hizkuntzako testu (ia) baliokide bat lortzea makina bat erabilita. IA ez da nahastu behar konputagailuz lagundutako itzulpenarekin ez eta itzulpen-memorien erabilpen soilarekin.

Itzulpengintza automatikoa hizkuntza teknologiaren garapenean nabarmen lagundu duen diziplina da. Zeregin nagusia hori duten elkarte zientifikoak, aldizkari bereziak, unibertsitate departamentuak eta enpresak daude. Martin Kayren esanetan[1]:

« Itzultzeko makinak lortzeko irrika horrek hizkuntzalaritza, filosofia, matematika edo informatika diziplinetako zenbait buruargiren arreta merezi izan du. Horretaz gain, itzulpen automatikoak jarraitzaile leial batzuengan erakarpen liluragarria pizten du. Zer dela eta lilura hori?  »

Bitarteko mekanikoen bidez itzultzea bada erronka zientifiko bat. Baina itzulpen automatikoak horrenbesteko interesa piztearen benetako arrazoiak ez du sustrai zientifikorik, behar praktikoan du jatorria, informazioaren jarioan alegia.

Suedia eta Finlandia Europako Batzordean sartu zirenean 1995ean, 60.000 arautze komunitario inguru itzuli behar izan ziren, "acquis communautaire" izenaz ezagutzen direnak. Hiru urte beranduago, 1999an, Bruselako legegizonen ahalegin nekaezinari esker, 20.000 arautzetan handitu zen kopurua. Ekialdeko Europako herriak EBan berehala sartzeak oso hizkuntza egoera delikatuan jartzen du Batzordea eta teknologia berrien aurrerakadak baino ezin lagun dezake egoera arintzen.

Historia[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Itzulpengintza automatikoaren historia»

Makina itzultzaileak egiteko nahia ordenagailuak izan baino askoz ere lehenagokoa da. 1940ko hamarkadan ordenagailu bat eskura egon zenetik, itzulpengintza automatikoa berehala bilakatu zen informatikaren aplikaziorik arrakastatsuenetako batean. Ordutik hona, denbora egon da esperimentu anitz egiteko, txikiak eta handiak, bai eta instituzio zein industria mailako inbertsio handiak egitekoa ere. 1950eko hamarkadan itzultzaile automatiko bat sortzeko jarrera baikorra nagusi zen arren, 1966an argitaratutako ALPAC txostenak[2] jarrera eszeptikoa ekarri zuen eta, ikerketek Kanadan eta Europan jarraipena izan arren, Estatu Batuetan nabarmen egin zuen behera inbertsio nahiz ikerketak. Hala eta guztiz ere, 1980ko hamarkadan suspertu zen berriz, hainbat sistemen argitalpen eta teknika berrien agerpena zela medio. 1990eko hamarkadan, batez ere teknika estatistikoen hobekuntzarekin optimismorako joera areagotu zen eta gaur egun Interneten aurki daitezke sistema askoren inplementazioak zerbitzu modura erabiltzaileen eskura.

Zailtasunak[aldatu | aldatu iturburu kodea]

Gizaki baten mailara iritsiko den IA lortzea kontu zaila da, ez baita nolanahikoa makina bati erakustea gizaki batek izan dezakeen ezagutza (testuingurua) ez eta erabakiak hartzeko gaitasuna (nola ebatzi anbiguotasunak?).

Gauza jakina da hizkuntza guztiek ez dituztela ezaugarri berak eta sintaxiaren ordenari dagokionez egitura ezberdinak erabiltzen direla. Ez baita berdina antzeko egitura sintaktikoak dituzten hizkuntzen arteko IA edo egitura sintaktiko erabat ezberdinak dituzten hizkuntzen artekoa. Lehenengoak prozesamendu eta baliabide gutxiago eskatzen ditu eta emaitzak ere hobeak dira bigarrenean baino. Bigarrenak, beraz, aparteko prozesaketa eskatuko du esaldi bateko elementuen ordena ebazterako orduan.

IAri ekiteko aukeratutako estrategiaren arabera, gainera, beharrezko baliabideak neurri ezberdinetakoak izan daitezke. Corpusetan oinarritutako IAren kasurako, adibidez, ezinbestekoa da corpus eleanitz handiak izatea, sistemak bertatik ikasteko aukera izan dezan eta munduarekiko ikuspegi zabalagoa izan dezan.

Esan bezala, anbiguotasunen gaineko erabakiak hartzea kontu zaila izan daiteke eta, ondorioz, helburu orokorreko IA egin ordez badira domeinu konkretuetan espezializatzen diren sistemak, sarrera mugatuagoa izanik, anbiguotasunerako aukerak ere murrizten baitira eta horrek eragin zuzena baitu lortutako emaitzetan.

Ikus daitekeenez, hainbat dira gainditu beharreko trabak kalitatezko IA lortu nahi bada, horregatik, IAren erronkak eta egun arte egindako bidea ikusita, beti dago eszeptikotasuna adieraziko duenik[3]:

« IA etorkizun handiko teknologia da. 30 urte baino gehiago gabiltza etorkizun handia duela esaten. Baina agindutakoa ez da betetzen.  »

Estrategiak[aldatu | aldatu iturburu kodea]

Garapena[aldatu | aldatu iturburu kodea]

Itzulpen automatikoari aplikaturiko metodoak bi talde handitan bana ditzakegu:

Ikuspuntu teorikotik erabat kontrajarririk dauden hurbilpenak dira, diseinuaren aldetik sistema oso ezberdinak baitira. Arauetan oinarrituriko sistemek euren kontzepzio teorikoan, Hizkuntzalaritza Sortzailean eta Adimen Artifizialean izandako aurrerapenen eragina izan dute, batez ere, 1970eko hamarkadatik aurrera.

Analogietan oinarrituriko sistemak 1990eko hamarkadan agertu ziren eta hurbilpen estatistikoen metodoak aplikatzen dituzte aldez aurretik itzulita dauden testu zatien gainean. Ele egitea eta Corpus Hizkuntzalaritza aztertzeko sistemetan erabilitako tekniken antzekoak aplikatzen dituzte.

1990eko hamarkadara arte ikerlarien artean izan den premisarik indartsuenetako bat, itzulpena funtsean parekotasun semantikoaren arazo gisa hartzea izan da. Premisa horren oinarria Leibnizen garairaino heldu eta Frege eta Montaguek, semantika garaikidearen aitak, hartu zuten ustean dago, alegia, munduko hizkuntza guztiek azpiegitura logiko bera dutela. Horrela izatekotan, azpiegitura hori asmatu eta formalizatzeko gai bagina itzulpenaren arazoa konponduta legoke.

Ideia horrekin, ikertzaileak parekotasun kontzeptualaren arazoa konpontzen saiatu dira, bai adierazpen neutro eta komunen bitartez –hizkuntzen arteko edo interlingua teknika–, bai hizkuntza bikoteen artean tarteko adierazpenak proiektatuz –transferentzia teknika–. Semantikaren tratamendu konputazionalerako gehien erabiltzen diren ereduen artean azpimarratzekoak dira honako hauek: sare semantikoak, lehentasun semantikoak, kasu eta balentzia gramatikak, adierazpen kontzeptualak, transferentzia lexikoa, semantika lexikoa eta desanbiguazio lexikoa.

Uste teoriko hori seguruenik itzultzaileentzat itzulpen sistema erabilgarrien garapena gehien kaltetu duen alderdia da eta duela gutxi arte ikertzaile gutxi batzuk (Melby edo Kay) ausartu dira kritikak egiten. Melby izan da hizkuntzen arteko unibertsaltasun kontzeptualaren hipotesia era argi batean zalantzan jarri zuen lehena.

Itzultzaile profesionalek zalantzan jarri izan dute ideia horren baliagarritasuna Interneteko foro ezagunetan islatzen den legez. Horrez gain, itzulpengintzaren esparruan semantikoa bezain garrantzitsuak diren parekotasun mailak deskribatzen dituzten azterketak berriak dira. Nord-ek, itzulpen parekotasunaren azterketan egilerik nabarmenena den emakumeak, bi dimentsio gehiago proposatzen ditu, parekotasun estatistikoa eta parekotasun pragmatikoa. Bestalde, Hatim eta Mason-ek, itzulpena soilik linguistikoa baino, batez ere zentzu pragmatikodun kontutzat hartzearen garrantzia azpimarratzen dute eta parekotasun abstraktuagoa duen maila proposatzen dute sinbolo sozial eta kulturalen eremuan, hots, semiotikarenean.

Metodoak[aldatu | aldatu iturburu kodea]

Itzulpen automatikoa lortzeko estrategiari begiratzea da sailkapen klasikoena. Bi multzo nagusi nabarmen daitezke: erregeletan oinarritutako metodoak eta corpusetan oinarritutakoak.

Erregeletan oinarritutako IA[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Erregeletan oinarritutako itzulpen automatikoa»

Erregeletan oinarritutako IAren barruan itzulpen zuzena, transferentziazko edo interlingua bidezko metodoak aurki ditzakegu.

Corpusetan oinarritutako IA[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Corpusetan oinarritutako itzulpen automatikoa»

Erabilerak[aldatu | aldatu iturburu kodea]

Erabileraren aldetik bi atal nagusi bereizten dira, asimilazioa (assimilation) eta zabalkundea (dissemination).

  • Asimilazioa: sistema azkarrak dira baina itzulpenak kalitate txarrekoak. Testuaren ideia nagusi edo muina harrapatzeko balio dute.
  • Zabalkundea: emaitzak kalitate onekoak dira, baina ez inon argitaratzeko modukoak. Hau egin nahi bada, ezinbestekoa da posteditatzea. Askotan eremu zehatz batera (ezagutza jakin batera, alegia) mugatutako sistemak dira, horrela sarrerako hizkuntzaren nolakotasuna mugatzen baita eta anbiguotasunak neurri batean saihesten baitira.


Erreferentziak[aldatu | aldatu iturburu kodea]

  1. An introduction to machine translation, hitzaurrea W.John Hutchins and Harold L. Somers
  2. ALPAC. 1966. Language and machines: computers in translation and linguistics. A report by the Automatic Language Processing Advisory Committee. Washington, DC, National Academy of Sciences.
  3. Present and future of Machine Translation in the Directorate-General fro translation of the European Commission. In Proceedings of TC-START Workshop on Speech-to-Speech Translation. 2006, Barcelona. Josep Bonet.

Bibliografia[aldatu | aldatu iturburu kodea]

  • Paul Bennett. 1994. Translation Units in Human and Machine. Babel 40:12-20.
  • Bert Esselink. 1998. A practical guide to software localization. John Benjamins.
  • W. John Hutchins & Harold L. Somers. 1992.An Introduction to Machine Translation. Academic Press.
  • W.John Hutchins. 2001. Machine translation over fifty years. Histoire, Epistemologie, Langage XXII-1:7-31.
  • Martin Kay. 1997. The Proper Place of Men and Machines in Language Translation. Machine Translation 13:3-23.
  • Alan K. Melby. 1995. The Possibility of Language. A discussion of the nature of language with implications for human and machine translation. John Benjamins .
  • Sergei Nirenburg. 1987. Machine Translation: Theoretical and Methodological Issues. Cambridge University Press.
  • Johnatan Slocum. 1988. Machine Translation Systems. Cambridge University Press.

Kanpo loturak[aldatu | aldatu iturburu kodea]