Erregeletan oinarritutako itzulpen automatikoa

Wikipedia, Entziklopedia askea
Jump to navigation Jump to search
Erregela bidezko sistemen sailkapena Vaquois-en triangeluak erakusten du.

Erregeletan Oinarritutako Itzulpen Automatikoan (EOIA edo RBMT, Rule-based Machine Translation) itzulpengintza automatikoa egiteko hurbilpenetako bat da, ezagutza linguistikoa adierazten duten erregelak erabiltzen dituena. Hiru estrategia bereiz daitezke erabiltzen den ezagutza linguistikoaren sakoneraren arabera: itzulpen zuzena, transferentziazko metodoak eta interlingua bidezko itzulpena. Vaquois-en triangeluak ondo azaltzen ditu metodoen artean dauden ezberdintasunak.

Estrategiak[aldatu | aldatu iturburu kodea]

Itzulpen zuzena[aldatu | aldatu iturburu kodea]

Hasiera bateko bereizketan metodo "zuzenak" eta "ez zuzenak" ezberdintzen dira. Metodo zuzenetan ez dira tarteko adierazpideak erabiltzen eta itzulpena urrats bakar batean burutzen da: jatorrizko hizkuntzako hitzak hiztegian kontsultatzen dira eta zuzenean ematen dira xede hizkuntzan dagozkien parekoak soilik malgutasun, komunztadura eta berrantolaketa arau batzuk aplikatuz.

Baina hitzez hitz itzultzeko teknika erraz hau aspaldi baztertu zen bideragarri ez zelako eta ezagutzen diren sistema guztiek, espainola eta katalana bezalako hizkuntza oso hurbilen artean itzultzen dutenek barne (InterNOSTRUM), mota bateko edo besteko tarteko adierazpenak erabiltzen dituzte. Metodo ez zuzenak bi motatakoak izan daitezke: "hizkuntza artekoa" edo interlingua eta "transferentziazkoa".

Interlingua[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Interlinguan oinarritutako itzulpengintza automatikoa»

Itzuliko diren hizkuntzen artean komuna den tarteko adierazpen bakar baten bidezko itzulpena planteatzen du, itzulpena bi urratsetan egitea ahalbidetuz: analisian eta sorkuntzan. Bere kontzepzio teorikoan zehatz-mehatz jasotzen du hizkuntzalari unibertsalen ideia eta bere garairik oparoena hirurogeita hamargarren hamarkadan izan zuen, Adimen Artifizialak proposatzen zuen ezagutzaren adierazpen ereduen aplikazioarekin. Metodo hori gomendatzen dute testu bat itzultzeko lehenago ulertu beharra dagoela esaten dutenek. Informazio semantikoa ezagutza-oinarri batean jasota egon ohi da (munduaren eredu bat) eta itzultze prozesuan zehar eskura izaten da.

Metodo honek arrakasta izan zuen bereziki Japonen hirurogeita hamar eta laurogeigarren hamarkadetan. Garaiko enpresa informatiko garrantzitsu orok bere itzulpen-proiektu propioa nahi zuen: ATLAS (Fujitsu), PIVOT (NEC), ... Egun oraindik ere bada gure artean proiektu japoniar bat, United Nations University-ren UNL (Universal Networking Language).

AEBetan interlinguan oinarritutako zenbait proiektu burutu izan da: KBMT (Carnegie Mellon University), ULTRA (New Mexico State University), PANGLOSS (CMU, NMSU eta University of Southern California), UNITRAN (University of Maryland); halere, kasu guztietan unibertsitateetan buruturiko ikerketa-proiektuak izan dira eta horietatik bat ere ez da merkaturatze fasera iritsi.

Europan bi proiektu aipa daitezke, DLT (BSO enpresa holandarrarena), esperantoa darabilena tarteko hizkuntza gisa, eta ROSETTA (Philips), Montague-ren gramatikan oinarrituta.

Transferentzia[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Transferentzian oinarritutako itzulpengintza automatikoa»

Transferentzia metodoaren alderdi bereizlea tarteko bi adierazpen proposatzen duela da, bat itzulpen-bikotearen hizkuntza bakoitzeko. Adierazpen horien gainean jatorrizko testuaren analisia eta xede testuaren sorkuntza, horrela, itzulpena hiru fasetan burutuko da: analisia, transferentzia eta sorkuntza. Transferentziaren maila sistema batetik bestera alda daiteke. Transferentzia maila lexikoan, sintaktikoan zein semantikoan burutu daiteke.

  • Transferentzia lexikoa: pareko terminoa bilatzen da xede hizkuntzan hiztegian den informaziotik abiatuta.
  • Transferentzia sintaktikoa: jatorrizko perpausaren analisirako zuhaitza sorkuntza-zuhaitza bilakatzen da, xede perpauserako parekoa dena.
  • Transferentzia semantikoa: adierazpen sakonak transformatzen dira, kasu ereduak, sare semantikoak edo egitura logikoak esaterako.

Transferentzia semantikoa interlingua teknikatik oso gertu dago. Metodo honekin diseinatu diren sistemen artean daude, besteak beste, METAL, MÉTÉO, SUSY. EUROTRA, LOGOS, GETA (Grenobleko Unibertsitatea), Apertium edota Matxin.


Sistemarik aipagarrienak[aldatu | aldatu iturburu kodea]

Ikastaroarekin amaitzeko, gaur egun arte gure artean aritu izan diren arau bidezko itzulpen sistema klasiko batzuen birpasa zehatzagoa egingo dugu. Laurogeita hamargarren hamarkadaren amaiera arte izan diren azpimarragarrienak birpasatuko ditugu, geroago Internet bidez eskuragarri izan direnetan zentratzeko. Azken hauek bereziki interesgarriak dira ikastaroaren ariketa praktikoak egiteko berorietan oinarritu beharra dagoelako. Amaitzeko, itzulpen automatikoak etorkizunean izango duen ildo nagusiari buruzko pare bat komentario egingo dugu, lokalizatzea hain zuzen (materia horrekiko aparteko modulua dago).

Laurogeita hamargarren hamarkada arte[aldatu | aldatu iturburu kodea]

Laurogeita hamargarren hamarkada arte, zalantzarik gabe, inoiz diseinatu izan den sistemarik nabarmenena "SYSTRAN" izan da. Ez da sistema bakar bat, arbaso komuna duen sistema familia bat baizik. Arbaso hori berrogeita hamargarren hamarkadaren amaieran sortu zuen Peter Toma-k Georgetown-eko Unibertsitatean. Geroago, Saarland.eko Unibertsitatera, Europa mailan hizkuntzalaritza konputazionalean aitzindari, igaro zen 1964an. (Saarbrücken-en geroago "SUSY" eta EUROTRA modulu batzuk garatu ziren). Berriro AEBetan, 1986an Tomak Latsec Inc. Sortu zuen La Jolla-n, Kalifornia, USAF-ekin (AEBetako aire-indarrak) lankidetzarako kontratu batek animaturik. SYSTRAN NASA-k erabili zuen zoritxarreko Apollo Soyouz espazio proiektuan 1974 eta 1975 artean. Esperientzia hark ospea eman zion eta Toma ingelesa/frantsesa bikotearen artean EB-erako erakustaldia egiteko gonbidatu zuten. Emaitzek konbentziturik, 1975ean Batzordeak lizentzia eskuratu eta berezko hizkuntza bikoteak garatzen hasi zen gramatikak eta lexikoiak barne administrazio testuen ezaugarrietara egokituz. Egun, EB-eko sistemak hizkuntza zerbitzuen sare lokalean sartu diren 17 hizkuntza bikote ditu, EURAMIS (Strandvik, 2000), Batzordeko langileen artean arrakastatsua dena. 1980ko hamarkadan, beste enpresa batzuek ustiatzeko eskubideak bereganatu zituzten: Wold Translation Corporation Kanadan, SYSTRAN Institute Alemanian, SYSTRAN Corporation Japonen; horrela bada, zenbait urtetan zehar programaren bertsio ezberdinak oso sakabanatuta egon ziren. Laurogeita hamargarren hamarkadaren hasieran Gachot frantziar enpresak filial guztiak bereganatu zituen EB-ekoa izan ezik, eta sistema oso ezaguna bihurtu zen Frantzian Minitel-en bidez zuen eskuragarritasuna zela kausa. 1994an doan eskaintzen zen CompuServe-ko chat-etan. 1995ean, Windowserako bertsio egokitu bat atera zuten. Dena den, behin betiko ospea 1997an lortu zuen, Internet Altavistako tokia SYSTRANekin akordio batera heldu zenean web bidezko doako itzulpen zerbitzu eskaintzeko, BABELFISH. Une honetan, SYSTRAN da itzulpen sistemarik garatuena (35 hizkuntza bikote ditu eskuragarri) eta erabiliena (1.000.000 itzulpen BABELFISHen bitartez).

Antzinatasun eta garrantzian bigarren sistema dudarik gabe, "METAL" da. Hirurogeigarren hamarkadatik bizirik dirauen beste bat da, SYSTRAN bezala, kontinente bietatik ibilia dena. Jatorrizko diseinua 1961ean egin zen LRC-an ("Linguistic Research Center") Austinen den Texaseko Unibertsitatean, Winfred Lehman zuzendari zelarik, ingelesa/alemanera bikoterako. METALen patua kontinente zaharrera igaro zen 1978an, SIEMENS enpresa garapen eta ustiatze eskubideen jabe egin zenean hain zuzen. Hasierako bikoteari berehala beste zazpi gehitu zitzaizkion europar hizkuntza nagusiekin (frantsesa, nederlandera, daniera eta espainola). 1994an SIEMENS-NIXDORF-ek horretarako hain zuzen sortutako filial talde bati eman zion sistemaren garapena, horien artean Alemaniako Sietec eta Espainiako Incyta. 1997an Lernout-Hauspie talde belgikarrak bereganatu zituen. Gaur egun, METALen garapen ezberdinak Sail Labs enpresaren menpe daude. Azpimarratzekoa da Espainian ingeles/ katalanera hizkuntza bikotea (ITACA proiektua) eta espainola/katalanera (IncytaEsCA) garatu direla Kataluniako Gobernuak ordainduta, bai eta espainola/galiziera bikotearena ere Galiziako Gobernuak ordainduta.

Espainola eta ingelesaren arteko itzulpen automatikoari heltzeko, segur aski osatuena eta emaitzarik onenak ematen dituena Panamerikar Osasun Erakundeak (PAHO/OPS) garatutakoa da, Washington DC-an dago eta 1950ean sortu zen. Bertsio bi dago, hizkuntza bikoteko bana: "SPANAM" (espainola/ingelesa), 1979an garatzen hasi zen lehena, eta "ENGSPAN" (ingelesa/espainola) 1984tik garatzen ari dena. Arduradunek egiten ari denetik 35 milioi hitz baino gehiago prozesatu direla esaten dute, eta itzultzaileen ekoizpena %30 eta %50 artean igo dela. Sistemak aire sare batean instalaturik daude eta OPS-aren egoitzako beste sail tekniko eta administratiboetako langileek ere erabiltzen dituzte. Sistemako hiztegi bakoitzak 75.000 hitz baino gehiago dauka, esaldi idiomatikoak eta testuinguru arauak. Programak eta hiztegiak etengabe hobetzen dira erabiltzen dutenen iradokizunei esker. Sistema biak duela gutxi atera dira merkatura Windowsekin bateragarri diren bertsioetan eta arrazoizko prezioan (1.600 €).

Beste alde batetik, informatikaren maisua den IBM-k laurogeigarren hamarkadaren erditik, Michael McCord-ek zuzendu eta era berean AEBetako, Alemania, Espainia eta Israeleko laborategietan garatzen den "LMT" itzulpen automatikoaren proiektuan jarri ditu indar gehienak. Transferentzia estrategia hartzen duen Prolog-en egindako inplementazio bat da (LMT "Logic-programming Machine Translation-en" laburdura da). 12 hizkuntza bikote garatu dira eta gaur egun eskuragarri daude "WebSphere" merkatal izenarekin. IBMk ere badu itzulpen memorietako software bat "TranslationManager", 1999tik sektorean den antzinako beste enpresa baten, "LOGOSen", itzulpen automatikorako programak dituena. Programa hori italiera/ingelesa itzultzailearekin, "PeTra", ere konbina daiteke, IBMren lankidetzarekin italiar SYNTHEMA enpresak garatua.

1990.hamarkadaren hasieratik, itzulpen programa gehienak ordenagailu pertsonalera egokitu izan dira. Lehenengo egin zutenetako bi "PC-Translator" (Linguistic Products-ena) eta "Power Translator" (Globalink-ena) izan ziren. Globalink-ek bat egin zuen lehenago MicroTac-ekin ("Language Assistant" produktu sortako arduraduna eta urte batzuetan (1995-1998) salmenta liderra izan zen bere programak oso prezio merkean merkaturatu zituelako (60 bat €) Ovum Ltd-ren datuen arabera,. Globalink-ek 1995ean METALek baino hiru aldiz mozkin gehiago lortu zuen eta SYSTRAN edp LOGOSek baino hamar aldiz gehiago. 1998an Lernourt-Hauspie-k Globalink bereganatu zuten eta gaur egun, 2000n enpresak izandako diru arazoak gertatu ostean ez dakigu ezer. Fujitsu enpresa japoniarrari dagokionez, aspaldi da PC-rako bere "ATLAS" sistema beteranoaren, "TransLingo-k" ere merkaturatutakoaren, bertsioak arrazoizko prezioan (100 eta 600 €) ezaugarrien arabera) eskaintzen dituen enpresa aitzindaria. Windowsera egokituriko beste japoniar itzultzaile batzuk dira "Language Engineering Corporation-en" "LogoVista" eta "Tsunami" eta "Typhoon" Neoner Technologies-ena (geroago Lernout-Hauspiesek bereganatua). Errusiarra da "ProMT" (lehenago "Stylus" deitua) eta "PARS" programak, biak errusiera beste europar hizkuntza batzuetara itzultzen berezituak. Europan garaturiko PC-rako beste programa aipagarri batzuk dira "WINGER", danierara itzultzen berezitua baina beste europar hizkuntza batzuen bikoteak euskarri izanik, eta "TranSmart" Nokiak garatua finlandiera/ingelesa bikoterako.

Espainian espainola/katalanera bikotearen arteko itzulpenerako programa batzuk garatu dira. Incyta-k (orain Sail Labs) garatutakoaz gain, galizierako ere egin duena, honako beste hauek azpimarra daitezke: Windowserako "SALT" sistema interaktiboa, Valentziako Gobernuaren Kultura Kontseilaritzarena; "InterNOSTRUM", Linux-erako, Alacanteko Unibertsitateak garatu eta Mediterraneoko Aurrezki Kutxak finantzatua; Bartzelonako Softlibrary (El Peridico egunkaria katalanera itzultzen dutenak) enpresaren "AutomaticTrans" sistema; baita Valentziako ARA-AutoTrad enpresaren "ARA" programa ere.

Web aroa[aldatu | aldatu iturburu kodea]

Itzulpen teknologiak dituzten produktuen panoramak pizgarri logikoa izan du Interneten orokortzearekin 1995etik aurrera. CompuServe aurreratu egin zen SYSTRAN eskainiz bere txat guneetan. Doako itzulpen automatikorako BABELFISH zerbitzua 1997an martxan jarri izana (frantses, alemanera eta espainola ingelesetik eta ingelesera bikoteetarako) AltaVista atarian gertakari historikoa izan zen. Harrezkero, gertakariak azkarrago eman dira.

Zenbait enpresa desagertu edo beste batzuek bereganatuak izan dira. IBMk Logos; Lernout-Hauspik Globalink eta Neocor Technologies. Programak eskuratzeko prezioa askoz merkeagoa da eta banaketa azkartu egin da atari orokorren bitartez, adibidez, World Language Resources.

Internetekin lehen imajinaezinak zirenak egin daitezke gaur egun. Batetik, fabrikatzaile askok aukera ematen die bezero potentzialei softwarea eskuratu, instalatu eta aldi baterako probatu eta ebaluatzeko. Bestetik, eta interesgarriagoa dena, Interneterako sarbidea duen edozein erabiltzailek gero eta ugariagoak diren itzulpen automatikorako zerbitzu ireki eta doakoak probatzeko aukera du:

Zehaztu behar da antzeko hizkuntzen artean lan egiten duten sistemak izan ezik, zerrendan den sistema batek ere ez duela kalitatezko itzulpenak eskuratzeko aukerarik ematen lehenago emandako arrazoiak direla kausa. Hedapen handia dute baina normalean txarra den kalitate baten kaltean. Kalitatea hobetzeko hedapen handiagoa duten analogian oinarrituriko metodoak aplikatuta, corpora paralelo kopuru handia beharko litzateke, egun inork ez duena.

Lokalizazioa[aldatu | aldatu iturburu kodea]

Bukatu aurretik, merezi du minutu batzuk eskaintzea bitarteko elektronikoan hobekien txerta daitekeen itzulpen motari, "lokalizatzea"ri. Ikuspegi horrek bi alderdi berri ditu: itzulpena dokumentazioaren bizitzaren zikloan beste maila bat bezala tratatzea, eta itzulpen ideiari produktua merkatuaren eskaeretara egokitzearena.

Dokumentazioaren bizitza zikloa[aldatu | aldatu iturburu kodea]

Informazioaren industriak duen ekoizpen katean pentsatzen badugu, gero eta zentzu gutxiago du itzulpengintza zeregin autonomo edo isolatu gisa tratatzeak. Egunero sortzen diren testu gehienak ez dira jatorrizkoak, behin eta berriro errepikatzen dira, aldaketa txikiak eta kontu eguneratuak baino ez dituzte: jatorrizko testuak, erreferentzia manualak, erabilera instrukzioak, lege xedapenak, txostenak, parteak, teletipoak, …Dokumentu ekoizpen mota hori itzulpen eskaeren portzentajerik handiena osatzen dute. Hortaz, garrantzitsua da itzulpena ez ezik, agirien bizitza ziklo osoa ere kontrolatzen uzten duten metodo eraginkorrak izatea (sortzea, idaztea, birpasa, itzulpena, banaketa, katalogatzea, biltzea, berrerabiltzea, kalitatea kontrolatzea). Ildo horretatik, azken urteotan garrantzia handia hartu dute nazioarteko estandar eta arauek, bai dokumentu ekoizpenean ("SGML/XML"), bai kalitatearen kontrolean, industri prozesuarena bere osotasunean ("ISO 9000") zein bereziki itzulpenarena ("DIN 2345").

Globalizazioa vs lokalizazioa[aldatu | aldatu iturburu kodea]

Hasieran diseinatua izan zenerako ez eta orain ezberdina den produktu edo zerbitzu bat merkaturatzean, bezero berrien hizkuntzara itzulita egon behar du, eta horrekin batera, merkatu horren berezitasun kultural, sozial, ekonomiko eta abar guztiak kontuan izan behar ditu. Horrek kontu linguistikoak ez diren beste asko kontu hartu behar izatea dakar eta produktuaren diseinua bera berriro aztertu behar izatea ere ekar dezake.Diseinu ona da merkatu batean erabilera jakin batekin zerikusia duten alderdiak produktuak berak dituen berezitasun orokorretatik bereizten dituena, era horretan nazioarteko bilakatzen utzi eta geroago beste merkatu batzuetara egokitzeko aukera duena. Merkatuak nazioarteko bilakatzen diren heinean, produktuak eta zerbitzuak erabiltzaileen toki betekizun eta gustu pertsonaletara egokitu behar dute (Esselink, 1998).

Zalantzarik gabe, mundua gero eta globalizatuago egon arren ez dio hizkuntza eta kultura anitza izateari utziko. Horregatik, informazioaren gizartea deritzon garai berri honetan, itzulpenaren teknologiek zeregin gorena dute.

Itzulpen automatikoaren alorrean, berau burutzeko baliagarriak diren sistema ezberdinak daude. Bi alor nagusi bereiz daitezke: Erregela linguistikoetan oinarritzen direnak AOIA eta corpusetan oinarrituak. Azken hauetan bi hurbilpen oso ezberdin bereizten dira: estatistiketan eta adibideetan oinarritutako sistemak.


Ikus, gainera[aldatu | aldatu iturburu kodea]