HiTZ zentroa

Wikipedia, Entziklopedia askea
HiTZ zentroa
Datuak
Motaikerkuntzarako institutua
Jarduera
Honen parteEuskal Herriko Unibertsitatea
Erabilitako hizkuntzaeuskara, gaztelania eta ingeles
Agintea
ZuzendariaEneko Agirre
Historia
Sorrera2019
webgune ofiziala

HiTZ zentroa edo Hizkuntza Teknologiako Euskal Zentroa EHUko ikerketa-zentroa da, Hizkuntza Teknologietan aritzen dena. Erreferentziazko zentroa da Hizkuntza Teknologietan,[1][2][3][4] eta arlo horretako ikerketa, prestakuntza, transferentzia teknologikoa eta berrikuntza sustatzea du helburu. Donostiako Informatika Fakultatean du egoitza nagusia, baina beste zentroetan ere ari da, Bilboko Ingeniaritza Eskolan, besteak beste.

Zentroaren zuzendaria den Eneko Agirre ikerlariak hirutan irabazi du ikerketarako Google saria.[5][2] 2020ko maiatzean Amerikako Estatu Batuetako gobernuak bultzatutako sari bat jaso zuen, COVID-19 gaixotasunaren inguruan antolatutako Kaggle-Covid-19 txapelketan.[6][7]2021ko Espainiako Informatika Saria eman zion arloko SCIE elkarteak (Sociedad Científica Informática de España).[8][9]

Euskal Herriko Unibertsitateko Ixa eta AhoLab ikerketa-taldeek osatzen dute. Ixa eta Aholab ikerketa-taldeak sortu zirenetik —1988an eta 1998an, hurrenez hurren— Hizkuntzaren Teknologien arloko traktore nagusiak izan dira Euskal Herrian. Ixa taldearen lanak idatzizko edukien tratamendua du helburu; AhoLabenak, ostera, ahozko edukiena. Bi taldeak lankidetzan ari dira 2002az geroztik.

Diziplina anitzeko taldea da, hainbat jakintza-arlo landu duten ikertzaileak dituena, besteak beste, informatikariak, hizkuntzalariak, itzultzaileak, ingeniariak, matematikariak eta soziologoak.

Chatbot-ak sortzeko Google sariak[aldatu | aldatu iturburu kodea]

Google Faculty Research Award saria hirutan lortu duen ikertzaile bakanetakoa da Eneko Agirre. 2020 urteko sariko 62.000 dolarrek ‘Conversational Question Answering agents that learn after deployment’ izeneko proiektua finantzatzeko erabili ziren gero, hots, erabiltzaileekin elkarrizketa-sistemak garatzeko, beti ere Chatbot-en eta adimen artifizialaren arloetan.[10][11]

Agirre-rekin batera zentroko beste 6 kide hauek: Aitor Soroa eta Gorka Azkune irakasleak, Arantxa Otegi ikertzailea, Jon Ander Campos doktoretza ikaslea, baita Aitor Agirre eta Eduardo Vallejo ikasleak ere.

Proiektua batez ere  ingelesezko elkarrizketetan zentratzen bazen ere (sukaldaritzari eta elikadurari buruzko galderak), euskarazko elkarrizketekin ere lan egin zuten. Aurreko urtean Ixa taldeak euskarazko elkarrizketak biltzeko boluntarioak erakartzeko kanpaina jarri zuen martxan. Kanpainak oso harrera ona izan zuen, eta pertsonei buruzko euskarazko elkarrizketak jaso ziren, Wikipedian dagoen informazioan oinarrituta.[12]

Hizkuntza Teknologia lagun Covid-19 birusaren kontrako borrokan[aldatu | aldatu iturburu kodea]

CORD-19 delako txapelketa (COVID-19 Open Research Dataset Challenge) hainbat erakundek antolatu zuten 2020ko udaberrian, COVID-19 pandemiaren hasieran, tartean ziren AEBetako Etxe Zuriko Office of Science and Technology Policy, Allen Institute for AI, Chan Zuckerberg initiative, Georgetown University, Microsoft Research, eta National Institutes of Health.[13] Antolatzaileek COVID-19, SARS-CoV-2 eta beste koronabirus batzuei buruzko 50.000 artikulu zientifikotik gora jarri zituzten eskuragarri munduko ikerketa-komunitatearentzat. Horrekin batera, adimen artifizialeko ikertzaileei ekintzarako deia egin zien hizkuntzaren prozesamenduan orduan egin berri ziren aurrerapenak aplika zitzaten, COVID-19 gaixotasunaren aurkako borrokan ari ziren zientzialariei laguntzeko literatura zientifiko horretan lagungarri zitzaien informazioa ahalik eta errazen bilatzen.

Txapelketaren lehen fasean 10 sari banatu zituzten,[6] eta haietako bat irabazi zuen HiTZ zentroko Ixa taldean garatutako programak. Sistemaren garapenean Arantxa Otegi eta Jon Ander Campos ikertzaileek eta Eneko Agirre eta Aitor Soroa irakasleek hartu zuten parte.

Garatutako programak COVID-19 gaixotasuna eta SARS-CoV-2 birusaren inguruan adituek zituzten lehentasunezko galderen erantzunak bilatzen zituen aipatutako artikulu zientifiko guztiak aztertuta. Programa hura erabilgarria zen, besteak beste, koronabirusaren historiaren, birusaren kutsatze eta diagnostikoaren, gizakien eta animalien arteko ukipenean hartu beharreko prebentzio-neurrien eta aurretik egindako azterketa epidemiologikoetako ikasbideen inguruko galderen erantzunak aurkitzeko.[14] Estatu Batuetako aditu talde batek ebaluatu zuen programa eta “What do we know about diagnostics and surveillance?” (Zer dakigu diagnostiko eta zaintzari buruz?) gaiaren inguruko galdera-sortari hoberen erantzun zion sistema bezala aukeratu zuten HiTZ zentrokoa.

2020ko maiatzen Koronabirus pandemiaren hasieran Amerikako Estatu Batetako Gobernuak sari bat Ixa ikerketa-taldeak adimen artifiziala aplikatu du COVID-19ren kontra [15][16]

Itzulpengintza Automatikoa[aldatu | aldatu iturburu kodea]

Paradigma neuronalaren ekarriarekin 2017z geroztik izugarrizko hobekuntza nabaritu zen hizkuntza nagusienen arteko itzultzaile automatiko estandarretan eta horrela zenbait ingurunetan giza-itzulpenen kalitatearen maila lortu zuten lehenengoz. Geroxeago, eta arin, HiTZ zentroko ikerlariak euskal munduko ikerkuntza komunitatearekin batera gai izan ziren euskaratik eta euskararako itzultzaile neuronalak mundu mailako artearen egoeraren pare jartzeko. 2015ean hasi zen euskararako itzulpen neuronala aztertzen. Ordurako Deepl itzultzaileak kalitatezko emaitzak ematen zituen 10 hizkuntzatan baina euskara ez zegoen horien artean. Bi urte geroago Deepl-en lehenengo emaitza bikainak lortuta, 2017an lehen demoa publikoki eskura zegoen. 2017an bertan, hainbat agenteren artean (HiTZ zentroko Ixa Taldea, Elhuyar, Vicomtech, Ametzagaña, Mondragon Lingua...), MODELA izeneko proiektua abiatu zuten.[17][18][19] Urtebeteko epean, 2018an, MODELA itzultzailea plazaratu zuten, Interneten publiko orokorrerako euskarazko itzulpen neuronala eskaintzen zuen lehen zerbitzua. Abiada bizian mugitzen zen arlo honetan, geroago gutxienez beste hiru itzultzaile neuronal gehiago plazaratu ziren: Eusko Jaurlaritzaren Itzultzaile neuronala, batua.eus eta Itzultzailea.eus. Translate Google-k geroago euskarazkoan ere eredu neuronalera pasa zen.

Itzulpen automatiko gainbegiratu gabea izeneko teknika berria ere sortu eta sakon landu da zentroan. Gaur egun dauden sistemek datu asko behar dute (gainbegiratze sakona), corpus paralelo gisa normalean milioika perpaus behar izaten dituzte. Baina harrigarria da, baldintza hori ez du behar gizakiak hizkuntza eskuratzeko. Eta gainera arazo praktiko garrantzitsu bat planteatzen du euskara bezalako baliabide gutxiko hizkuntzekin itzulpenak egiteko. HiTZ zentroko Mikel Artetxeren tesiaren helburua datu paraleloen mendekotasun hori guztiz ezabatzea izan zen, corpus elebakarra baino beharko ez zuten “gainbegiratu gabeko itzulpen automatiko”ko sistemak eratzeko.[20] Horretarako, lehenengo urrats batean bi hizkuntzatarako sortutako hitz-bektoreak (word embedding-ak) lerrokatzen zituen, beren arteko egitura-antzekotasunean oinarrituta. Gero, bigarren urrats batean, lerrokatze horren emaitzak erabiltzen zituen itzulpen-sistema neuronal bat edo itzulpen-sistema estatistiko bat hasieratzeko, azken urratsean back-translationaren bidez hobetzen joango zena.[21][22][23]

Beste ikerketa-lerroak[aldatu | aldatu iturburu kodea]

Hizkuntza teknologiaren eta adimen artifizialaren barruan zentroak honako beste arlo hauetan ere dihardu:[24][25][26]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. «Eneko Agirre EHUko Informatika irakasleak Google-en ikerketa sari bat irabazi du» El Correo 2019-05-08 (Noiz kontsultatua: 2020-10-20).
  2. a b Google-saria hirugarrenez irabazi du Eneko Agirre ixakideak – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-20).
  3. Press, Europa. (2019-05-07). «EHUko Informatika irakasle batek Google erakundearen ikerketa sarietako bat lortu du» www.europapress.es (Noiz kontsultatua: 2020-10-20).
  4. Ixa ikerketa-taldeak adimen artifiziala aplikatu du Covid-19ren aurka. eitb (Egun on Euskadi).
  5. Garate, Iban. (2020). Ixa ikerketa-taldeak adimen artifiziala aplikatu du Covid-19ren aurka. eitb (Egun on Euskadi) -.
  6. a b (Ingelesez) «COVID-19 Open Research Dataset Challenge (CORD-19)» kaggle.com (Noiz kontsultatua: 2020-10-21).
  7. Ixa ikerketa-taldeak Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria jaso du – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-21).
  8. Espainiako Informatika-Ikerketa Sari bi Eneko Agirre eta Mikel Artetxerentzat – Hizkuntza-teknologiak, Ixa Taldearen bloga. (Noiz kontsultatua: 2021-06-07).
  9. (Gaztelaniaz) Sociedad Científica Informática de España (SCIE). (2021). Otorgados los Premios de Investigación SCIE-FBBVA 2021 – SCIE. (Noiz kontsultatua: 2021-06-07).
  10. Google-saria hirugarrenez irabazi du Eneko Agirre ixakideak – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-21).
  11. «UPV/EHUko Eneko Agirre irakasleak Google erakundearen ikerketa sarietako bat lortu du» UPV/EHU (Noiz kontsultatua: 2020-10-21).
  12. «Elkarrizketak sortzen - Ixa taldea» ixa.eus (Noiz kontsultatua: 2020-10-21).
  13. (Ingelesez) «COVID-19 Open Research Dataset Challenge (CORD-19)» kaggle.com (Noiz kontsultatua: 2020-10-20).
  14. HiTZ zentroko proramaren erantzunak. Which are the sampling methods to determine asymptomatic disease? Task 8 - What do we know about diagnostics and surveillance?. kaggle-cord19.
  15. (Gaztelaniaz) EFE. (2020-05-11). «El Gobierno de EEUU premia a la Universidad del País Vasco por su inteligencia artificial sobre el Covid-19» Innovadores (La razón) (La Razón) (Noiz kontsultatua: 2020-10-20).
  16. Ixa ikerketa-taldeak Estatu Batuetako gobernuak bultzatutako COVID-19 gaixotasunaren inguruan antolatutako adimen artifizialeko txapelketan saria jaso du – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-20).
  17. Mintegia: Itzulpen automatikoko proiektuak, TADEEP eta MODELA (Gorka Labaka, 2018-03-27) – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-21).
  18. «MODELA» modela.ametza.com (Noiz kontsultatua: 2020-10-21).
  19. «Welcome to TAdeep (MINECO-FEDER project) | TAdeep» ixa2.si.ehu.es (Noiz kontsultatua: 2020-10-21).
  20. Science aldizkariak: ‘Hiztegirik gabeko itzulpen automatikoa, Ixa taldeak zabaldu duen ikerlerroa’ – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-21).
  21. Tesia: Itzulpen automatiko gainbegiratu gabea (Mikel Artetxe, 2020-07-29) – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-21).
  22. (Ingelesez) Mikel Artetxe. «Mikel Artetxe» www.mikelartetxe.com (Noiz kontsultatua: 2020-10-21).
  23. Mintegia. Itzulpen automatiko gainbegiratu gabea. (M. Artetxe, 2018-12-17) – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-21).
  24. «AI Basque sortu da, Gaia Klusterraren eta EHUko Hitz Taldearen eskutik, Inteligentzia Artifiziala sustatzeko Euskadin» www.euskadi.eus (euskadi.eus) 2020-08-06 (Noiz kontsultatua: 2020-10-19).
  25. Arregi, Olatz; Sarasola, Kepa. (2020-02-14). 'Hizkuntza-teknologiak' mintegia - Basque Industry Meeting Point 2019- Kepa Sarasola + Olatz Arregi. SPRI , Eusko Jaurlaritza, Youtube.
  26. ‘AI Basque’ sortu dugu GAIA klusterrarekin adimen artifizialaz – Hizkuntza-teknologiak. Ixa Taldea. UPV/EHU (Noiz kontsultatua: 2020-10-19).

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]