Edukira joan

Nerea Ezeiza

Wikipedia, Entziklopedia askea
Nerea Ezeiza

Bizitza
Hezkuntza
HeziketaEuskal Herriko Unibertsitatea
Donostiako Informatika Fakultatea
Tesi zuzendariaIñaki Alegria Loinaz
Doktorego ikaslea(k)Izaskun Fernandez Gonzalez
Iakes Goenaga
Jarduerak
Jarduerakunibertsitateko irakaslea eta informatikaria
Enplegatzailea(k)Euskal Herriko Unibertsitatea
Donostiako Informatika Fakultatea
KidetzaIxa taldea

Inguma: nerea-ezeiza-ramos

Nerea Ezeiza Ramos (Donostia) Euskal Herriko Unibertsitateko informatikari, ikertzaile eta irakaslea da. Informatika Fakultatean lan egiten du, Lengoaia eta Sistema Informatikoen sailean.[1] Ixa Taldeko kidea izanik, euskararen prozesamendurako tresna garrantzitsua izan den lematizatzailea sortzeko egile nagusietako bat izan zen 2002an, eta geroago hainbat testu-corpus sortu eta etiketatzeko erabili du; besteak beste, XX. mendeko corpus estatistikoa,[2] EPEC[3] eta Lexikoaren Behatokia.[4] Gainera, dekanordea da EHUko Informatika Fakultatean 2017tik.[5]

Irakaslea unibertsitatean

[aldatu | aldatu iturburu kodea]

Irakaslea da Informatikako Ingeniaritza graduan eta Adimen artifizialeko graduan. Besteak beste, gai hauek irakatsi ditu: Konpilazioa, Konputazioaren eredu abstraktoak, baita Lengoaiak, Konputazioa eta Sistema Adimendunak irakasgaia ere.[6]

Master-mailan Metodo induktiboak eta Metodo induktiboak hizkuntzaren tratamendu automatikoan irakatsi ditu, bi master hauetan: "Hizkuntzaren Analisia eta Prozesamendua" izenekoan eta "Hizkuntzaren eta Komunikazioaren Teknologiak Erasmus Mundus Masterra (LCT)" masterrean.[7][8]

EHUko Informatika Fakultateko dekanordea da 2017tik, berak koordinatzen ditu eskolen gelak, laborategiak, ordutegiak, ikasleak eta irakasleak.[5]

Ikertzailea hizkuntzaren prozesamenduan

[aldatu | aldatu iturburu kodea]

Hizkuntzaren prozesamenduaren arloan aritzen den Ixa Taldeko ikertzailea da. Ikerketa-lan horrek gizartean eta, batez ere, euskal komunitatean eta euskal kulturan izan duen eragina ere nabarmentzekoa da. Xuxen zuzentzaile ortografikoa eta itzultzaile automatikoak dira tresna ezagunenak, baina badira beste asko ere. Nereak landutako EUSTAGGER lematizatzailea, EDBL datu basea eta testu-corpus etiketatuak, esaterako. Lan orokor hori dena aitortu zuen, besteak beste, 2013an Ixa Taldeak jaso zuen Abbadia Sariak.[9]

EUSTAGGER lematizatzailea

[aldatu | aldatu iturburu kodea]

Iñaki Alegriak 1994an egin zuen tesian Xuxen zuzentzaile ortografikoa eta Morfeus analizatzaile morfologikoa sortu zuen. Nerea Ezeizaren tesia haren jarraipena izan zen, EUSLEM euskararen lematizatzailea sortu zuen, geroago EUSTAGGER izena hartu zuena.[10][11] Programa informatiko horrek esaldi bateko hitz bakoitza zein kategoria (izena, adjektibo, aditza...) duen zehazten du. Morfeusek hitz bakoitzaren kategoria eta analisi morfologiko posible guztiak lortzen zituen, hitzaren testuingurua kontuan hartu gabe. EUSTAGGERrek esaldi bateko aurreko eta atzeko hitzak zein diren kontuan hartuz, gauza zen testuinguru horretan hitzak duen lema eta kategoria asmatzeko.[12][13]

Testu corpus etiketatuak

[aldatu | aldatu iturburu kodea]
Nerea Ezeizaren tesiaz.[11]

Lematizatzaile hori hainbat tresnatan erabili da geroago, esaterako, UZEIk Euskaltzaindiaren enkarguz osatutako XX. mendeko corpus estatistikoa automatikoki lematizatzeko oinarria izan zen.[13]

Geroago EPEC corpusean haruntzago joaz zen etiketatze mailan, kategoria morfologiko bakarrik ez, iesaldi mailako informazio sintaktikoa ere etiketatu zen300.000 hitzeko testu-bilduma batean [3] Euskararen Prozesamendurako Erreferentzia Corpuseko (EPEC) etiketazioa Dependentzia-Gramatikaren Teorian oinarrituta dago. Basque Dependency Treebank ere esaten zaio.

Gutxienez aurreko bi testu-corpus horien sorkuntzan partu hartu zuen Ezeizak, eta gainera Euskaltzaindiaren Lexikoaren Behatokia egitasmoaren kidea izan da gero. Lexikoaren Behatokia proiektua Euskaltzaindiaren ekimenez abiatu zen, 2007an, Hiztegi Batuko Lantaldeak egindako proposamen bati erantzunez, eta lankidetzan Ixa Taldearekin, UZEIrekin eta Elhuyarrekin. Lankide nagusiak hauek dira: Andoni Sagarna, Miriam Urkia, Xabier Artola, Antton Gurrutxaga eta Nerea Ezeiza bera. Proiektuaren emaitza da izen bera duen corpusa, zeina web bidez kontsultatu baitaiteke. 65 milioi hitzeko testu-corpus bat eratu du 2018ra arte.[17] Corpusa automatikoki prozesatuta dago, eta linguistikoki etiketatuta, eta hizkuntza-corpusek ohikoa duten kontsulta-funtzionalitatea eskaintzen dio erabiltzaileari.[4][18]

Ikerketa proiektuak

[aldatu | aldatu iturburu kodea]

Besteak beste, EHUko, Eusko Jaurlaritzako, Madrileko Ministerioko eta Europar Batasuneko deialdietako hainbat ikerketa-proiektutan parte hartu du.[19]

2018an HiTZ ikerketa-zentroa sorkuntzan ere parte hartu zuen, Ixa eta Aholab taldeen indarrak batuz. Hizkuntza-teknologia ardatz duen zentro berri horretan 90 ikertzailek egiten zuten 2023an.

EDBL datu base lexikala eta euskarazko hitzen kategoria-sistema

[aldatu | aldatu iturburu kodea]

Euskararen Datu-Base Lexikala edo EDBL (Donostia, 1992) euskarazko hitz eta morfemei buruzko informazio zabala biltzen duen datu-basea da, Internet bidez arakatu daitekeena. Euskarazko hitzez gain, atzizkiak-eta hartzen ditu. Esanahia barik, bakoitzaren propietate lexiko eta morfologikoak zehazten ditu definizio bakoitzak. Informazio hori Xuxen zuzentzaile ortografikoaren eta EHUko Ixa Taldearen beste tresna eta aplikazio askoren oinarri lexikala da.

Analisi morfologikoan eta lematizazioan euskarazko hitzak etiketatu ahal izateko, EDBL datu basean guztira 27 kategoria lexikal hauek definitu zituzten Nerea Ezeizak eta Ixa Taldeak:[14][13]

Kategoria Nagusiak eta Azpikategoriak (10)

  • IZE izenak
ARR arruntak (zuhaitz)
IZB pertsona-izen bereziak (Mikel)
LIB leku-izen bereziak (Donostia)
ZKI zenbakia (bat)
  • ADJ adjektiboak
ARR arruntak (handi, benetako)
GAL galdetzaileak (nongo)
  • ADI aditzak
SIN sinpleak (ekarri)
ADK konposatuak (lo egin)
ADP perifrastikoak (ahal izan)
FAK faktitiboak (etorrarazi)
  • ADB adberbioak
ARR arruntak (gaur, negarrez)
GAL galdetzaileak (noiz)
  • DET determinatzaileak
ERK erakusleak
ERK ARR arruntak (hau)
ERKIND indartuak (berori)
NOL nolakotzaileak
NOLARR arruntak (edozein)
NOLGAL galdetzaileak (zein)
ZNB zenbatzaileak
DZH zehaztuak (bi)
BAN banatzaileak (bina)
ORD ordinalak (bigarren)
DZG zehaztugabeak (zenbait)
ORO orokorrak (guzti)
  • IOR izenordainak
PER pertsonalak
PERARR arruntak (ni)
PERIND indartuak (neu)
IZG zehaztugabeak
IZGMGB mugagabeak (norbait)
IZGGAL galdetzaileak (nor)
BIH bihurkariak (-(r)en burua)
ELK elkarkariak (elkar)
  • LOT loturazkoak
LOK lokailuak (hala ere)
JNT juntagailuak (edo)
  • PRT partikulak (omen, ote, ...)
  • ITJ interjekzioak (alajaina!)
  • BST bestelakok (baldin)

Kategoria lagungarriak (5)

  • ADL ADITZ LAGUNTZAILEAK (du)
  • ADT ADITZ SINTETIKOAK (dator)
  • SIG SIGLAK (EHU)
  • SNB SINBOLOAK (km, cm, g,...)
  • LAB LABURDURAK (etab.)

Kategoria Morfologikoak (9)

  • AMM ADITZ-MOTA MORFEMAK (-tu, -t(z)e,...)
  • ASP ASPEKTU-MORFEMAK (Ø, -ko,...)
  • ATZ ATZIZKIAK (-pe)
  • AUR AURRIZKIAK (ber-)
  • DEK DEKLINABIDE MORFEMAK (-aren)
  • ELI ELIPSIA (Ø)
  • ERL ERLAZIO ATZIZKIAK (-(e)la)
  • GRA GRADUATZAILEAK (-ago)
  • MAR MARRA (-)

Puntuazio-zeinuak (3)

  • PNT PUNTUA
  • BPM BESTE PUNTUAZIO ZEINUAK (puntuaren pareko izan daitezkeenak)
  • PSB PUNTUAZIO SINBOLOAK (parentesiak, marra luzea, kak

Sariak eta errekonozimenduak

[aldatu | aldatu iturburu kodea]

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. Basabe, Mikel. (200-06-14). «Euskarak etorkizun oparoa du informatikaren alorrean.» Euskaldunon Egunkariaren hemeroteka. (berria.eus) (Noiz kontsultatua: 2020-10-05).
  2. «Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia. – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).
  3. a b «EPEC-DEP (BDT) | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).
  4. a b Xabier Artola, Andoni Sagarna, Miriam Urkia, Nerea Ezeiza eta Antton Gurrutxaga. (2017). Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari - IXA Taldea (Atal berezia: Besterena nuen neuregana) - EIZIE. SENEZ aldizkaria, 48. zk., 201-209 or. ISBN ISSN:1132-2152. (Noiz kontsultatua: 2017-12-11).
  5. a b «Gobernu organoak - Informatika Fakultatea - UPV/EHU» Informatika Fakultatea (Noiz kontsultatua: 2024-03-07).
  6. «Nerea Ezeiza Ramos :: Inguma - Euskal komunitate zientifikoaren datu-basea» www.inguma.eus (Noiz kontsultatua: 2024-03-08).
  7. (Gaztelaniaz) Ezeiza Ramos, Nerea. «Grado en Ingeniería Informática - Profesorado - Grados - UPV/EHU» Grados (Noiz kontsultatua: 2024-03-07).
  8. Ezeiza Ramos, Nerea. «Informatika Ingeniaritzako Gradua - Irakasleak - Graduak - UPV/EHU» Graduak (Noiz kontsultatua: 2024-03-07).
  9. a b Press, Europa. (2013-12-02). «EHUko IXA Taldeak Anton Abbadia saria jasoko du gaur, euskararen normalizazioan egindako lanarengatik» www.europapress.es (Noiz kontsultatua: 2021-01-24).
  10. Ramos, Nerea Ezeiza. (2002). Corpusak ustiatzeko tresna linguistikoak. Euskararen etiketatzaile morfosintaktiko sendo eta malgua. UPV/EHU ISBN 978-84-8438-060-3. (Noiz kontsultatua: 2024-03-08).
  11. a b ×10{{{1}}} Mendiola, Ainara. (2000-07-26). «Bost tesi berri euskara automatizatzeko» Euskaldunon Egunkariaren hemeroteka. 1990-2003. (berria.eus) (Noiz kontsultatua: 2024-03-08).
  12. Ezeiza, Nerea; Alegria, Iñaki; Arriola, Jose Mari; Urizar, Rubén; Aduriz, Itziar. (1998). «Combining stochastic and rule-based methods for disambiguation in agglutinative languages» COLING 1998 Volume 1: The 17th International Conference on Computational Linguistics (Noiz kontsultatua: 2024-03-06).
  13. a b c d Aldezabal Roteta, Izaskun; Aranzabe Urruzola, María Jesús; Díaz de Ilarraza Sánchez, Arantza; Estarrona Ibarloza, Ainara; Ezeiza Ramos, Nerea; Uria Garin, Larraitz. (2009). Corpusen etiketatze linguistikoa. ISSN 0582-6152. (Noiz kontsultatua: 2024-03-08).
  14. a b c Arantzabe, Maxux; Sarasola, Kepa. (2009-04-29). «Morfologia eta sintaxiko ariketak konputagailuaren bidez — Unibertsitatea.Net» www.unibertsitatea.net (UEU - Ixa Taldea) (Noiz kontsultatua: 2024-03-07).
  15. «Analizatzaile morfologikoa probatzeko webgunea - Ixa Taldea» ixa2.si.ehu.eus (Noiz kontsultatua: 2024-03-07).
  16. Ixa Taldea. «Eustagger lematizatzailea probatzeko webgunea» ixa2.si.ehu.eus (Noiz kontsultatua: 2024-03-07).
  17. irudia, Komunikazioa eta. «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (Noiz kontsultatua: 2019-07-19).
  18. UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. Lexikoaren Behatokiaren Corpusa. (Noiz kontsultatua: 2017-12-11).
  19. Ezeiza, Nerea. «Ixakidearen proiektuak | Ixa taldea» www.ixa.eus (Noiz kontsultatua: 2024-03-06).
  20. Ikastolen Elkartea, Bizkaia. (2012-06-03). Euskara Teknologia Berrietan. Elkarrizketak 2012ko Ibilaldian omendukoekin.. Ikastolen Elkartea (Noiz kontsultatua: 2020-02-11).
  21. Ibilaldia 2012 omenaldia: Euskara teknologia berrietan sartzeko aintzindariak – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-02-11).

Ikus, gainera

[aldatu | aldatu iturburu kodea]

Kanpo estekak

[aldatu | aldatu iturburu kodea]