Zientzia eta Teknologia corpusa

Wikipedia, Entziklopedia askea


Zientzia eta Teknologia corpusa
Elhuyar Fundazioko Igor Leturia eta Antton Gurrutxaga, Ixa Taldeko Xabier Artolarekin Zientzia eta Teknologia Corpusaren aurkezpenean (2006-12-14)
Jatorria
Sortzailea(k)Elhuyar Fundazioa eta Ixa taldea
Sorrera-urtea2006
Ezaugarriak
Dimentsioak8.500.000 (luzera) hitz
Hizkuntzaeuskara
ztcorpusa.eus…

Zientzia eta Teknologia corpusa (ZT corpusa) zientzia eta teknologiako testuen testu-corpus bat da UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean2003tik 2006ra bitartean eratu zutena. Corpusean 8,5 milioi hitz daude, morfosintaktikoki etiketatuta. 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak bildu ziren corpusa elikatzeko. Bildutako testuak sailkatuta daude eremuaren (jakintza-alorra) eta generoaren (testu-mota) arabera. Sailkatutako eremuak hauek dira: Zientzia zehatzak, Materiaren eta energiaren zientziak, Lurraren zientziak, Biziaren zientziak, Teknologia, Orokorra eta bestelakoak. Generoak, berriz hauek dira: Oinarrizko hezkuntzako materiala, Goi-mailako liburua, Artikulu espezializatua, Dibulgazio-artikulua, Dibulgazio-liburua, eta Administrazio publikoko dokumentua.[1][2]

Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili zen (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusean 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu ziren. Corpusgintza-lanak egiteko eta kudeatzeko, Corpusgile tresna garatu zuten; tresna horrek corpusa eratzeko urratsak hartzen ditu bere baitan, eta, etiketatze linguistikoa egiteko, IXA taldearen Eustagger eta Eulia tresnekin egiten du lan.

Corpusa XMLn etiketatuta dago, eta TEI estandarrari jarraitu diogu. Sarean kontsultatu daiteke.[3]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Ixa Taldea, Elhuyar Fundazioa. (2006). «Zientzia eta Teknologiaren Corpusa» www.ztcorpusa.eus (Noiz kontsultatua: 2018-11-26).
  2. «Ixa taldearen produktuak» ixa.eus (Noiz kontsultatua: 2018-11-26).
  3. Ixa Taldea, Elhuyar Fundazioa. (2006). «Kontsulta-sistemaren laguntza. Zientzia eta Teknologiaren Corpusa» www.ztcorpusa.eus (Noiz kontsultatua: 2018-11-26).

Bibliografia[aldatu | aldatu iturburu kodea]

  • Nerea Areta, Antton Gurrutxaga, Igor Leturia Begiratu bat corpus-baliabideei, BAT 66. 2008 (1)
  • (Gaztelaniaz) Martí Antonín, M.A.(Koord.: Tecnologías del lenguaje, Editorial UOC, Bartzelona, 2003.

Kanpo estekak[aldatu | aldatu iturburu kodea]