Lexikoaren Behatokia Corpusa

Wikipedia, Entziklopedia askea
Lexikoaren Behatokia Corpusa
Jatorria
Sortzailea(k)Andoni Sagarna, Xabier Artola Zubillaga, Antton Gurrutxaga Hernaiz, Miriam Urkia Gonzalez eta Euskaltzaindia
Sorrera-urtea2007
Ezaugarriak
Dimentsioak98.000.000 (luzera) hitz
Hizkuntzaeuskara
lexikoarenbehatokia.euskaltzaindia.eus

Lexikoaren Behatokia Corpusa (LTC) komunikabideetako testuekin sortutako corpus monitore bat da, hizkuntzaren erabilera hurbiletik jarraitzeko helburua duena. Proiektua 2007. urtean jarri zuen abian Euskaltzaindiak, Andoni Sagarna euskaltzainaren zuzendaritzapean. Euskaltzaindia bera, Ixa Taldea, Elhuyar Fundazioa eta UZEI dira proiektuaren kideak, eta proiektuko lankide nagusiak hauek dira: Andoni Sagarna, Miriam Urkia, Xabier Artola, Nerea Ezeiza eta Antton Gurrutxaga. Urtean-urtean handituz joan da testu-masa eta 2016. urtearen bukaeran 58 milioi testu-hitz zeuzkan corpusak, 2018an 65 milioi,[1] eta 2021ean 98 milioi.[2] XML lengoaian etiketatuta dago, eta TEI estandarrari jarraitzen dio.[3][4][5] Corpusa automatikoki prozesatuta dago, eta linguistikoki etiketatuta, eta hizkuntza-corpusek ohikoa duten kontsulta-funtzionalitatea eskaintzen dio erabiltzaileari.[6][7] Euskara idatzia jaso da hor, ez ahozkoa. Corpusa kontsultatu daiteke sarean.[8]

Corpus hau ezinbesteko tresna da Euskaltzaindiarentzat, Hiztegi Batuko Lantaldeak egindako proposamen bati erantzuteko sortu zen proiektua. Hitz berri bat finkatu baino lehenago derrigorrezkoa baita hitzaren erabilera erreala zehazki ezagutzea. Gaur egun Euskaltzaindiak hiru corpus ditu: Orotariko Euskal Hiztegiarena, antzinatik XX.mendea arteko testuen bilduma dena, XX. mendeko euskararen corpus estatistikoa eta Lexikoaren Behatokiarena.

Lexikoaren Behatokia Corpusa kontsultatzeko pantaila.[9]
« Gaur egun, hizkuntza bati buruzko ikerketak hizkuntza horren erabileran oinarritzen dira. Erabilera ezagutzeko, hizkuntza horretan idatzitako testu masa handiak biltzen dira —corpusak— eta dauzkaten hitzak, esapideak eta abar haiek dituzten ezaugarri linguistikoez markatzen dira. Lexikoaren Behatokia gaur egungo euskara nolakoa den eta nola aldatzen ari den ezagutzea ahalbidetuko digun corpusa da »

Andoni Sagarna[10]


XX. mendeko aurrekaria[aldatu | aldatu iturburu kodea]

XX. mendeko euskararen corpus estatistikoa corpusak pasa den mendean erabili zen euskararen lekuko eta erakusgarria da aurrekari garbia. artan ere helburua ez zen ereduzko hizkuntza proposatzea.[10][11] Kontsulta daiteke sarean.[12] Hasieran EEBS corpus izenarekin ezaguna zenak hiru milioi testu-hitz bildu zituen 1996rako eta 4.658.036 bukaeran 2002an. 1987an Andoni Sagarnaren zuzendaritzapean abiatu zen proiektua, EEBS izena zuen, eta corpusa guztiz bukatu zenean berrizendatu eta Euskaltzaindiaren webgunean kokatu zuten kontsultagai.[12]

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu zen, mende oso baten erakusgarri.

Corpus lematizatua[aldatu | aldatu iturburu kodea]

Ricardo Gomez Guinovart, Andoni Sagarna eta Miriam Urkia Corpusgintza aztertzeko aurkezpen batean.

Corpusak badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe. Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala... nola, hala nola modukoak ere zehaztuz. Horiek horrela, 101.585 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak

Testu- eta teknologia-hornitzaileak[aldatu | aldatu iturburu kodea]

Lana aurrera eraman ahal izateko Euskaltzaindiak hitzarmenak sinatzen ditu testuen hornitzaileekin, hala nola, Deia, Berria, Argia, ETB, eta beste hainbat hornitzailerekin, bereziki hedabideekin. Corpusa lantzen duten hiru erakundeekin ere bai: UZEIrekin, Elhuyar-ekin eta EHUko Informatika Fakultateko IXA taldearekin. Ia prozesu osoa modu automatikoan egiten da hizkuntza-teknologia erabiliz, Gainera, beste alde batetik, corpus hori hizkuntzalaritzarako ez ezik baliagarria da hizkuntza-teknologiako tresnak garatzeko eta probatzeko ere. Hau da,norabide bietan onuragarria da: teknologiaz baliatzen da eta teknologia hobetzeko balio du.[13]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (Noiz kontsultatua: 2018-12-17).
  2. «Lexikoaren Behatokia» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2022-02-11).
  3. UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. «Lexikoaren Behatokiaren Corpusa» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2018-11-26).
  4. «Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan? – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).
  5. «Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari - IXA Taldea (Atal berezia: Besterena nuen neuregana) - EIZIE» www.eizie.eus (Noiz kontsultatua: 2018-11-26).
  6. Xabier Artola, Andoni Sagarna, Miriam Urkia, Nerea Ezeiza eta Antton Gurrutxaga. (2017). Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari - IXA Taldea (Atal berezia: Besterena nuen neuregana) - EIZIE. SENEZ aldizkaria, 48. zk., 201-209 or. ISBN ISSN:1132-2152. (Noiz kontsultatua: 2017-12-11).
  7. UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. Lexikoaren Behatokiaren Corpusa. (Noiz kontsultatua: 2017-12-11).
  8. UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. «Lexikoaren Behatokiaren Corpusa» lexikoarenbehatokia.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).
  9. «Lexikoaren Behatokia» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2020-04-28).
  10. a b Euskaltzaindia. «XX. mendeko Euskararen Corpus estadistikoa» xxmendea.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).
  11. «Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia. – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).
  12. a b «XX. mendeko Euskararen Corpus estatistikoa» xxmendea.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).
  13. Sagarna, Adoni. LEXIKOAREN BEHATOKIA. Euskaltzaindia.

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]