Testu corpus

«Corpus» orriak hona dakar. Corpus Christi, Bestaberri edo Gorpuzti kristau jaiari buruzko artikulua hau da: «Gorpuzti»

Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik. Corpus hitza latinetik dator, eta euskaraz gorputza esan nahi du.

Corpus motak[aldatu | aldatu iturburu kodea]

Testu-artxiboak. Testu osoak, berezko interesa dutenak. Idatzizkoak eta grabaziozkoak izan daitezke, adibidez literatura obrak, errefrau bildumak, bertso txapelketen grabazioak, ipuin kontaketak etab.
Testu-corpusak. Helburu linguistiko batekin osatzen diren bildumak. Testu aztertugabeak. Praktikan testu idatziei baino ez dagokie.
Corpus monitoreak. Euskaltzaindiaren Lexikoaren Behatokikoaren modukoak hizkuntzaren erabilera hurbiletik jarraitzeko helburua duena.
Corpus etiketatuak. Linguistikoki markatutako testuak (lemak, etiketa morfosintaktikoak, lokuzioak, informazio morfologikoa, sintaktikoa...)
Erreferentzia-corpusak. Hizkuntzaren erabilerari dagokio.
Datu-base linguistiko bereziak. Hizkuntza atalen arabera egituratuak (lexikoa, morfologia, joskera).
Corpus elebidunak. Bi corpus dira bi hizkuntzatan, bata bestearen itzulpena denean.
Corpus konparagarriak. Bi corpus dira bi hizkuntzatan, baina ez dira esaldiz-esaldi edo paragrafoz paragrafo paraleloak. Gai beraren ingurukoak, urte berekoak, iturri antzekoetatik hartutakoak dira, baina ez dago korrelazio zuzena bien arteko zaten artean.
Hizketa-corpusak. Ahozko seinaleekin egindako grabazioak.

«	Gure algoritmoak, Aholabenak eta Ixarenak, oinarritzen dira testu corpus handietan: horiek zenbat eta handiagoak izan, hobeto ikasiko dute algoritmoek. Ahalik eta testu gehien gordez lortzen da hori. Adibidez, itzulpengintza automatikorako corpus elebidunak behar ditugu: beharrezkoa da sortzen den edukia guztion eskura jartzea, ikerketarako besterik ez bada ere, eta sortzen den hori euskaraz izatea.^[1]	»
—Arantza Diaz de Ilarraza

Euskaraz dauden corpusak[aldatu | aldatu iturburu kodea]

Eskuz gaurkotu

Orotariko Euskal Hiztegia (OEH)[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Orotariko Euskal Hiztegia»

Orotariko Euskal Hiztegiko corpusak garai, toki eta mota guztietako euskal hitz-ondarea bildu nahi du. Obra deskriptiboa da, eta ez arauemailea. Euskaldunak, mende eta euskalkietan zehar zein hitz eta esapidez baliatu diren eta nola baliatu diren ahalik eta osoen eta zehatzen azaltzea de hiztegi honen xedea. Ia hirurehun liburutik jasotako corpusa aztertuz lau milioitik gorako hitz-altxorrarekin lan egiten da. Hots, tradizioaren bilketa-lanean oinarritzen da proiektua.^[2]

Orotariko Euskal Hiztegia corpus diakroniko itxia da, 1970. hamarkada arte iristen baita. 310 obra oso "aukeratu" biltzen ditu, 5.800.000 hitzek osatua; kodetu eta lematizatu gabea. Hala ere, euskararen historiaren altxor ezinbestekoa da. Sailkapen orokorra du: epea, euskalkia, eta testu mota zabala. 2020ko bertsioak 146.134 sarrera eta 56.781 azpisarrera biltzen zituen, eta 485.168 adibide erakusten ditu (hiztegiak dituenetik % 80 inguru).Hiztegiaren egitura formala Text Encoding Initiative (TEI) gidalerroen arabera definitu da. Creative Commons lizentziapean banatzen da (CC-BY-NC-CA).

Paperezko bertsioaren lehen liburukia 1987an argitaratu zen eta 2005ean azkena (hamaseigarrena).

XX. mendeko euskararen corpus estatistikoa[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «XX. mendeko euskararen corpus estatistikoa»

XX. mendeko euskara jasotzen duen corpus estatistikoa 4.658.036 testu-hitzez osatua da. Erabili izan den eta erabiltzen den euskararen lekuko eta erakusgarri izatea du egiteko nagusi eta ia bakarra, eta ez ereduzko hizkuntza proposatzea.^[3]^[4] Kontsultagarria da sarean.^[5]

Corpus estatistikoaren oinarria, XX. mendeko euskal argitalpenen inbentario osoa da, "Datu-base bibliografikoa" atalean aipatzen diren irizpideen arabera sailkatua. Argitalpenek osatzen duten unibertsotik abiatuta, osotasun hori proportzionalki adieraziko duen lagina eskuratu da zozketa bidez, orotara jasotako 6.351 obra-zatik osatzen dutena.

Proiektua 1987an jarri zen martxan eta lehen fase batean 1900-1987 urteetako corpusa osatu zen, baina corpus irekia zen eta, beraz, urtero eguneratzen zen, nahiz mendea bukatzean corpus itxi izatera pasatu den, mende oso baten erakusgarri. Bestalde, euskara idatzia jaso da hor, ez ahozkoa. Ahozkoek badute bere lekua, baina transkribatu eta argitaratu diren neurrian jaso dira.

Dokumentuak sailkatzeko irizpideak hauek dira:

Epea, garaia: lau garai nagusitan banatzen dira XX. mendeko argitalpenak:
- 1900-1939: mende-hasieratik gerrak artekoa.
- 1940-1968: gerraostean abiatu eta euskara batuaren sorrera artekoa.
- 1969-1990: euskara batuak ekarritako aldaketarekin hasi eta Euskaltzaindiaren gomendioak eta arauak artekoa (eta Ibon Sarasolaren Hauta-Lanerako Euskal Hiztegia argitaratu artekoa).
- 1991-1999: araugintza berriaren ondokoa.
Euskalkiak: Bizkaiera, Gipuzkera, Zuberera, Lapurtera-Nafarrera (biak bakarrean bilduta) eta Euskara batua.
Sailkatu gabeak:Atal honetan egunkari eta astekarietako artikuluak jasotzen dira, horien inbentarioa ez baita artikuluka egin, bestelako aldizkariekin egin den bezala, baizik argitalpena bere osoan harturik. Honela sailkatu dira, halaber, askoren jardunak jasotzen dituzten bertso-bildumak ere.
Saio-artikuluak: Euskera, Egan, Euzko Gogoa, Jakin bezalako aldizkarietako artikuluak banaka fitxatu dira inbentarioan, eta horietakoek osatzen dute multzo hau.
Testu-mota: Administrazio-idazkia, Ikasliburuak, Saio-liburuak, Literatura-prosa, Poesia, Antzerkia, Bertsoak, Ikerketa-lanak, Haur- eta gazte-literatura, Ahozkoak: ahozko jardunen transkripzioak, Liturgia, Egunkariak, eta Aldizkariak.

Sailkapen hauek, unibertsoaren berri eman eta lagin erakusgarria aukeratzeko oinarri izateaz gain, lagungarri izan litezke oraingo kontsultetan. Alegia, forma bat euskalki, epe edo testu-mota batean (edo gehiagotan) nola erabili den ikus liteke, bilaketa murriztuz. Adibidez, pastoral lema begira dezakegu, baina zubererazko testuetara mugatua, edo erdu bizkaieraz ez bestekoetan. Autoreak eta izenburuak ere ageri dira, bai liburuen kasuan eta bai aldizkarietako artikuluetan ere, artikulua eta aldizkariaren fitxa jaso baita.

Horiek dira corpusaren ezaugarriak; baina corpusak badu balio erantsi bat: lematizatua da. Alegia, testu-hitz bakoitzari forma estandar bat erantsi zaio, hiztegi-sarrera moduko bat, eta horrek, besteak beste, erraztu egingo du kontsulta. Adibide batekin esateko, forma deklinatuei eta aldaerei lema bakarra ezarri zaienez, helduleku erosoa dugu orain lema hori: etxe. Etxe, etxea, etxien, echeco, etchetik bezalako testu-hitzak etxe galdetuz ikus daitezke, aldaeraren bat ahazteko arriskurik gabe. Lematizazio hau, bestalde, ez da hitz bakunetara mugatzen; hitz soilez gain, hitz elkartuak, eratorriak eta bestelako hitz anitzeko unitate lexikalak ere markatu dira: etxe lema soilaren ondoan, etxe orratz, etxe-abere, etxe-tresna, etxeko, etxeko jaun, etxekoandre, etxepe, etxetxo, etxeño, etxezain bezalako lemak ere adieraziz. Edo, hala soilaz gain, hala ere, hala eta guztiz ere, hala... nola, hala nola modukoak ere zehaztuz. Horiek horrela, 101.585 lema desberdin aurkituko ditu erabiltzaileak, bere kontsultak egiteko modu eroso eta batez ere segurua eskainiko diotenak.

Lexikoaren Behatokia Corpusa (LBC)[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Lexikoaren Behatokia Corpusa»

Komunikabideetako testuekin sortutako corpus monitore bat da, hizkuntzaren erabilera hurbiletik jarraitzeko helburua duena. Proiektua 2008. urtean jarri zuen abian Euskaltzaindiak, Andoni Sagarna euskaltzainaren zuzendaritzapean. Euskaltzaindia, Ixa Taldea, Elhuyar Fundazioa eta UZEI dira proiektuaren kideak. Urtean-urtean handituz joan da eta 2016. urtearen bukaeran 58 milioi testu-hitz zeuzkan corpusak, 2018an 65 milioi,^[6] eta 2021ean 98 milioi.^[7] XML lengoaian etiketatuta dago, eta TEI estandarrari jarraitzen dio.^[8]^[9]^[10] Corpusa kontsultatu daiteke sarean.^[11]

«	Gaur egun, hizkuntza bati buruzko ikerketak hizkuntza horren erabileran oinarritzen dira. Erabilera ezagutzeko, hizkuntza horretan idatzitako testu masa handiak biltzen dira —corpusak— eta dauzkaten hitzak, esapideak eta abar haiek dituzten ezaugarri linguistikoez markatzen dira. Lexikoaren Behatokia gaur egungo euskara nolakoa den eta nola aldatzen ari den ezagutzea ahalbidetuko digun corpusa da	»
—Andoni Sagarna^[12]

Zientzia eta Teknologia corpusa (ZT)[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Zientzia eta Teknologia corpusa»

Zientzia eta Teknologiako testuen corpusean 8,5 milioi hitz daude, morfosintaktikoki etiketatuta. UPV/EHUko IXA taldeak eta Elhuyar Fundazioak elkarlanean eratu zuten 2003tik 2006ra bitartean. 1990-2002 bitartean argitaratutako zientzia eta teknologiaren alorreko obrak bildu ziren corpusa elikatzeko. Bildutako testuak sailkatuta daude eremuaren (jakintza-alorra) eta generoaren (testu-mota) arabera. Sailkatutako eremuak hauek dira: Zientzia zehatzak, Materiaren eta energiaren zientziak, Lurraren zientziak, Biziaren zientziak, Teknologia, Orokorra eta bestelakoak. Generoak, berriz hauek dira: Oinarrizko hezkuntzako materiala, Goi-mailako liburua, Artikulu espezializatua, Dibulgazio-artikulua, Dibulgazio-liburua, eta Administrazio publikoko dokumentua.^[13]^[14]

Etiketatze linguistikoa egiteko, euskara automatikoki prozesatzeko teknologia aurreratua erabili zen (IXA taldearen Eustagger etiketatzailea). Testuko hitz bakoitzaren lema eta kategoria/azpikategoria etiketatu dira. Corpusean 8,5 milioi hitz daude, eta horietatik 1,9 milioi hitz eskuz berrikusi, desanbiguatu eta zuzendu ziren. Corpusgintza-lanak egiteko eta kudeatzeko, Corpusgile tresna garatu zuten; tresna horrek corpusa eratzeko urratsak hartzen ditu bere baitan, eta, etiketatze linguistikoa egiteko, IXA taldearen Eustagger eta Eulia tresnekin egiten du lan.

Corpusa XMLn etiketatuta dago, eta TEI estandarrari jarraitu diogu. Sarean kontsultatu daiteke.^[15]

Euscrawl corpusa[aldatu | aldatu iturburu kodea]

Euscrawl corpusa 12.5 milioi dokumentu eta 423 milioi hitzez osatuta dago, 2022an plazaratu zuen Ixa taldeak. Corpusa osatzen duten dokumentuak modu librean bana daitezke Creative Commons lizentzia libreekin. Eskuz aukeratutako Interneteko hainbat webgunetatik dokumentuak xurgatuz (crawl ingelesez) osatu da. Corpusa bi formatutan dago eskuragarri: JSONL eta TXT.^[16]^[17]

Web Corpusen Atari elebakarra[aldatu | aldatu iturburu kodea]

Euskarazko web-corpusak 124 milioi testu-hitz ditu,. Guztiz automatikoki Interneteko 6.202 domeinutako euskarazko 82.542 dokumentu jaso zituen. Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak garatutako teknologiak erabilita, honako urrats hauek eginda:

Interneteko euskarazko orriak lokalizatu
Orri ez-egokiak baztertu
Orri errepikatuak edo ia berdinak direnak ezabatu
Kendu orritik edukizkoak ez diren atalak (izenburuak, menuak, nabigazio-aukerak, oin-oharrak, iragarkiak), testu nagusia baino ez corpuseratzeko.

Testu guztiak linguistikoki prozesatu eta etiketatu ziren IXA taldeak garatutako Eustagger etiketatzailearekin ^[18]^[19]

Egungo Testuen Corpusa (ETC)[aldatu | aldatu iturburu kodea]

EHUko Euskara Institutuak eskaintzen duen corpusetako bat. XXI. mendeko ereduzko corpusak guztira 355,4 milioi testu-hitz ditu 2001/2019 urtetakoak, 2021eko bertsioak 93.418 lema eta 3.081.228 hitz desberdin jasotzen ditu.^[20]

Ereduzko prosa gaur (EPG)[aldatu | aldatu iturburu kodea]

EHUko Euskara Institutuak eskaintzen duen corpusetako bat. 287 liburuk eta prentsako artikuluek osatzen dute: 25,1 milioi hitz ditu. Testuak 2001-2006 tarteko epean argitaratuak dira.^[21]

Hitzen artean ikerketak egiteko arakatzaile eragingarri batez hornitua da corpusa hori.

Ereduzko prosa dinamikoa (EPD)[aldatu | aldatu iturburu kodea]

EHUko Euskara Institutuak eskaintzen duen corpusetako bat. Liburuek eta prentsako artikuluek osatzen dute, eta corpusa urtero berritzen da, azken bost urtean argitaratutako testuak bilduz. 25,1 milioi hitz ditu.^[22]

Pentsamenduaren Klasikoak corpusa[aldatu | aldatu iturburu kodea]

Sakontzeko, irakurri: «Pentsamenduaren Klasikoak Corpusa»

EHU-ko Euskara Institutuak eskaintzen duen corpusetako bat. 1992tik eta 2009ra bitartean KLASIKOAK izeneko bilduman argitara emandako 130 liburuk osatzen dute corpusa, eta 10,7 milioi hitz ditu. Kontuan izan behar da liburu hauetako batzuk 2001 baino lehenago argitaratu zirela, eta garai hartan lexikoa ez zegoela orain bezain ongi finkatuta.^[23]

Euskal Klasikoen Corpusa (EKC)[aldatu | aldatu iturburu kodea]

2005ean abiatu zuen armiarma.eus-ek Klasikoen Gordailua, XX. mendea bitarteko testu klasiko ia guztien bilgunea bilakatzeko asmoz. Corpus honek XVI. mendean hasi eta 1975. urtera arteko 496 liburu jasotzen ditu, eta denera 11,9 milioi testu-hitzez osatuta dago. Lehenago OEH corpus zegoen (303 liburu eta 5,8 milioi testu-hitz), baina hori ez da inoiz modu publikoan kontsultagai egon. dena.^[24]

Hizkuntzen arteko Corpusa (HAC)[aldatu | aldatu iturburu kodea]

Lau hizkuntzatara itzulitako 137 liburuk osatzen zuten HAC corpusa 2021ean. Itzulpen unitateak parekatuta bistaratzen dira, eta bilaketak edozein hizkuntzatan egin daitezke. Guztira 42,43 milioi testu-hitz zeuden, horrela banatuta: euuskaraz 8,64; espainieraz 11,31; frantsesez 11,11 eta ingelesez 11,53.^[25]

Goenkale corpusa[aldatu | aldatu iturburu kodea]

EHU-ko Euskara Institutuak eskaintzen duen corpusetako bat. ETBko "Goenkale" izeneko telesailean erabilitako elkarrizketetako testuetan oinarritua, 13,3 milioi hitz ditu. ^[26]

Goenkale ETB1en emititu zen euskarazko telesaila da, Pausokak eta EITBk ekoitzia. 1994an hasi zen, eta 20 urteko ibilbidean 3.500 atal baino gehiago eman zituen. Corpusak 2014an 3.500 atal horietako 2.995 batu zituen.

Sintaktikoki etiketatutako EPEC corpusa (EPEC-DEP)[aldatu | aldatu iturburu kodea]

Euskararen Prozesamendurako Erreferentzia Corpuseko (EPEC) etiketazioa Dependentzia-Gramatikaren Teorian oinarrituta dago. Basque Dependency Treebank ere esaten zaio.^[27]

Batuaz idatzitako 300.000 hitzeko testu-bilduma da. Heren bat XX. mendeko euskararen corpus estatistikotik hartu zen eta beste bi herenak Euskaldunon Egunkariatik. Hainbat mailatan (morfologia, sintaxi partziala eta semantika) dago etiketatuta eskuzko metodoak nahiz automatikoak baliatuta.

Dependentzia Gramatikaren Teoria erabiliz (Tesnière, 1959), esaldiko hitzak binaka lotzen dira esaldiaren zuhaitz sintaktikoa (dependentzia-zuhaitza ere deitua) lortzeko. Zuhaitz hauetan, batetik, adabegietan dauden hitzen arteko gobernatzaile/mendeko erlazioak irudikatzen dira, eta bestetik, bi hitzen arteko loturan mendekoak betetzen duen funtzio sintaktikoa adierazten da dependentzia-etiketen bidez.^[28]^[29]^[1]

EPEC-EuSemcor[aldatu | aldatu iturburu kodea]

Testu hainbat izenen agerpen guztiak testuan duten EusWN-eko adierarekin markatuta daude.

ZIO corpusa[aldatu | aldatu iturburu kodea]

EHU-ko Euskara Institutuak eskaintzen duen corpusetako bat. ZIO izeneko bilduman argitaratzen diren zientzia hedakuntzako testuetan oinarritutako corpusa da.

Zuzenbide corpusa[aldatu | aldatu iturburu kodea]

EHU-ko Euskara Institutuak eskaintzen duen corpusetako bat. Corpus berezia da, zuzenbidearen alorrekoa, eta urtero gaurkotzen da. 6,6 milioi testu ditu.

Gero Corpus Historikoa[aldatu | aldatu iturburu kodea]

Armiarma argitaletxeko Klasikoak bildumako euskarazko testu historikoak egungo euskara normalizatura ekarriak.^[30]^[31]

Literatura Unibertsalaren Corpusa (LUC)[aldatu | aldatu iturburu kodea]

Corpus paralelo eleaniztuna. Hainbat liburu eskuratu daitezke euskaraz, beste hainbat hizkuntzatan ere badaudenak. Oraingoz, bildumako hamalau itzulpen ditu corpusak oinarri (frantsesa eta ingelesa). EIZIE eta Elhuyar Eleka Ingeniaritza Linguistikoa unitatearen arteko lanaren emaitza da.^[32]^[33]^[34]

EIZIE eta Eusko Jaularitzako Kultura Sailaren artean Literatura Unibertsala izeneko liburu bilduma bat sortzen ari dira 1990etik. 2020an 179 liburu eskaintzen ziren.^[35] Literatur itzulpengintzaren ondarea biltzeko xedez eta bilduman argitaratu diren itzulpenek bizirik jarrai dezaten, horietako zenbait eLiburutegian jarri dira jendearen eskura.^[32]

Eroski Consumer Corpusa[aldatu | aldatu iturburu kodea]

CONSUMER EROSKI aldizkariaren edukiak euskaraz, gaztelaniaz, galegoz edo katalanez.^[36]

Garaterm Corpusa[aldatu | aldatu iturburu kodea]

Unibertsitateko esparru akademikoan egiten den euskararen erabileraren erakusgarria da. Terminologia Sareak Ehunduz programan parte hartzen duten EHUko irakasleen testuek osatzen dute, alegia, irakasle horiek ematen dituzten irakasgaietan erabiltzen dituzten materialek: irakaskuntza-gidak, apunteak, aurkezpenak, ariketak, praktika-protokoloak eta azterketak.^[37]

TZOS web-aplikazioa (Terminologia zerbitzuak online sistema) Euskal Herriko Unibertsitateko irakasleek komunikazio akademikoan erabiltzen duten terminologia biltzeko, ikusgai egiteko eta partekatzeko on-line zerbitzua da.^[38] Irakasleen ekarpenekin etengabe aberasten da datu-base terminologikoa eta Garaterm corpusa.^[39]

Euskara duten corpus elebidunak[aldatu | aldatu iturburu kodea]

Corpus paralelo eskuragarriak:

Euskarazko web-corpus elebidunak 18 milioi testu-hitz ditu. Guztiz automatikoki Internetetik jaso zuen Elhuyar Fundazioaren Hizkuntza eta Teknologia unitateko I+G taldeak 2013an.^[40]

Itzulpen Zerbitzu Ofiziala (HAEE)
EITB corpusa. Albisteen domeinuan esaldi mailan lerrokatutako gaztelaniaz eta euskaraz idatzitako albisteak biltzen dituen corpusa da. Ia 600.000 esaldi lerrokatu dira.^[41]^[42]
Gipuzkoako Foru Aldundia
Mozilla softwarearen lokalizazioa (Librezale, Elhuyar, Ixa Taldea)
Consumer aldizkaria (Eroski, Elhuyar)
EHUskaratuak (EHUk itzulitako liburuak)
Bizkaiko Foru Aldundia
EIZIE

Beste hizkuntzatarako corpus batzuk[aldatu | aldatu iturburu kodea]

Brown Corpusa (1964) da erreferentziazko lehen corpus elektronikoa. Milioi bat hitz besterik ez zuen, eta sailkapena oso orokorra zen.

Frantext XVI-XIX. mendeen arteko frantsesezko testuen bilduma garrantzitsua da. Testuak euskarri informatikoan daude jasota. Corpusa gutxi gorabehera, 3500 lanek osatzen dute (karakteretan miliar bat baino gehiago). Edukiaren aldetik ehuneko laurogeia literaturatik dator eta gainerako ehuneko hogeia teknikaren mundutik, diziplina zientifiko ezberdinetatik hartua.

Cobuild-Bank of English. Corpus erabilgarria, ingelesezko testuetako 400 milioi hitzez osatua (eskuliburuak, eleberriak, egunkariak, gida-liburuak, aldizkariak eta efemerideak), eta hizkuntza naturalaren transkripzioetatik jasotako 20 milioi hitzez. Corpusa berez sailkatua da, horretarako sorturiko hitz-sailkatzaile baten bidez. Dagoeneko 200 milioi hitz igaro dira galbahe horretatik.

CREA. Egungo Espainieraren erreferentzia corpusa (gaztelaniaz: Corpus de referencia del español actual). Idatzizko (%90) nahiz ahozko (%10) testuez osatua, 1975etik gaur arte. 2003eko urrian 140 milioi zeukan eta 2004ko abenduan amaituta egotea espero da 160 milioi hitzez. Testu idatziak dira horretara biltzen direnak, liburuetatik, egunkari eta aldizkarietatik hartuak, gai asko (ehun baino gehiago) tartean direla. Hizkera mintzatua barneratzen da entzutezko osagaien bidez, irrati eta telebistetan burutuak.

CORDE. Espainieraren corpus diakronikoa (gaztelaniaz: Corpus diacrónico del español). Espainiera hitz egin den alde eta aldi guztietako testuez osatua, hizkuntza bera sortu zenetik 1975. urtea arte. CORDE informazioa jasotzeko asmatu zen eta bertara hitzak eta euren esanahiak, gramatika eta beraren erabilera denboraren zehar bildu da. 2003. urteko urrian 180 milioi erregistro baino gehiago zituen. Corpusak prosazko eta bertsozko genero ezberdinak batzen ditu eta gaur ezinbesteko iturburua da Espainierari buruzko edozein ikerketa diakroniko egin ahal izateko.

CTILC Katalanaren testu-corpus informatizatua. (Corpus textual informatitzat de la llengua catalana). CTILC corpusak Diccionari de la llengua catalana (DIEC)funtsezko osagaia du. 52 milioi inguru hitzez dago osatuta. Kronologiaren ikuspuntutik 150en bat urte hartzen ditu eta morfosintaktikoki etiketatua da.

CORGA Egungo Galegoaren Erreferentzia Corpusa. Egun Interneten kontsulta daitezkeen bertsioak literatura lanak, saioa eta aldizkako argitalpenak dira. Kronologikoki 1975. eta 2002. urteen artean argitaratutako testuak osatzen dute. Dokumentuak bibliografikoez gain, testuak medioaren, dataren eta gaiaren arabera daude sailkatuta. CORGA osatzen duten testuak beti dira argitaratuak

Hortaz, Corpusak dira gaur egungo linguistentzat eta oro har hizkuntzaren erabiltzaileentzat tresnarik ezinbestekoenak.

Erreferentziak[aldatu | aldatu iturburu kodea]

↑ ^a ^b Unanue Irureta, Maialen. (2018-12-09). «Arantza Diaz de Ilarraza Sanchez, informatikaria: “Itzultzaile automatiko batek ez du sekula pertsona batek bezala itzuliko”» Berria (Noiz kontsultatua: 2018-12-10).
↑ «Orotariko Euskal Hiztegia - OEH - OEH» www.euskaltzaindia.eus (Noiz kontsultatua: 2020-04-28).
↑ Euskaltzaindia. «XX. mendeko Euskararen Corpus estadistikoa» xxmendea.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).
↑ «Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia. – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).
↑ «XX. mendeko Euskararen Corpus estatistikoa» xxmendea.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).
↑ «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (Noiz kontsultatua: 2018-12-17).
↑ «Lexikoaren Behatokia» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2022-02-11).
↑ UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. «Lexikoaren Behatokiaren Corpusa» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2018-11-26).
↑ «Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan? – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).
↑ «Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari - IXA Taldea (Atal berezia: Besterena nuen neuregana) - EIZIE» www.eizie.eus (Noiz kontsultatua: 2018-11-26).
↑ UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. «Lexikoaren Behatokiaren Corpusa» lexikoarenbehatokia.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).
↑ «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (Noiz kontsultatua: 2022-03-18).
↑ Ixa Taldea, Elhuyar Fundazioa. (2006). «Zientzia eta Teknologiaren Corpusa» www.ztcorpusa.eus (Noiz kontsultatua: 2018-11-26).
↑ «Ixa taldearen produktuak» ixa.eus (Noiz kontsultatua: 2018-11-26).
↑ Ixa Taldea, Elhuyar Fundazioa. (2006). «Kontsulta-sistemaren laguntza. Zientzia eta Teknologiaren Corpusa» www.ztcorpusa.eus (Noiz kontsultatua: 2018-11-26).
↑ «EusCrawl» ixa.ehu.eus (Noiz kontsultatua: 2022-03-17).
↑ (Ingelesez) Artetxe, Mikel; Aldabe, Itziar; Agerri, Rodrigo; Perez-de-Viñaspre, Olatz; Soroa, Aitor. (2022-03-15). Does Corpus Quality Really Matter for Low-Resource Languages?. (Noiz kontsultatua: 2022-03-17).
↑ «Web-corpusen Ataria» webcorpusak.elhuyar.eus (Noiz kontsultatua: 2019-05-22).
↑ Leturia, Igor. (PDF) Webetik euskarazko corpus orokor handiak automatikoki biltzeko metodoen ebaluazioa.. (Noiz kontsultatua: 2019-05-22).
↑ «Egungo Testuen Corpusa (ETC) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).
↑ «Ereduzko Prosa Gaur (EPG) - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).
↑ «Ereduzko Prosa Gaur (EPG) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2019-05-22).
↑ «Pentsamenduaren Klasikoak Corpusa - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).
↑ «Euskal Klasikoen Corpusa (EKC) - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).
↑ «Hizkuntzen arteko Corpusa (HAC) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).
↑ «Goenkale Corpusa - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).
↑ «EPEC-DEP (BDT) | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).
↑ Ezeiza, Nerea. «CORPUSAK USTIATZEKO TRESNA LINGUISTIKOAK. Euskararen etiketatzaile morfosintaktiko sendo eta malgua. | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).
↑ Aranzabe, Maxux. «Dependentzia-ereduan oinarritutako baliabide sintaktikoak: zuhaitz-bankua eta gramatika konputazionala | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).
↑ «Gero Corpus Historikoa | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).
↑ «Evaluating the Noisy Channel Model for the Normalization of Historical Texts: Basque, Spanish and Slovene | Ixa taldea» ixa.eus (Noiz kontsultatua: 2019-05-22).
↑ ^a ^b «Literatura Unibertsala» EIZIE (Noiz kontsultatua: 2021-05-21).
↑ «EIZIE Corpusa kontsultatzeko interfazea. Hitzak bilatu.» eiziecorpusa.elhuyar.eus (EIZIE, Elhuyar) (Noiz kontsultatua: 2021-05-21).
↑ Eusko Jaurlaritzako Hizkuntza Politikarako Sailburuordetza. «Literatura unibertsala» www.euskara.euskadi.eus (Noiz kontsultatua: 2021-05-28).
↑ «Bildumako liburuak» EIZIE (Noiz kontsultatua: 2021-05-21).
↑ Eroski-Consumer corpusa. Eroski.
↑ «Garaterm» garaterm-corpusa.ixa.eus (Noiz kontsultatua: 2022-03-01).
↑ «TZOS — Terminologia Zerbitzurako Online Sistema» tzos.ehu.es (Noiz kontsultatua: 2019-04-29).
↑ (Ingelesez) Arregi, Xabier; Arruarte, Ana; Artola, Xabier; Lersundi, Mikel. «TZOS: An On-Line System for Terminology Service» (PDF) Actualizaciones en Comunicación Social Centro de Lingüística Aplicada, Santiago de Cuba (Santiago de Cubako Centro de Lingüística Aplicada) (Noiz kontsultatua: 2019-04-29).
↑ (Gaztelaniaz) «Elhuyar Web Corpusa» webcorpusak.elhuyar.eus (Noiz kontsultatua: 2019-05-22).
↑ Etchegoyhen, Thierry; Azpeitia, Andoni; Pérez, Naiara. (2016-05). «Exploiting a Large Strongly Comparable Corpus» Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (European Language Resources Association (ELRA)): 3523–3529. (Noiz kontsultatua: 2022-03-01).
↑ (Gaztelaniaz) «EITB Corpus. 1) Basque-Spanish EiTB corpus of strongly comparable news documents; and 2) Basque-Spanish EiTB test corpus of aligned comparable documents. (Search and Browse – META-SHARE)» metashare.elda.org (Noiz kontsultatua: 2022-03-01).

Bibliografia[aldatu | aldatu iturburu kodea]

Nerea Areta, Antton Gurrutxaga, Igor Leturia Begiratu bat corpus-baliabideei, BAT 66. 2008 (1)
(Gaztelaniaz) Martí Antonín, M.A.(Koord.: Tecnologías del lenguaje, Editorial UOC, Bartzelona, 2003.

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]

Orotariko Euskal Hiztegia (Euskaltzaindia, 2005, 4,6 milioi hitz)
XX. Mendeko Euskararen Corpus Estatistikoa (Euskaltzaindia, 2002, 6 milioi hitz)
Zientzia eta Teknologiaren Corpusa (Elhuyar eta IXA Taldea, 2006, 9 milioi hitz)
Ereduzko Prosa Gaur (EHU, 2006tik, 25 milioi hitz 2013an)
Lexikoaren Behatokia (Euskaltzaindia, 2010tik, 26 milioi hitz 2013an)
Web Corpusen Atariko elebakarra (Elhuyar, 2013, 125 milioi hitz)
Egungo Testuen Corpusa (EHU, 2000-2011, 204 milioi hitz)
Goenkale corpusa
Pentsamenduaren Klasikoak corpusaren kontsulta eta liburuak
ZIO corpusa
Zuzenbide corpusa
http://www.uzei.com
http://www.rae.es
Eusko Jaurlaritzaren Euskararen corpus-plangintza.
Wikidatan dauden testu-corpusak bakoitza bere hizkuntzarekin.
Wikidatan dauden testu-corpusak bakoitza bere hizkuntzarekin, hitz kopurua (luzera. gutxi), Webgunea eta argitaratze-data (gutxi).

Datuak: Q461183
Multimedia: Text corpus / Q461183

[:0-1] Unanue Irureta, Maialen. (2018-12-09). «Arantza Diaz de Ilarraza Sanchez, informatikaria: “Itzultzaile automatiko batek ez du sekula pertsona batek bezala itzuliko”» Berria (Noiz kontsultatua: 2018-12-10).

[2] «Orotariko Euskal Hiztegia - OEH - OEH» www.euskaltzaindia.eus (Noiz kontsultatua: 2020-04-28).

[3] Euskaltzaindia. «XX. mendeko Euskararen Corpus estadistikoa» xxmendea.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).

[4] «Corpus beharra asetzeko baliabide eta tresna berriak: ZT corpusa, Corpusgile eta Eulia. – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).

[5] «XX. mendeko Euskararen Corpus estatistikoa» xxmendea.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).

[:12-6] «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (Noiz kontsultatua: 2018-12-17).

[7] «Lexikoaren Behatokia» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2022-02-11).

[8] UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. «Lexikoaren Behatokiaren Corpusa» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2018-11-26).

[9] «Lexikoaren Behatokia: Erabiltzen da hitz hau gaur egungo hedabideetan? – Hizkuntza-teknologiak» www.unibertsitatea.net (Noiz kontsultatua: 2018-11-26).

[10] «Lexikoaren Behatokia: leiho bat XXI. mendeko hedabideetako euskarari - IXA Taldea (Atal berezia: Besterena nuen neuregana) - EIZIE» www.eizie.eus (Noiz kontsultatua: 2018-11-26).

[11] UZEI, Euskaltzaindia, Elhuyar Fundazioa, IXA Taldea,. «Lexikoaren Behatokiaren Corpusa» lexikoarenbehatokia.euskaltzaindia.net (Noiz kontsultatua: 2018-11-26).

[12] «Gaurtik, Lexikoaren Behatokiak 65 milioi testu-hitz eta bilaketa-aukera gehiago ditu» www.euskaltzaindia.eus (Noiz kontsultatua: 2022-03-18).

[13] Ixa Taldea, Elhuyar Fundazioa. (2006). «Zientzia eta Teknologiaren Corpusa» www.ztcorpusa.eus (Noiz kontsultatua: 2018-11-26).

[IxaProduktuak-14] «Ixa taldearen produktuak» ixa.eus (Noiz kontsultatua: 2018-11-26).

[15] Ixa Taldea, Elhuyar Fundazioa. (2006). «Kontsulta-sistemaren laguntza. Zientzia eta Teknologiaren Corpusa» www.ztcorpusa.eus (Noiz kontsultatua: 2018-11-26).

[16] «EusCrawl» ixa.ehu.eus (Noiz kontsultatua: 2022-03-17).

[17] (Ingelesez) Artetxe, Mikel; Aldabe, Itziar; Agerri, Rodrigo; Perez-de-Viñaspre, Olatz; Soroa, Aitor. (2022-03-15). Does Corpus Quality Really Matter for Low-Resource Languages?. (Noiz kontsultatua: 2022-03-17).

[18] «Web-corpusen Ataria» webcorpusak.elhuyar.eus (Noiz kontsultatua: 2019-05-22).

[19] Leturia, Igor. (PDF) Webetik euskarazko corpus orokor handiak automatikoki biltzeko metodoen ebaluazioa.. (Noiz kontsultatua: 2019-05-22).

[20] «Egungo Testuen Corpusa (ETC) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).

[21] «Ereduzko Prosa Gaur (EPG) - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).

[22] «Ereduzko Prosa Gaur (EPG) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2019-05-22).

[23] «Pentsamenduaren Klasikoak Corpusa - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).

[24] «Euskal Klasikoen Corpusa (EKC) - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).

[25] «Hizkuntzen arteko Corpusa (HAC) - UPV/EHU» www.ehu.eus (Noiz kontsultatua: 2022-01-25).

[26] «Goenkale Corpusa - Euskara Institutua - UPV/EHU» Euskara Institutua (Noiz kontsultatua: 2022-01-25).

[27] «EPEC-DEP (BDT) | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).

[28] Ezeiza, Nerea. «CORPUSAK USTIATZEKO TRESNA LINGUISTIKOAK. Euskararen etiketatzaile morfosintaktiko sendo eta malgua. | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).

[29] Aranzabe, Maxux. «Dependentzia-ereduan oinarritutako baliabide sintaktikoak: zuhaitz-bankua eta gramatika konputazionala | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).

[30] «Gero Corpus Historikoa | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2018-11-26).

[31] «Evaluating the Noisy Channel Model for the Normalization of Historical Texts: Basque, Spanish and Slovene | Ixa taldea» ixa.eus (Noiz kontsultatua: 2019-05-22).

[:2-32] «Literatura Unibertsala» EIZIE (Noiz kontsultatua: 2021-05-21).

[33] «EIZIE Corpusa kontsultatzeko interfazea. Hitzak bilatu.» eiziecorpusa.elhuyar.eus (EIZIE, Elhuyar) (Noiz kontsultatua: 2021-05-21).

[34] Eusko Jaurlaritzako Hizkuntza Politikarako Sailburuordetza. «Literatura unibertsala» www.euskara.euskadi.eus (Noiz kontsultatua: 2021-05-28).

[35] «Bildumako liburuak» EIZIE (Noiz kontsultatua: 2021-05-21).

[36] Eroski-Consumer corpusa. Eroski.

[37] «Garaterm» garaterm-corpusa.ixa.eus (Noiz kontsultatua: 2022-03-01).

[38] «TZOS — Terminologia Zerbitzurako Online Sistema» tzos.ehu.es (Noiz kontsultatua: 2019-04-29).

[39] (Ingelesez) Arregi, Xabier; Arruarte, Ana; Artola, Xabier; Lersundi, Mikel. «TZOS: An On-Line System for Terminology Service» (PDF) Actualizaciones en Comunicación Social Centro de Lingüística Aplicada, Santiago de Cuba (Santiago de Cubako Centro de Lingüística Aplicada) (Noiz kontsultatua: 2019-04-29).

[40] (Gaztelaniaz) «Elhuyar Web Corpusa» webcorpusak.elhuyar.eus (Noiz kontsultatua: 2019-05-22).

[41] Etchegoyhen, Thierry; Azpeitia, Andoni; Pérez, Naiara. (2016-05). «Exploiting a Large Strongly Comparable Corpus» Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC'16) (European Language Resources Association (ELRA)): 3523–3529. (Noiz kontsultatua: 2022-03-01).

[42] (Gaztelaniaz) «EITB Corpus. 1) Basque-Spanish EiTB corpus of strongly comparable news documents; and 2) Basque-Spanish EiTB test corpus of aligned comparable documents. (Search and Browse – META-SHARE)» metashare.elda.org (Noiz kontsultatua: 2022-03-01).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]

[41]

[42]