Brown Corpusa

Wikipedia, Entziklopedia askea
Brown Corpusa
Jatorria
SortzaileaHenry Kučera (en) Itzuli eta W. Nelson Francis (en) Itzuli
Honen izena daramaBrown Unibertsitatea
Ezaugarriak
Dimentsioak1.014.312 (luzera) hitz
Hizkuntzaingelesa

Brown University Standard Corpus of Present-Day American English (edo, besterik gabe, Brown Corpus) ingeles amerikarraren testu-laginen bilduma elektronikoa da, hainbat generotako lehenengo corpus egituratu garrantzitsua. Corpus horrek, hizkuntzaren eguneroko erabileran, hitz-kategorien maiztasuna eta banaketa zientifikoki aztertzeko erreferentziazko marra ezarri zuen. Rhode Island-eko Brown Unibertsitatean, Henry Kucun-ek eta W. Nelson Francis-ek konpilatuta, hizkuntza orokorreko corpusa da, eta ingelesezko 500 lagin ditu, guztira milioi bat hitz inguru, 1961ean Estatu Batuetan argitaratutako lanen artetik bilduak.[1]

Historia[aldatu | aldatu iturburu kodea]

1967an, Kucic enpresak eta Francis-ek Estatu Batuetako egungo ingelesaren analisi konputazionalaz liburu klasiko bat argitaratu zuten. Lan horrek Brown Corpus deritzonari buruzko oinarrizko estatistikak eman zituen.[2]

Brown Corpusa gaur egungo Estatu Batuetako ingelesaren kontu handiz egindako laginketa izan zen, eta iturri askotatik ateratako milioi bat hitz bildu zituen. Kuderak eta Francisek analisi konputazional ugari egin zizkioten, eta haietatik abiatuta lan aberatsa eta askotarikoa egin zuten, hizkuntzalaritza, psikologia, estatistika eta soziologiako elementuak konbinatuz. Asko erabili izan da hizkuntzalaritza konputazionalean, eta urte askoan izan da baliabide aipatuenen artean.[3]

Lehen analisi lexikostatikoa argitaratu eta gutxira, Bostoneko editore Houghton-Mifflin jo zuen Kudera-gana milioi bat hitz emateko, hiru leroko zitazio-base bat bat Ondare Amerikarraren Hiztegi berrirako. Hiztegi berritzaile berri hori, 1969an lehen aldiz agertu zena, corpusaren hizkuntzalaritzako hitzak eta hitzen erabileraren frekuentzia-informazioa erabili zituen lehen hiztegia izan zen.

Hasierako Brown Corpusa bere hitzak besterik ez zituen, eta bakoitzari kokapen-identifikatzaile bat. Hurrengo urteetan hitz bakoitzari bere kategoria morfologiko gehitu zitzaion. Greene eta Rubinen etiketatze-programak (ikus etiketatzearen adibidea) asko lagundu zuen horretan, baina akats-tasa handiak esan nahi zuen eskuzko berrikuspen zabala behar zela.

Brown Corpus etiketatuak hizketaren 80 kategoria morfologko inguru erabili zituen, bai eta forma konposatuetarako, laburduretatako, atzerriko hitzetarako eta beste fenomeno batzuetarako adierazle bereziak ere, eta eredu bat osatu zuen ondorengo testu-corpus askorentzat, hala nola Lancaster-Oslo-Bergen Corpus (ingeles britainiarra 90eko hamarkadaren hasieratik) eta Freiborg-Brown Corpus amerikar ingelesa (FROWN).[4][5] Corpusaren etiketatzeari esker, analisi estatistiko askoz sofistikatuagoak egin ziren, hala nola Andrew Mackiek programatutako lana, eta gramatika ingelesari buruzko liburuetan dokumentatua.[6]

Hitzen maiztasunaren banaketa Ingeles Wikipedian (2006ko azaroaren 27a). x: hitzen posizioa maiztasun-taulan; y: hitzaren agerpen kopuru osoaren logaritmoa da. Agerpen gehieneko hitzak "the", "of" eta "and" dira, espero zen bezala. Zipf-en legea kurbaren erdiko zati linealari dagokio, gutxi gorabehera lerro berdeari jarraituz (1/x); hasierako zatia, berriz, (1/x0.5) marra magentatik hurbilago dago ; atzeko zatia, berriz, (1/(k + x)2.0 cyan lerrotik hurbilago dago.

Emaitza interesgarrietako bat da, lagin handi samarretan ere, hiperbola bat azaltzen dela grafiko batean ardatz batean jartzen badira hitz bakoitza corpus osoan zenbatetan azaldu den (maiztasuna) eta beste ardatzean hitzak maiztasunaren araberako ordena beherakorrean. Horrela ikus daiteke n-garren hitzaren maiztasuna 1/n-rekiko proportzionala da, gutxi gorabehera. Hala, "the" Brown Corpusaren ia %7 da, "to" eta "of" beste %3 baino gehiago; 50.000 hitz inguruko hiztegi osoaren erdia, berriz, hapax legomena dira, hau da, corpus osoan behin bakarrik azaltzen diren hitzak dira.[7] Hitak lista horretan duen posizioa (n) eta maiztasunaren arteko erlazio sinple hori George Kingsley Zipf nabarmendu zuen (adibidez, ikus The Psychobiology of Language (Hizkuntzaren Psikobiologia) ), eta harrezkero Zipf-en legea esaten zaio.

Brown Corpusa corpuseko hizkuntzalaritzaren aitzindari izan zen arren, 2020an erabiltzen diren corpusak (Corpus of Contemporary American English, the British National Corpus or the International Corpus of English) ) askoz handiagoak dira. Milaka milioi hitz inguru batzen dituzten corpusak badira.

Ingelesa barne hartzen duten corpus paraleloei dagokienez, Googlek 2005ean abiatutako itzulpen automatikoko sistema 200.000 milioi hitzeko corpus baten gainean entrenatu zen.[1]

Laginaren banaketa[aldatu | aldatu iturburu kodea]

Corpusak 500 lagin ditu, 15 generotan banatuta daudenak, 1961ean genero horietako bakoitzean argitaratutako testu kopuruaren arabera. Lagindutako lan guztiak 1961ean argitaratu ziren, eta amerikar ingeleseko jatorrizko hiztunek idatzi zituzten.

Lagin bakoitza ausazko muga batean hasi zen artikuluan edo aukeratutako beste unitate batean, eta lehenengo esaldira arte jarraitu zuen 2.000 hitzen ondoren. Oso kasu gutxitan, okerreko zenbaketen ondorioz, laginak 2.000 hitz baino zertxobait gutxiagokoak ziren.

Datuak kaxa nagusiko keypunch-makinetan sartu ziren jatorrian; letra larriak aurreko izartxo batek markatzen zituen, eta zenbait elementu berezik, hala nola formulak, kode bereziak zituzten.

Corpusak hasieran (1961), 1.014.312 hitz zituen, 15 testu-kategoriatakoak:

  • A. PRENTSA: txostena (44 testu)
    • Politika
    • Kirolak
    • Gizartea
    • Albisteen iragarkia
    • Finantzak
    • Kulturala
  • B. PRENTSA: Argitaletxea (27 testu)
    • Erakundearen egunkaria
    • Langileak
    • EDitorearentzako gutunak
  • C. PRENTSA: Aipamenak (17 testu)
    • antzerkia
    • liburuak
    • musika
    • dantza
  • D. ERLIJIOA (17 testu)
    • Liburuak
    • Aldizkako argitalpenak
    • Trakt-ak
  • E. GAITASUNAK ETA DENBORA-PASAK (36 testu)
    • Liburuak
    • Aldizkako argitalpenak
  • F. HERRIKOIAK (48 testu)
    • Liburuak
    • Aldizkako argitalpenak
  • G. BELLES-LETTRES - Biografia, memoriak, etab. (75 testu)
    • Liburuak
    • Aldizkako argitalpenak
  • H. BESTELAKOAK: Gobernua eta Estatu Batuetako etxeko organoak (30 testu)
    • Gobernuaren dokumentuak
    • Fundazioaren txostenak
    • Industriaren txostenak
    • Unibertsitateen katalogoa
    • Industry Houseko organoa
  • J. IKASIAK (80 testu)
    • Natur Zientziak
    • Medikuntza
    • Matematika
    • Gizarte eta Portaera Zientziak
    • Zientzia Politikoa, Zuzenbidea, Hezkuntza
    • Giza zientziak
    • Teknologia eta Ingeniaritza
  • K. FIKZIOA: Orokorra (29 testu)
    • Eleberriak
    • Istorio laburrak
  • L. FIKZIOA: Misterioa eta Detektibezko Fkzioa (24 testu)
    • Eleberriak
    • Istorio laburrak
  • M. FIKZIOA: Zientzia (6 testu)
    • Eleberriak
    • Istorio laburrak
  • N. FIKZIOA: Abentura eta Mendebaldea (29 testu)
    • Eleberriak
    • Istorio laburrak
  • P. FIKZIOA: Maitasun-istorioak (29 testu)
    • Eleberriak
    • Istorio laburrak
  • R. UMOREA (9 testu)
    • Eleberriak
    • Saiakuntzak, etab.

Kategoria morfologikoen etiketak[aldatu | aldatu iturburu kodea]

Etiketa (tag) Definizioa
CC koordinazioa (eta/edo)
CD zenbaki kardinala (one, two, 2, etc.)
CS mendeko konjuntzioa (if, although) (bai, baina)
EX "there" existentziala
JJ adjektiboa
JJA adjektiboa + laguntzailea
JJC adjektiboa, konparatiboa
JJCC Adjektiboa + konjuntzioa
JJS semantikoki adjektibo superlatibo (chief, top)
JJF Adjektiboa + Femeninoa
JJM Adjektiboa + maskulinoa
NN izen arrunt singularra edo masa izena
NNA Substantiboa + laguntzailea
NNC Izena + Konjuntzioa
NNS substantibo plurala
NNP izen nerezia edo horren zatia
NNPC izen berezia + konjuntzioa
PRP izenordain pertsonala, singularra
PRPS izenordain pertsonala, plurala
PRP$ Izenordain posesiboa
RB adberbio
RBR aditzondo konparatiboa
RBS adberbio superlatiboa
VB aditza, oinarri-forma
VBA verb + laguntzailea, singularra, orainaldia
VBD aditza, lehenaldia
VBG verb, gerundioa
VBN aditza, lehenaldiko partizipioa
VBZ verb, orainaldiko 3. pertsona singularra
FW Atzerriko hitzak
PUN Puntuazio guztiak

Euskarazko lehen testu-corpusak[aldatu | aldatu iturburu kodea]

Euskarari dagokionez, 2021ean baziren 300 mila milioi hitz dituzten corpusak. Lexikoaren Behatokia Corpusak 98 milioi hitz zituen.[8] Egungo Testuen Corpusak (ETC) guztira 355,4 milioi testu-hitz zituen 2021ean, eta Elhuyarren Web Corpusen Atari elebakarrak 300 milioi.[9]

Euskarazko lehen testu-corpusa (Euskaltzaindiaren Orotariko Euskal Hiztegiaren testu-corpusa) 1984an egin zen eta 4,6 milioi hitz ditu. Euskaltzaindiak berak egindako XX. Mendeko Euskararen Corpus Estatistikoa 2002an amaitu zen, 6 milioi hitzekin. Elhuyar Fundazioak eta EHUko IXA Taldeak Zientzia eta Teknologiaren Corpusa atera zuten 2006an, 9 milioi hitzekoa. EHUk ere urte horretan egin zuen Ereduzko Prosa Gaur deituriko corpusa, gaur egun 25,1 milioi hitzez osatua. Euskaltzaindiaren Lexikoaren Behatokia 2010ean abiarazi zen, eta egun 26,5 milioi hitz ditu. Corpus paraleloei dagokienez, itzulpen-enpresek dituzte ziurrenik horrelako handienak euren itzulpen-memorietan. Baina publikoarentzat eskuragarri eta hizkuntza-teknologietan erabiltzeko moduan oso gutxi daude; erakunde publiko (HAEEren Itzulpen Zerbitzu Ofiziala, Gipuzkoako Foru Aldundia, Bizkaiko Foru Aldundia...) edo bokazio sozialeko elkarte (EIZIE, Librezale) batzuetako itzulpen-zerbitzuen itzulpen-memoriak eta Eroskiren Consumer aldizkariko corpusa dira erreferentzia bakarrak, baina denak 5 milioi hitzen azpitik daude.[1]

Geroago Igor Leturiak 2014an Interneten euskaraz zeuden gune gehienak arakatu eta aztertu zituen.[10][11][12] 100 milioi hitz etik gorako kalitatezko corpusak bildu zituen eta testu mardul horiek oinarri izan ziren gero Elhuyarren Web-corpusen Ataria zerbitzua sortzeko (Dabilena izena du 2021etik), Internetetik automatikoki eratutako corpus horiek kontsultagai jartzeko.[13] Atari horretan, Leturiaren bildutako testuaz gain, Iñaki San Vicentek eta Iker Manterolak bildutako corpus paraleloak eta Antton Gurrutxagak bildutako kolokazioak ere integratu ziren.[14] Bestalde, Weba euskarazko corpus gisa kontsultatzeko tresna bat egin eta online jarri zuen, CorpEus izenekoa,[15] eta hainbat domeinutako corpus espezializatu eta konparagarriak ere eskuratu zituen Leturiak bere doktore-tesian, geroago terminologia-erauzketan erabili zirenak.[16][17][18][19][20]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. a b c Leturia Azkarate, Igor. (2013). «Web-corpusen Ataria: Elhuyar I+Gk egindako euskarazko webeko testuen biltegi erraldoia» Zientzia.eus (Noiz kontsultatua: 2022-02-11).
  2. Francis, W. Nelson & Henry Kucera. 1967. Computational Analysis of Present-Day American English. Providence, RI: Brown University Press.
  3. Francis, W. Nelson & Henry Kucera. 1979. BROWN CORPUS MANUAL: Manual of Information to Accompany a Standard Corpus of Present-Day Edited American English for Use with Digital Computers. http://icame.uib.no/brown/bcm.html.
  4. Hundt, Marianne, Andrea Sand & Rainer Siemund. 1998. Manual of Information to Accompany the Freiburg-Brown Corpus of American English (FROWN). http://khnt.hit.uib.no/icame/manuals/frown/INDEX.HTM
  5. Leech, Geoffrey & Nicholas Smith. 2005. Extending the possibilities of corpus-based research on English in the twentieth century: A prequel to LOB and FLOB. ICAME Journal 29. 83–98.
  6. Winthrop Nelson Francis and Henry Kučera. 1983. Frequency Analysis of English Usage: Lexicon and Grammar, Houghton Mifflin.
  7. Kirsten Malmkjær, The Linguistics Encyclopedia, 2nd ed, Routledge, 2002, ISBN 0-415-22210-9, p. 87.
  8. «Lexikoaren Behatokia» lexikoarenbehatokia.euskaltzaindia.eus (Noiz kontsultatua: 2022-02-11).
  9. «dabilena - Elhuyar» dabilena.elhuyar.eus (Noiz kontsultatua: 2022-02-11).
  10. (Ingelesez) Leturia Azkarate, Igor. (2014-06-17). «The Web as a corpus of Basque» www.educacion.gob.es (UPV/EHU) (Noiz kontsultatua: 2021-09-17).
  11. Leturia Azkarate, Igor. (2015). (AR) Euskarazko corpus orokorrak osatzeko weba ustiatzen. (Noiz kontsultatua: 2021-09-17).
  12. Leturia, Igor. (2013). «Web-a euskarazko corpus gisa — Unibertsitatea.Net» www.unibertsitatea.net (UEU, Unibertsitatea.net, Txiotesia) (Noiz kontsultatua: 2021-09-17).
  13. «dabilena - Elhuyar» dabilena.elhuyar.eus (Noiz kontsultatua: 2021-09-17).
  14. «Web-corpusen Ataria» webcorpusak.elhuyar.eus (Noiz kontsultatua: 2021-08-19).
  15. (Ingelesez) Leturia Azkarate, Igor. (2014). THE WEB AS A CORPUS OF BASQUE. UPV/EHU.
  16. Kultura Zientifikoko Katedra. (2018). Zientzialari (94) Igor Leturia: “Azken urteotan lan handia egin da euskal corpusgintzaren arloan”. (Noiz kontsultatua: 2021-08-21).
  17. Gurrutxaga Hernaiz, Antton; Leturia Azkarate, Igor; Pociello Irigoien, Elixabete; San Vicente Roncal, Iñaki; Saralegi Urizar, Xabier. (2010). (AR) Internet, corpusak eta terminologia: internetetik espezialitate-corpusak erauzteko teknikak eta horien ebaluazioa. (Noiz kontsultatua: 2021-09-17).
  18. AnySoft Keyboard euskaraz kalean « Librezale.eus. (Noiz kontsultatua: 2022-01-27).
  19. Roteta, Izaskun Aldezabal; Egurrola, Jose Mari Arriola; Sanchez, Arantza Diaz de Ilarraza; Gabiola, Kepa Sarasola. (2005). Hizkuntzalaritza konputazionala. UEU arg ISBN 978-84-8438-065-8. (Noiz kontsultatua: 2022-02-11).
  20. Hizkuntzalaritza konputazionala. Udako Euskal Unibertsitatea 2005 ISBN 84-8438-065-3. PMC 433085530. (Noiz kontsultatua: 2022-02-11).

Bibliografia[aldatu | aldatu iturburu kodea]

  • Nerea Areta, Antton Gurrutxaga, Igor Leturia Begiratu bat corpus-baliabideei, BAT 66. 2008 (1)
  • (Gaztelaniaz) Martí Antonín, M.A.(Koord.: Tecnologías del lenguaje, Editorial UOC, Bartzelona, 2003.

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]