Hitzen zerrendak maiztasunaren arabera

Wikipedia, Entziklopedia askea

Hitzen zerrendak maiztasunaren arabera, testu bateko corpus batzuen hitzak bere maiztasunaren arabera multzokatzen eta sailkatzen duten listak dira, mailen arabera edo sailkatutako zerrenda gisa, hiztegia eskuratzeko xedea betetzen dutenak. Hitzen maiztasuna eta hiztegiaren ezagutza garrantzia handia izan dute beti hizkuntza berri bat ikasterako orduan eta testu desberdinak idazteko, honek testu baten berezitasuna neurtzeko balio zaigulako. Zenbat eta hitz desberdin eta sinonimo gehiago erabili, artikuluaren hiztegia eta kalitatea hobetuko da. Nahiz eta testua zuzena izan, beti egokiagoa da hitz desberdin anitz aurkitzea eta ez izatea testu errepikakorra, bai kontzeptuen aldetik, bai hitzen aldetik. Maiztasunen araberako hitz-zerrenda batek ikasleei hiztegia ikasteko ahaleginari etekinik onena ateratzeko balio digu, baina batez ere idazleei zuzenduta egon daiteke ere bai, betidanik idazterako orduan hau erronka bat izan delako, hitzak ez errepikatzea eta sinonimoak bilatzea. Maiztasun zerrendak helburu lexikografikoetarako ere egiten dira, hitz arruntak kanpoan uzten ez direla ziurtatzeko kontrol zerrenda moduko gisa. Ezagutzen da hitzen maiztasunak hainbat efektu dituela.

Akats garrantzitsu batzuk corpusaren edukia, corpus erregistroa eta "hitzaren definizioa dira". Hitzen zenbaketa mila urtekoa bada ere, oraindik eskuz egindako analisi erraldoia egin da XX. Mendearen erdialdean, corpus handien hizkuntza naturalaren prozesamenduak elektronikoki , hala nola filmen azpitituluak (SUBTLEX megastudy) ikerketa eremua azkartu du. Hainbat ikerketa daude gaur egun honen inguruan, eta metodologia batzuk sortu eta garatu dira maiztasuna aztertzeko. Hizkuntzalaritza konputazionalean, maiztasun-zerrenda hitzen zerrenda (hitz motak) eta horien maiztasunarekin batera ordenatuta dago, eta maiztasunak hemen corpus jakin bateko agerraldi kopurua esan nahi du normalean, eta hortik sailkapena zerrendako posizio gisa atera daiteke. Maiztasun-zerrenden eraikuntzan eragina duten hainbat gai nagusi hauek dira: corpusaren adierazgarritasuna, hitzen maiztasuna, hitz familien tratamendua, hizkeren eta adierazpen finkoen tratamendua, informazio sorta eta beste hainbat irizpide. [1]

Mota Agerraldiak Sailkapena
the 3.789.654 1
he 2.098.762 2.a
[...]
king 57.897 1.356
boy 56.975 1.357
[...]
stringyfy 5 34.589.a
[...]
transducionalify 1 123.567.a

Aipatu bezala hizkuntza berri bat ikasterako orduan hiztegia ikastea erronka garrantzitsua da, baina benetan zenbat hiztegi jakin behar da hizkuntza berri bat ondo ikasteko? Galdera honi erantzuteko honako puntuak kontuan izan behar dira: ea zenbat hitz dauden xede-hizkuntzan, jatorrizko hiztunek zenbat hitz ezagutzen dituzten edota zenbat hitz behar diren hizkuntza erabiltzaile batek egin behar dituen gauzak egiteko. Hizkuntza baten gaitasunei erreparatzen badiegu, hiztegia ezagutzea askotariko gaitasun bat izango litzateke, baina ez da nahikoa hizkuntza ondo menderatzeko. Hurrengo puntuan maiztasun handiko hitzen baliabideen zerrenda garatzeko kontuan hartu beharko liratekeen hainbat faktore aztertzera pasako gara. [2]

Metodologia[aldatu | aldatu iturburu kodea]

Faktoreak [1][2][aldatu | aldatu iturburu kodea]

Nation-ek (Nation 1997) gaitasunek ematen duten laguntza izugarria nabarmendu zuen, corpusen analisia askoz ere errazago eginez. Maiztasun-zerrenden eraikuntzan eragina duten hainbat gai nagusi aipatu zituen:

  • Corpusaren adierazgarritasuna. Zerrendan oinarritutako corpusek hizkuntzaren erabilera zabala behar bezala irudikatu beharko lukete.
  • Hitzen maiztasuna eta barrutia. Maiztasun azterketa gehienek agerraldi barrutiaren garrantzia aintzat hartu dute. Hitz batek ez luke zerbitzu orokorren zerrenda baten zati bihurtu behar maiz gertatzen delako. Testu ugaritan maiz gertatu behar da. Horrek ez du esan nahi bere maiztasunak gutxi gorabehera berdina izan behar duenik testu desberdinetan, baizik eta esan nahi du modu batean edo bestean gertatu behar dela testu edo talde multzo desberdin gehienetan.
  • Hitz familiak. Zerbitzu-zerrenda orokorraren garapenak familia bereko kide diren formak eta erabilerak zenbatzen diren irizpide multzo zentzuzkoa erabili behar du.
  • Hizkeren eta esamolde finkoak. Hitz bat baino handiagoak diren elementu batzuek maiztasun handiko hitzak bezala jokatzen dute. Hau da, maiz gertatzen dira unitate gisa (Egun on, ez dio axola), eta haien esanahia ez da zatien esanahitik argi ikusten (aldi berean, zehaztuta).
  • Informazio sorta. Ikastaroen diseinuan erabateko erabilera izateko, maiztasun handiko hitzen zerrendek honako informazio hau jaso beharko lukete hitz bakoitzarentzat: hitz familia batean sartutako hizkera formak eta zatiak, maiztasuna, hitzaren azpiko esanahia, esanahiaren aldakuntzak. eta kolokazioak eta esanahi eta erabilera horien maiztasun erlatiboa, eta hitzaren erabileraren murrizketak adeitasunari, banaketa geografikoari eta abarri dagokionez. Informazio barietate hau irakasleek eta ikasleek erraz eskuratzeko moduan ezarri behar da.
  • Beste hainbat irizpide. West-ek aurkitu zuen maiztasuna eta barrutia bakarrik ez zirela irizpide nahikoak irakaskuntza helburuetarako diseinatutako hitz-zerrendan zer sartzen den erabakitzeko. West-ek ikasteko erraztasuna edo zailtasuna baliatu zuen (errazagoa da ezagutzen den beste esanahi bat ikastea beste hitz bat ikastea baino), beharra (beste hitz batzuen bidez adierazi ezin diren ideiak adierazten dituzten hitzak), estalkia (ez da eraginkorra ideia bera modu desberdinetan adierazi ahal izateko.

Corpusak[aldatu | aldatu iturburu kodea]

Testu-corpus tradizionala [1] [3][aldatu | aldatu iturburu kodea]

Izenordain pertsonalen maiztasuna hizkeran eta idazkeran

Gaur egun eskuragarri dauden testu gehienak idatzizko corpusetan daude oinarrituta, errazagoak  prozesatzeko eta eskuratzeko. Hizkuntzalaritzan eta hizkuntzaren prozesamenduan, corpus edo testu-corpusa nolabait egituratutako testu sorta handi bat da. Hizkuntza deskribatzeko eta ikertzeko baliatzen da, hizkuntza-datu bilduma gisa, lexikoaren, morfosintaxiaren edo semantikaren aldetik.

Corpus mota desberdinak daude:

  • Testu-artxiboak. Testu osoak, berezko interesa dutenak. Idatzizkoak eta grabaziozkoak izan daitezke, adibidez literatura obrak, errefrau bildumak, bertso txapelketen grabazioak, ipuin kontaketak eta abar.
  • Testu-corpusak. Helburu linguistiko batekin osatzen diren bildumak. Testu aztertugabeak. Praktikan testu idatziei baino ez dagokie.
  • Corpus monitoreak. Euskaltzaindiaren Lexikoaren Behatokikoaren modukoak hizkuntzaren erabilera hurbiletik jarraitzeko helburua duena.
  • Corpus etiketatuak. Linguistikoki markatutako testuak (lemak, etiketa morfosintaktikoak, lokuzioak, informazio morfologikoa, sintaktikoa...)
  • Erreferentzia-corpusak. Hizkuntzaren erabilerari dagokio.
  • Datu-base linguistiko bereziak. Hizkuntza atalen arabera egituratuak (lexikoa, morfologia, joskera).
  • Corpus elebidunak. Bi corpus dira bi hizkuntzatan, bata bestearen itzulpena denean.
  • Corpus konparagarriak. Bi corpus dira bi hizkuntzatan, baina ez dira esaldiz esaldi edo paragrafoz paragrafo paraleloak. Gai beraren ingurukoak, urte berekoak, iturri antzekoetatik hartutakoak dira, baina ez dago korrelazio zuzena bien arteko zaten artean.
  • Hizketa-corpusak. Ahozko seinaleekin egindako grabazioak.

SUBTLEX mugimendua[aldatu | aldatu iturburu kodea]

New et al. 2007an lineako azpititulu ugari aprobetxatzea proposatu zen hitzaldi ugari aztertzeko. Brysbaert & New 2009-k testuen analisi tradizionalaren ikuspegiaren ebaluazio kritiko luzea egin zuen, idatzizko corpusaren analisitik ahozko corpusaren analisira eta sarean eskuragarri dauden film irekien azpidatziei esker. Azkenaldian jarraipen azterketa gutxi batzuk egin dira [4], hizkuntza anitzetarako maiztasun zenbaketa azterketa baliotsua eskaintzen baitute. Izan ere, SUBTLEX mugimenduak bost urtean amaitu zituen frantseserako , ingeles amerikarra, holandarra , txinera, gaztelania, grekoa, vietnamera, portuges brasildarra eta portugesa portugesa, albaniera eta poloniera. SUBTLEX-IT datu gordinak soilik eskaintzen dira.

Unitate lexikoa[aldatu | aldatu iturburu kodea]

Nolanahi ere, oinarrizko "hitza" unitatea definitu beharko litzateke. Idazkera latinezkoetan, hitzak karaktere bat edo gehiago izan ohi dira zuriunez edo puntuazioz bereizita. Baina salbuespenak sor daitezke, hala nola ingelesez 'can't', frantsesez 'aujourd'hui' edo esamoldeak. Nahiago izan liteke hitz familia baten hitzak taldekatzea bere oinarrizko hitzaren irudikapenaren pean. Beraz,  possible, impossible, possibility hitz familia bereko hitzak dira, * possib * oinarrizko hitzak adierazten dituenak. Xede estatistikorako, hitz horiek guztiak * possib * oinarrizko hitz formarekin laburbiltzen dira, kontzeptuaren eta forma agerraldiaren sailkapena ahalbidetuz. Gainera, beste hizkuntza batzuek zailtasun zehatzak izan ditzakete. Hori da txineraren kasua, hitzen arteko tarteak erabiltzen ez dituena, eta hainbat karaktereko kate zehatz bat karaktere bakarreko hitzen esaldi gisa edo karaktere anitzeko hitz gisa interpretatu daiteke.

Estatistikak[aldatu | aldatu iturburu kodea]

Badirudi Zipf-en legeak edozein hizkuntza naturaletako testu luzeagoetatik ateratako maiztasun zerrendetarako balio duela. Maiztasun-zerrendak tresna erabilgarria dira hiztegi elektronikoa eraikitzeko orduan, eta hori ezinbesteko baldintza da hizkuntzalaritza konputazionalean aplikazio ugarirako.

Hizkuntzalari alemaniarrek zerrendako elementu baten Häufigkeitsklasse (maiztasun klasea) N definitzen dute bere maiztasunaren eta maizeneko elementuaren arteko proportzioaren 2 logaritmoa erabiliz. Elementu arruntena 0 maiztasun klasekoa da eta gutxi gorabehera maiztasunaren erdia den edozein elementukoa da 1. klasean. Goiko adibideko zerrendan, gaizki idatzitako outragious hitzak 76/3789654 ratioa du eta 16. klasekoa.

Maiztasun-zerrendak, sare semantikoekin batera, konpresio semantikoko prozesuan beren hiperonimoek ordezkatu beharreko termino espezializatu eta ohikoenak identifikatzeko erabiltzen dira.

Pedagogia[aldatu | aldatu iturburu kodea]

Zerrenda horiek ez daude ikasleei zuzenean emateko asmoz, irakasle eta testu-liburuen egileentzako jarraibide gisa balio dezaten (Nation 1997). Paul Nation-en hizkuntzen irakaskuntza modernoaren laburpenak "maiztasun handiko hiztegitik eta helburu berezietatik [gaikako] hiztegitik maiztasun txikiko hiztegira igarotzera bultzatzen du, ondoren ikasleen hiztegia hedapen autonomoari eusteko estrategiak irakastera" (Nation & 2006la).

Hitzen maiztasunaren efektuak[aldatu | aldatu iturburu kodea]

Ezagutzen da hitzen maiztasunak hainbat efektu dituela (Brysbaert et al. 2011 ; Rudell 1993). Memorizazioan positiboki eragiten du hitzen maiztasun handiak izatea, litekeena da ikaslea esposizio gehiagoren mende dagoelako (Laufer 1997). Sarbide lexikoan hitz maiztasun altuak eragin positiboa du, hitzen maiztasun efektua izeneko fenomenoa (Segui et al.). Hitzen maiztasunaren efektua eskuratzeko adinaren efektuarekin lotuta dago, alegia, zein adinekin ikasi hitza.

Hizkuntzak[aldatu | aldatu iturburu kodea]

Jarraian eskuragarri dauden baliabideen berrikuspena dago.

Ingelesa[aldatu | aldatu iturburu kodea]

Informazio gehiago: Ingeleseko hitz ohikoenak

Hitzen kontaketa garai helenistikoa da . Thorndike & Lorge-k, lankideek lagunduta, 18.000.000 hitz zenbatu zituzten 1944an eskala handiko lehen maiztasun zerrenda emateko, ordenagailu modernoek horrelako proiektuak askoz errazago egin aurretik (Nation 1997).

Zerrenda tradizionalak[aldatu | aldatu iturburu kodea]

Horiek guztiek adina pairatzen dute. Bereziki, teknologiarekin lotutako hitzak, esate baterako, "bloga", 2014an # 7665 maiztasunarekin [5]  Corpus of Contemporary American English [6],  1999an egiaztatu zen lehenengo aldiz,  [7][8][8] eta ez da hiru zerrenda horietako batean agertzen.

The Teachers Word Book 30.000 hitzekin (Thorndike eta Lorge, 1944)

TWBk 30.000 lema edo ~ 13.000 hitz familia ditu (Goulden, Nation and Read, 1990). 18 milioi hitz idatzitako corpusa aztertu zen eskuz. Iturburu corpusaren tamainak erabilgarritasuna handitu zuen, baina bere adinak eta hizkuntza aldaketek aplikagarritasuna murriztu dute (Nation 1997).

Zerbitzu Orokorren Zerrenda (Mendebaldea, 1953)

GSLk 2.000 hitz-hitz ditu 1.000 hitzez osatutako bi multzotan banatuta. 1940ko hamarkadan 5 milioi hitz idatzitako corpusa aztertu zen. Izenburuaren esanahi desberdinen eta hitz-zatien agerraldi-tasa (%) ematen da. Maiztasunaz eta irismenaz gain, irizpide ugari aplikatu ziren corpusean. Horrela, adina, akats batzuk eta corpusa guztiz idatzitako testua izan arren, hitzen maiztasunaren, esanahien maiztasunaren eta zarata murriztearen datu base bikaina da oraindik ere (Nation 1997). Zerrenda hori Charles Browne, Brent Culligan eta Joseph Phillips doktoreek 2013an eguneratu zuten Zerbitzu Orokorraren Zerrenda Berria bezala .

The American Heritage Word Frequency Book (Carroll, Davies eta Richman, 1971)

Amerikako Estatu Batuetako eskoletan erabilitako testu idatzietatik (hainbat maila, hainbat gai) 5 milioi hitz biltzen dituen corpusa. Bere balioa ikastetxeko material didaktikoetan oinarrituta dago eta hitzak etiketatzea hitz bakoitzaren maiztasunaren arabera, ikastetxeko kalifikazio bakoitzean eta arlo bakoitzeko (Nation 1997).

The Brown (Francis eta Kucera, 1982) LOB eta lotutako corpusak

Gaur egun ingeleseko dialekto desberdinak irudikatzen dituen corpus idatziko milioi bat hitz daude. Iturri horiek maiztasun zerrendak sortzeko erabiltzen dira (Nation 1997).

Frantsesa[aldatu | aldatu iturburu kodea]

Datu multzo tradizionalak

Berrikuspen bat egin dute New, Pallier eta 3.01 enpresek. 1950-60 hamarkadetan saiatu zen Français fondamentalarekin. FF1 zerrenda biltzen du maiztasun handiko 1.500 hitzekin, ondorengo FF2 zerrenda batez osatutako maiztasun erdiko 1.700 hitzekin eta sintaxi arau erabilienak dituena. [9] 70 gramatikako hitzek komunikazio perpausaren% 50 osatzen dutela diote eta 3.680 hitzek estalduraren% 95 ~ 98 inguru osatzen dute. 3.000 hitz maiz osatutako zerrenda dago eskuragarri.

Frantziako Hezkuntza Ministerioak Étienne Brunet lexikologoak emandako 1.500 hitz-familien zerrenda sailkatua ere eskaintzen du.  Jean Baudotek American Brown ikerketaren ereduari buruzko ikerketa bat egin zuen, "Fréquences d'utilisation des mots en français écrit contemporain" izenburupean.

Duela gutxi, Lexique3 proiektuak 142.000 frantses hitz eskaintzen ditu, ortografia, fonetika, silabazioa, hizkera zati bat, generoa, iturri corpuseko agerraldi kopurua, maiztasun maila, lotutako lexemak, etab. CC-by- lizentzia irekiarekin eskuragarri. sa-4.0. [10]

Azplexua

Lexique3 hau azterketa jarraitua da eta hortik sortu da goian aipatutako Subtlex mugimendua. 2007 berriak zenbaketa guztiz berria egin zuen lineako filmen azpitituluetan oinarrituta.

Gaztelania[aldatu | aldatu iturburu kodea]

Artikulu nagusia: gaztelaniazko hitz arruntenak

Gaztelaniazko hitzen maiztasunari buruzko hainbat ikerketa egin dira (Cuetos et al. 2011). [11]

Txinera[aldatu | aldatu iturburu kodea]

Txinako corpusak aspalditik aztertu dira maiztasun zerrenden ikuspegitik. Txinako hiztegia ikasteko modu historikoa karaktereen maiztasunean oinarritzen da (Allanic 2003). John DeFrancis sinologo estatubatuarrak bere garrantzia aipatu zuen txinerarako atzerriko hizkuntzak ikasteko eta irakasteko gisa, Why Johnny Can't Read Chinese liburuan (DeFrancis 1966). Maiztasunerako tresna-multzo gisa, Da (Da 1998) eta Taiwango Hezkuntza Ministerioak (TME 1997) datu base handiak eskaintzen zituzten karaktere eta hitzen maiztasun mailekin. The HSK 8.848 handiko eta ertain frekuentzia hitz zerrendan Txinako Herri Errepublika, eta Herri Errepublika (Taiwan)k TOP ohikoa txinera tradizionalez hitz 8.600 inguru zerrenda beste bi zerrenda ohikoa Txinako hitz eta karaktere bistaratzen dira. SUBTLEX mugimenduaren ondoren, duela gutxi Cai & Brysbaert 2010- ek txinatar hitz eta karaktere maiztasunen inguruko ikerketa aberatsa egin zuen.

Beste[aldatu | aldatu iturburu kodea]

Wikipedia edo corpus konbinatuetan oinarritutako hizkuntza desberdinetan gehien erabiltzen diren hitzak. [12]

Ikusi ere[aldatu | aldatu iturburu kodea]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. a b c (Ingelesez) Word lists by frequency. 2021-01-14 (Noiz kontsultatua: 2021-03-02).
  2. a b «NATION & WARING 97» www.lextutor.ca (Noiz kontsultatua: 2021-03-02).
  3. Testu corpus. 2020-10-06 (Noiz kontsultatua: 2021-03-03).
  4. (Ingelesez) crr » Subtitle Word Frequencies. (Noiz kontsultatua: 2021-03-31).
  5. «Words and phrases: frequency, genres, collocates, concordances, synonyms, and WordNet» www.wordandphrase.info (Noiz kontsultatua: 2021-03-31).
  6. «English Corpora: most widely used online corpora. Billions of words of data: free online access» www.english-corpora.org (Noiz kontsultatua: 2021-03-31).
  7. «It's the links, stupid» The Economist 2006-04-22 ISSN 0013-0613. (Noiz kontsultatua: 2021-03-31).
  8. a b «welcome to peterme.com» web.archive.org 1999-10-13 (Noiz kontsultatua: 2021-03-31).
  9. «français fondamental» web.archive.org 2010-07-04 (Noiz kontsultatua: 2021-03-31).
  10. (Ingelesez) «Lexique3 #» openlexicon (Noiz kontsultatua: 2021-03-31).
  11. «vocabularywiki / Spanish word frequency lists» vocabularywiki.pbworks.com (Noiz kontsultatua: 2021-03-31).
  12. «Most common words» www.ezglot.com (Noiz kontsultatua: 2021-03-31).

Kanpo estekak[aldatu | aldatu iturburu kodea]