TreeBank

Wikipedia, Entziklopedia askea
Jump to navigation Jump to search
Treebank sintaktiko gehienak esaldi-egituraren (ezkerreko zuhaitza) edo mendekotasun-egituraren (eskuineko zuhaitza) aldaeren bidez idazten dira.

Treebank edo zuhaitz-banku bat hizkuntzaren corpus bat da, non esaldi bakoitza sintaktikoki edo semantikoki aztertzen den haren egitura adieraziz. Egitura hori, oro har, zuhaitz egitura baten moduan adierazten da. Hortik datorkio treebank izena, hau da, zuhaitz-bankua. Treebank corpusak eskuz sortu daitezke, hizkuntzalari talde batek esaldi bakoitzaren egitura sintaktikoaren anotazioak hartuz; edo prozesu automatikoen bitartez ere, non parser (analizatzaile sintaktiko) batek egitura esleitzen dion eta, ondoren, hizkuntzalari batek egitura hori gainbegiratzen duen. Errealitatean, corpus desberdinak sortzeko parser proiektuek hizkuntzalari talde askoren kontribuzioa behar dute, urte askotako lana izan daitekeelarik. Treebankek iraultza ekarri zuten hizkuntzalaritza konputazionalera 90. hamarkada hasieran, eskala handiko ebidentzia enpirikoaetatik etekina ateraz.[1]

Emitologia[aldatu | aldatu iturburu kodea]

Treebank terminoa Geoffrey Leech hizkuntzalariak 80. hamarkadan sortu zuen, seedbank (hazi-banku) eta bloodbank (odol-banku) biltegien analogian oinarrituta.[2] Honen arrazoia, bai egitura sintaktikoa eta bai egitura semantikoa zuhaitz-egitura gisa adierazi ohi direla da. Parsed corpus (corpus parseatua) terminoa sarritan treebank terminoarekin trukagarria izaten da, esaldien garrantzia nabarmentzeko helburuarekin, zuhaitzena nabarmendu beharrean.

Eraikuntza[aldatu | aldatu iturburu kodea]

Treebankak askotan kategoria gramatikalen etiketatzearekin idatziak izan diren corpusen gainean sortzen dira. Aldi berean, treebankak batzuetan semantikarekin edo beste hizkuntzalaritza-informazioarekin hobetzen dira. Treebankak erabat esku hutsez sor daitezke, hizkuntzalariek esaldi bakoitza egitura sintaktikoarekin idatziz; edo erdi-automatikoki, non parserrak egitura sintaktikoa esleitzen duen eta hizkuntzalariek berrikusi eta, behar izanez gero, zuzendu egiten duten. Praktikan, hizkuntza natural baten corpusa guztiz egiaztatzea eta osatzea oso lan gogorra da, graduatutako hizkuntzalari taldeek urte luzeak beharko lituzkete halako proiektu batean. Zereginaren zailtasuna eta treebanka eraikitzeko beharrezko denbora, idatzitakoaren zehaztasun-mailaren eta lagin linguistikoaren zabaleraren arabera zehazten dira.

Treebank batzuk hizkuntzaren teoria zehatz bat jarraitzen dute idazketa sintaktikoan (adibidez, BulTreeBank bankuak HPSG jarraitzen du), baina gehienek teoria espezifiko gutxiago izaten dute. Hala ere, bi talde nagusi bereiz daitezke: esaldi-egitura idazten duten treebankak (adibidez, Penn Treebank edo ICE-GB) eta mendekotasun-egitura idazten dutenak (adibidez, Prague Dependency Treebank edo Quranic Arabic Dependency Treebank).

Quranic Arabic Corpuseko mendekotasun-egitura duen zuhaitz hibridoa.

Garrantzitsua da idazkera formalaren eta artxibatutako formatuaren arteko bereizketa argitzea, idatzitako datuak gordetzerakoan. Treebankak eraikitzeko gramatika jakin batean oinarritzen dira nahitaez. Gramatika bera fitxategi formatu desberdinetan inplementatu daiteke. Adibidez, Egoitzek Isabel maite du esaldiaren analisi sintaktikoa, eskuineko irudian ikusten den bezala, parentesizko etiketa soil batzuekin adierazi daiteke, honelaxe (Morfeus euskal gramatika analizatzailearen notazioa jarraituz):

(P (IS (IZB Egoitz))
       (ERG +ek))
   (AS (IS (IZB Isabel)
       (ADI maite)
       (ADL du)))
   (. .))

Errepresentazio mota hau oso ezaguna da baliabide urriak erabiltzen dituelako, eta zuhaitzaren egitura irakurtzea nahiko erraza delako inolako software tresnarik erabili beharrik gabe. Hala ere, gero eta konplexuagoak diren corpusekin, beste fitxategi-formatu batzuk erabiltzea hobetsi daiteke. Aukera alternatiboen artean, treebanketarako bereziki prestatutako XML diseinuak, koska zenbakituak eta banantze-notazio mota desberdinak daude.

Erabilpenak[aldatu | aldatu iturburu kodea]

Ikuspegi konputazionaletik abiatuta, treebankak hizkuntza naturalak prozesatzeko sistema aurreratuak diseinatzeko erabili izan dira, hala nola, kategoria gramatikalen etiketatzeak, parserrak, semantika analizatzaileak eta itzulpen automatikoko sistemak.[3] Sistema konputazional gehienek treebank-datu fidagarrienak erabiltzen dituzte. Hala ere, gizaki batek gainbegiratu gabeko automatikoki sortutako corpusa ere erabilgarria izan daiteke. Parserra hobetua izan daiteke testu kantitate handiak aplikatuz eta arau-maiztasunak bilduz. Hala ere, gauza jakina izan behar luke corpus bat eskuz zuzentzearen eta osatzearen prozesuaren bidez soilik dela posible parserraren jakintzapean ez dauden arauak identifikatzea. Horrez gain, maiztasunek orokorrean zehaztasun handiagoa izan ohi dute.

Corpus-hizkuntzalaritzan, treebankak fenomeno sintaktikoak ikertzeko erabiltzen dira (adibidez, corpus diakronikoa denboran zehar gertatu diren aldaketa sintaktikoak aztertzeko erabil daiteke). Behin parseatuta, corpus batek gramatika-egitura ezberdinen erabilera zeinen ohikoa den frogatzeko balio dezake. Treebankek aurreikusi gabeko fenomeno gramatikal berrien aurkikuntza bultzatzen dute, arrazoizko ebidentziak eskainiz.

Treebankei eman ohi zaien beste erabilera bat, hizkuntzalaritza teorikoan eta psikolinguistikan elkarrekintza ebidentzia eskaintzea da. Treebank osatu batek hizkuntzalariei esperimentuak aurrera eramaten lagundu diezaieke; esate baterako, eraikuntza gramatikal baten erabilerak nolako eragina daukan beste bat eraikitzerakoan, edota hiztunek eta idazleek esaldiak osatzeko erabakiak nola hartzen dituzten. Elkarrekintza-azterketa bereziki emankorra da, oharpen geruza sakonak, semantikoak eta pragmatikoak esate baterako, corpus batera gehitzen baitira. Ondorioz, aukera gramatikaletan, fenomeno ez-sintaktikoen eragina ebaluatzea posible da.

Euskal treebanka[aldatu | aldatu iturburu kodea]

Euskaraz ere badago treebank bat, Euskal RST Erlazio eta Zuhaitz Bankua[4] hain zuzen ere, Euskal Herriko Unibertsitateko Ixa taldeak garatua. Egileen webgunean honela deskribatzen da euskal treebanka:

Euskal treebankean hainbat gauza egin daitezke:

  • Erlazio erretoriko jakin baten maiztasunak eta adibideak kontsultatu.
  • Testu jakin baten erlazio-egitura osatzen duten erlazio erretorikoak kontsultatu edota testuaren zuhaitz-egitura ikusi.
  • Erlazio erretorikoen seinaleak zeintzuk diren ikusi.
  • Euskarazko Oinarrizko Diskurtso Unitateen (ingeleseko Elemmentary Discourse Unit edo EDU) estatistikak eskuratu.
  • Zuhaitz bateko, Unitate Zentralari lotutako edo corpuseko Erlazio Erretorikoei buruzko estatistikak eskuratu.
  • Euskal RSTko erlazio eta zuhaitz bankua ez da corpus arrunta,erlazio erretorikoen kontsulta eginez, RSTko etiketatzea sendotzeko eta etiketatzean egon daitezkeen akatsak edota desadostasunak ebaluatzeko tresna ere bada.

Gainera, honako atazetan erabiltzen da:

  • Erlazio erretorikoak detektatzeko patroiak egiteko.
  • Diskurtso-mailako segmentazioa automatikoa egiteko.
  • Laburpen automatikoa.
  • Sentimenduen analisia.
  • Galdera erantzun sistemak.

Ikus, gainera[aldatu | aldatu iturburu kodea]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Alexander Clark, Chris Fox eta Shalom Lappin (2010). Hizkuntzalaritza konputazionalaren eta hizkuntzaren prozesamenduaren eskuliburua. Wiley.
  2. Sampson, G. (2003) ‘Dendrografo baten hausnarketa.’ A. Wilson, P. Rayson eta T. McEnery (editoreak) Corpus-hizkuntzalaritza lunetapean: Geoffrey Leechentzako festschrifta, Frankfurt am Main: Peter Lang, pp. 157-184
  3. Kübler, Sandra; McDonald, Ryan; Nivre, Joakim (2008-12-18). "Mendekotasun parseaketa". Giza-hizkuntzen teknologiei buruzko sintesi-ikasgaiak. 2 (1): 1–127. doi:10.2200/s00169ed1v01y200901hlt002
  4. «Euskal RST Treebank | Ixa taldea» ixa.si.ehu.es . Noiz kontsultatua: 2019-02-26.