Hizkuntza naturalaren prozesamendu
Hizkuntza naturalen prozesamendua (ingelesez, NLP - Natural Language Processing edo Computational Linguistics) adimen artifizialaren barne izanik, hizkuntzalaritza konputazionaleko ingeniaritzari zuzendutako atala da. Hizkuntza naturalen bidez pertsona eta makinen arteko komunikazioa era konputazionalean burutzea ikertzeaz arduratzen da. Eredu hauek ez dira hizkuntzaren ulermenean bakarrik oinarritzen, baita giza ezagutzaren aspektu orokor batzuetan eta memoriaren antolaketan ere. Hizkuntza naturalak fenomeno hauek aztertzeko bitartekari gisa balio du.
Hizkuntzaren tratamendu automatikoaren inguruko ikerrarloari hizkuntzaren prozesamendua edo lengoaia naturalaren prozesamendu ere esaten diote informatikariek, beste batzuetan, hizkuntzalaritzaren ikuspuntutik erreparatuta hizkuntzalaritza konputazionala ere esan.
Eduki-taula |
[aldatu] Aplikazioak
Gaur egun badira testua edo hizketa lantzeko zenbait hizkuntza–aplikazio eskuragarri, hala nola:
- Ortografia-zuzentzaileak.
- Estilo-zuzentzaileak.
- Lexikografia konputazionala. Hiztegiak sortzeko eta kontsultatzeko.
- Itzulpengintza automatikoa. eta itzulpen-laguntzak.
- Hizketa testua bihurtzen duten sistemak. (ASR, Automatic Speech Recognition|Automatic Speech Recognition).
- Ahotsaren sintesia. (TTS, Text To Speech).
- Informazioa eskuratzea, Dokumentu-bilatzaileak (IR, Information Retrieval).
- Galdera-erantzun sistemak. Galderetarako erantzunak bilatzeko sistemak (Question Answering).
- Informazio erauzketa. Datuak erauztea dokumentuetatik (IE, Information Extraction).
- Laburpen automatikoa (Summarization).
- Dokumentu-sailkatzaileak.
- Dokumentu-multzokatzaileak (Clustering).
- Bigarren hizkuntza ikasteko sistemak.
- Testu-sorkuntza automatikoa.
[aldatu] Osagaiak
- Analisi morfologikoa.
- Analisi sintaktikoa.
- Interpretazio semantikoa.
- Analisi pragmatikoa.
- Perpausaren planifikazioa.
- Perpausaren sorrera.
[aldatu] Historia
Inprentaren sorkuntzak hizkuntzaren tratamendua eta zabalkuntza irauli bazituen, XX. mende amaierakoa dugun konputagailuak ez du iraultza txikiagoa ekarri. Hasteko, gero eta gehiago erabiltzen ditugu konputagailuak eta konputagailu-programak gure eguneroko jardunean, eta programa horietako askok eta askok testua nola edo hala “tratatu” egiten dute, prozesatu. Bestalde, konputagailuekiko komunikazioa hizkuntza arruntaren bitartez (eta ez lengoaia formal baten bidez) egin ahal izatea, gero eta normalago izango da. Gizarte eleaniztunak hizkuntza batetik bestera egin behar izaten dituen joan-etorriak leuntzeko ere, aparteko lagun dugu konputagailua. Gainera, telekomunikazioetan gertatutako aurrerapen izugarriak eragin duen Internet fenomenoak, areagotu egin du hizkuntzaren tratamendu automatikoaren beharra; interesatzen zaigun informazioa ondo selekzionatzeko, esaterako, tratamendu linguistiko lagungarria ezinbestekoa baita.
Hizkuntza naturalen prozesamendua adimen artifizialaren baitan sortutako lehen adarretako bat da. Itzulpengintza automatikoa, esate baterako, 1940ko hamarkada amaieran sortu zen, adimen artifizial kontzeptua bera baino lehenago. Hala eta guztiz ere, LNPk egoera ezberdinak bizi izan ditu adimen artifizialaren barruan, aldaketa teknologiko eta zientifikoak direla-eta bere garrantzia honen baitan hazi eta murriztu egin delarik garai ezberdinetan. Ordenagailu bidez testuak itzultzeko lehen saiakerek huts egin zuten, ordenagailuen mugak eta hizkuntzalaritza arloko ezagutza urria zela-eta. Beranduago, 1960ko eta 1970eko hamarkadetan interfazeak hizkuntza naturalen bidez sortzearen saiakerek arrakasta gehiago izan zuten. 1980ko eta 1990eko hamarkadetan izan da, batez ere, Itzulpengintza automatikoaren inguruko ikerketen berrindartzea.
[aldatu] Hizkuntza naturalen prozesamendurako zailtasunak
[aldatu] Anbiguotasuna
Hizkuntza naturala hainbat mailatan anbiguoa izan ohi da:
- Mailan lexikoan: hitz bakar batek esanahi ezberdinak izan ditzake, eta hauetako egokiaren hautapena testuinguruaren edo oinarrizko ezagutzaren araberakoa izan behar da. Zentzu honetan ikerketa ezberdinak burutu izan dira, hiztegiak, gramatika, ezagutza oinarriak eta korrelazio estatistikoetan oinarritutako metodoekin.
- Erreferentzia mailan: anafora eta kataforak ebazteak erreferentzia egiten duten aurreko edo ondorengo entitate linguistikoa zehaztea suposatzen du.
- Egitura mailan: Zuhaitz sintaktiko ezberdinak sortzea ondorioztatzen duten sintagma preposizionalen dependentziaren anbiguotasuna argitzeko semantikara jo beharra dago.
- Maila pragmatikoan: Esaldi askok, sarritan, ez dute esaten dena adierazten. Ironiek garrantzi handia dute mezuaren ulermenean.
Anbiguotasun hauek eta beste batzuk ebazteko, arazo nagusia hizkuntza naturalean izaten diren sarrerak anbiguotasunik gabeko barne errepresentazio batean itzultzea da, hala nola, zuhaitz sintaktiko bat.
[aldatu] Hitzen arteko banaketak antzematea
Ahozko hizkuntzan ez dira tarteak uzten. Hitzen arteko tartea bilatzeko, askotan zentzu gramatikal eta kontestual baten bila jo beharra dago. Idatzizkoan ere, txinera bezalakoek ez dauzkate hitzen arteko tarterik.
[aldatu] Datuak ezegoki jasotzea
Atzerriko tiletak, hizketaren arazoak, idazketa orduko akatsak, OCR bidezko testuen irakurketek, eta beste arazo ugarik sortu dezakete sarrerako datuen jasoketa ezegoki bat.
[aldatu] Ikus, gainera
- Hizkuntza natural
- Hizkuntzalaritza konputazionala atala Sareko Euskal Gramatikan (SEG)
- UEUko "Hizkuntzalaritza konputazionala" liburua deskargatu.
- Ixa taldea. EHUko ikerketa taldea.
- HAP masterra. EHU-ko Hizkuntzaren Azterketa eta Prozesamendua masterra.
- Berbatek. Hiru urterako (2009-2011) ikerketa estrategikoko proiektu bat da, eta Elhuyar Fundazioak, EHUko Ixa eta Aholab ikerketa-taldeek eta Vicomtech eta Robotiker teknologia-zentroek osatzen dute proiektu hori gauzatzeko partzuergoa.
- Langune hizkuntzen Industriaren alorreko Euskal Herriko enpresen elkartea da. Elkarte hau 2010an sortu da eta itzulpengintza, edukiak, irakaskuntza eta hizkuntzen teknologiaren alorreko 30 enpresatik gora elkartzen ditu.