Galdera-erantzun sistemak

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu

Galdera-erantzun sistemak informazioaren berreskurapenaren arloaren barruan sartzen dira.

Orokorra[aldatu | aldatu iturburu kodea]

Sistemari zenbait dokumentu jakin igortzen dizkiogunean, World Wide Web , adibidez, aipatu sistema prest egongo da igorritako informazioari (hizkuntza naturalean (Natural language) aurkezten dena erantzun bat emateko. Adituen esanetan, galdera-erantzun sistema hauek informazioa hustutzeko erabiltzen diren beste sistemak baino teknika konplexuagoak erabiltzen dituzte, hizkuntza naturalaren prozesamenduarekin (NLP) loturik. Horrela, zeinbaitetan bilaketa-motoreak baino haratago dagoen pausutzat dira aurkeztuak.

Eremu itxiko galdera erantzunak bat egiten du alor baten menpean egindako itaunekin (medikuntza edo autogintza, adibidez) eta lan errasagotzat izan daiteke hartua. Izan ere, NLP sistemek eremu espezifikoen jakintza esplotatu dezakete, hala nola, ontologiaren arloa.

Zabalik dauden eremuetan, aitzitik, galdera-erantzun sistemek zerarekin egiten dute bat: ontologia orokorren inguruan planteatuko galderekin. Bestalde, sistema hauek datu gehiago eskaintzen dituzte zeinetatik erantzunak lortu.

Egitura eta funtzionamendua[aldatu | aldatu iturburu kodea]

Lehenengo galdera-erantzun sistemak 60ko hamarkadan zehar garatu ziren eta, oinarrian, hizkuntza natural eta sistema adituen arteko konexioak ziren, arlo jakin batzuetara lotuta zeudelarik. Aitzitik, gaur egungo galdera-erantzun sistemek testu-dokumentuak beharrezko iturri, oinarri bezala erabiltzen dituzte eta, erantzunak bilatzeko, hizkuntza naturalaren prozesamendu-teknika ezberdinez baliatzen dira.

Gaur egungo galdera-erantzun sitemek, gainera, galderak sailkatzeko moduluak erabiltzen dituzte, zeintzuk galdera eta erantzun motak determinatzen baitituzte. Galdera aztertua izan ondoren, sistemak orokorrean modulu ezberdinak erabiltzen dituzte. Hauek gero eta konplexuagoak diren NPL teknikak aplikatzen dituzte testu-kantitate laburtu baten gainean. Horrela, informazioaren berreskurapenaz arduratzen diren moduluek bilaketa-motore bat erabiltzen dute (search engine)erantzuna bere baitan gordetzen dute dokumentu edo paragrafoak dokumentuan aurkitzeko. Adibidez: galdera "Nork asmatu zuen penizilina?" bada, filtroak pertsonen izenak dituen lista bat emango digu erantzun gisa. Azkenik, erantzunen hustuketaz arduratzen den moduluak detaile, bat-egite gehiago bilatzen ditu testuan arrapostua galderari erantzuten dion ala ez baieztatzeko.

Badaude sistema batzuk plantilak erabiltzen dituztenak erantzun finala aurkitzeko xedez. Galderan "Zer da txakur bat?" idazterakoan, sistemak zera bilatuko du: "zer da X" eta honela hasten diren dokumentuen bila hasiko da: "X = Y da".

Beste sistema batzuk, sarean bilatutako emaitzak erabiltzen dituzte eskuragarri dauden testu-kantitateak hedatu eta, ondorioz, erantzun zuzena aurkitzeko probabilitatea handitzeko. Sistema konplexuak dedukzioak egiteko (abdukzio lez) eta jakintza esplotatzeko gai dira.

Gaiaren inguruan egin diren ikasketak[aldatu | aldatu iturburu kodea]

Duela bi urte, ikerlari talde batek galdera-erantzun sistemen inguruko lan bat bat egin zuten. Ondorengo puntuan izan ziren indentifikatuak:

Galdera mota ezberdin bakoitzak dagokion erantzuna aurkitzeko estrategia jakin bat eskatzen du. Galdera tipoak taxonomietan hierarkikoki antolaturik daude. Zenbait informazioren eskaerak bide ezberdinetatik gidatzen dira, batzuk galdera gisa eta beste batzuk baieztapen erara. Beharrezkoa da galderaren ulertze eta prozesaketarako modelo semantiko bat zeinak itaunketa baliokideak antzemateko gai izan behar duen; hizkuntza akzioa, berbak, erlazio sintaktikoak edo hizkuntza-formak direnak direlarik. Eredu honek itaunketa konplexu bat itaunketa sinple bihurtzea ahalbidetzen du: anbiguetateak identifikatu eta bere testuinguru egokian jarriko lituzke. Galderak gehienetan testuinguru jakin batean igortzen dira eta erantzunak testuinguru berean eman. Kontestua galdera argitzeko erabili daiteke, anbiguetateak ekiditzeko adibidez, edo ikerketa bat egiteko bideak mantentzeko galdera-serie batean zehar.

Galdera bati erantzuna eman aitzin, beharrezkoa da zer nolako jakintza-iturri dauden gure eskura. Behar dugun erantzuna jakintza-iturri horretan ez badago, formak ez du garrantziarik, erran nahi baita, nola prozesatu dugun galdera, ez eta informazioaren hustuketa, ez baitugu aurkituko behar dugun erantzun zuzenik. Erantzunen hustuketa honako faktoreen araberakoa da: galderaren konplexutasunaren araberakoa, galdera-prozesaketak eman digun erantzun motaren araberakoa, bilaketa-metodoaren araberakoa, galderak duen enfokearen arabera eta testuinguruaren araberakoa. Erantzunaren hustuketa faktore hauen guztien araberakoa izango da esan bezala. Erantzuna prozesatzeko ekintzak kontu handiz eta inportantzia berezia emanez burutu behar dira. Galdera-erantzun sistema bat ahalik eta era naturalean izango da aurkeztua. Kasu batzuetan, hustuketa sinple bat nahikoa da. Adibidez: galderaren klasifikazioa erantzuna izen bat (pertsona, erakunde, denda... batena), kantitate bat (diru-kantitate, neurri, distantzia... batena) edo data bat ("Zer egun izan zen 1989ko gabon gaua?" bezalako galdera batena)denean, datu bakar baten hustuketa nahikoa da. Bertze kasu batzuetan, erantzunaren aurkezpenek dokumentu anitzen arrapostu partzialak konbinatzen dituzten tekniken beharra agertzen da.

Badaude galdera-erantzun sistema batzuk datu base (database) batetik segundo batzuetan erantzunak hustutzeko ahalmena dutenak galderaren konplexutasuna, tamaina eta anbiguetateak berdin duelarik. Horiek dira, ba, garatu beharreko sistemak.Oso garrantzitsua da galdera-erantzunen sistemak ingelesa ez den hizkuntzetan ere garatu ahal izatea. Gehiago esanez, aski garrantzitsua da ingelesez idatzita ez dauden testuetan erantzunak aurkitzea itaunketa ingelesez burutu denean. Askotan gertatzen da, informazio bat bilatu eta galdera-erantzun sistemak ha ez harrapatzea. Kasu ezberdinengatik gertatu daiteke, hala nola, galdeketa prozesuan akats bat agertzen delako klasifikazioa egiterako oduan edo erantzunaren hustuketa erraza ez delako. Kasu hauetan, galdetzaileak galdera egin ez ezik sistemarekin solasaldi bat mantentzen du.

Galdetzaile konplexuago batzuk testuetatik edo egituraturarko datu-baseetatik at dauden erantzunak ematen dituzte. Galdera-erantzun bat modernizatu ahal izateko, jakintza-base ezberdinetan lan egiten duen elementu arrazional bat sartzea beharrezkoa da. Erabiltzailearen profilak zera harrapatzen du: galdeketari buruzko datuak, arlo interesgarriak, galdeketak usu erabiltzen dituen eskema arrazionalak, sistema eta erabiltzailearen arteren arteko "solasaldien" bitartez finkatutako alor komunak, etab. Profila plantila bat bezaa agertzen da irudikaturik non plantila horretako atal ezberdinek profil bat errepresentatzen baitute. Profilaren plantila horiek bata bestearekin bat eginik egongo dira.

Aone O'Gromainen artikulua[aldatu | aldatu iturburu kodea]

Multilingual and Cross-Lingual Issues in Question Answering artikulua publikatu zuen Aoife O´Gromanek Localisation Focus aldizkarian ingelesez eta orain euskaratzen ditugun zati hauek, erabat baliagarriak zaizkigu eni, Eneko, eta Gorka Intxaurberi Wikipedia-rako landu behar dugun gaian sakontzeko. Honela dio Aoifen artikuluak:


Galdera-erantzun sistema batek zera eskatzen du: sarrera bat, galdera moduan ematen dena. Adibidez: Noiz jaio zen Julio Zesar? Behin galdera eginda dagoenean, sistemak erantzun konkretu bat emango digu: Kristo ondorengo 100. urtean, kasu honetan. Galdera-erantzun sistema batek informazioaren hustuketa (Information Retrieval)eta hizkuntza naturalaren prozesamenduaz Natural Language Processing)-az baliatzen da, erantzun zehatzak dokumentu askoren artean topatu eta emateko.

TREC (Text Retrieval Conference)-n galdera-erantzun sistemetan erabilitako metodo orokorrena honakoa da:

1.- Galdera mota eta NE "(named entity)-a identifikatu. Orduan, Julio Zesarren inguruko galdera bat egiten badugu, data bat jakiteko, adibidez, noiz (when) motako galdera erabili beharko dugu. Beste mota batzuk honakoak dira: zer (what), nor (who), nola (how), etab.

2.- TREC-eko dokumentuetatik hitz edo perpaus klabea daukaten elementuak hustu. Julio Zesarren kasuan, hitz klabeak Julio Zesar eta jaio dira berba klabe horiek.

3.- NE-ko instantzia apropos guztiak ezagutu hustutako dokumentuetan. Julio Zesarren kasuan, zera esan nahi du honek: data guztiak aurkitzea.

4.- NE egokiena hautatu eta erantzun egoki gisa eman. Estrategia edo bilaketa-metodo sinpleena hitz klabe gehien biltzen dituen NE-a aurkitzea da. Adibidez, "Julio Zesar" eta "jaio" hitzekin batera, data bat sartuz. Sistema konplexuagoek, erantzun-moldeak erabiltzen dituzte, adibidez: "-(e)an jaio zen". Julio Zesar adibidetzat hartuz gero, honela geratuko litzateke: "Julio Zesar Kristo ondorengo 100.ean jaio zen". Metodo hauek sarean dauden data-base ezberdinetan informazioa bilatzeko erabiltzen dira ere, hala nola, pertsonaia famatuen biografiak.

Badaude, testu multilingueen prozesamenduan (Multilingual text processing), zenbait faktore erabat garrantzitsu, zeinen artetik, batzuk, MT (Machine Translation)]-arekin erlazionaturik baitaude:

1.- Aditz eta hauen argumentuak, normalean, berehala izaten dira lotuak. Adibidez, "faire la pêche" "fishing" bezala itzuliko da ziur aski, baina MT sistema batek "Make the peach" legez itzuli dezake.

2.- Zenbaitetan, izenak itzuli egingo dira, baina beste batzuetan ez. Adibidez, "Tchétchénie" (frantsesez), "Chechnya" bezala itzuliko da ingelesera. Hala ere, "Grand Prix" ez da "Grand Prize" bezala itzuliko, "New York" "Nouvelle York" itzuliko ez den moduan.

3.- Izenburuen itzulpenak ere arazoak sortu ditzake. Har dezagun, adibidez, frantsezeko "La belle et la bête" (Ederra eta Piztia). "Beauty and the Beast" bezala itzuli beharko zen, baina, ziur aski, "The Beautyful One and the Animal" bezala izanen da itzulia."

Euskarazko artikuluak[aldatu | aldatu iturburu kodea]

Argi dago ingelesez ematen direla galdera erantzun sistema aurreratu gehienak, baina badaude euskaraz lantzen hasi diren lehenengo prototipoak ere.

“Androideekin hitz egiten” izeneko artikulua irakurri ondoren, konturatu nintzen Euskal Herriko egoeraz zerbait idatzi behar nuela. Testualki zera dio artikulu honek: “Beste ildo batean, elkarrizketa-sistemen kasurik sinpleena galdera-erantzun sistemena da [Question Answering]. Ingelesez badira sistema aurreratuak, baina euskaraz lehenengo prototipoak lantzen ari dira oraindik. Konputagailu batekin elkarrizketa izatetik urrun gaude gaur egun, baina ikerkuntza horretara zuzendurik dago, eta dagoeneko hasi dira lantzen naturaltasuna lortzeko ezinbestekoak diren ezaugarriak, bai kognitiboak, bai emozionalak. Dena den, galdera-erantzun sistema bat horretatik urrun dago, Picassok zioen bezala, erantzunak besterik ez ematea ez baita komunikazioa. Oraindik ez da iritsi makinek gurekin bihotzez hitz egingo duten eguna. Gainera, batzuetan gizakiok gai gara hitzik gabe elkar ulertzeko, eta, ziur aski, zailtasunak izango dira horrelako komunikazioa lantzeko.”

Informazio gehiago http://www.zientzia.net/artikonts.asp?Artik_kod=9395 orrialdean aurkitu dezakezue.

Euskaraz lehenengo prototipoak lantzen ari zirela irakurri ondoren, jakin-minez bete nintzen eta “ixa” taldeko artikulu batean ondokoa irakurri nuen:

“Burutu diren lanak ondorengoak dira: - UZEIko Euskal Term. Datu-base terminologikoa, non UZEIren hiztegi berezitu guztiak erraz kontsulta daitezkeen. - Joseba Abaitua hizkuntzalariak Manchester-en aurkeztu zuen tesia. Euskararen morfologia eta sintaxirako gramatika lexiko-funtzional bat proposatzen du. Egun Bartzelonako FUJITSUren itzulpen automatikorako proiektuan ari da lanean. - Donostiako Informatika-Fakultatean 7 partaideko talde bat ari da bide berri hauek urratu nahian. Hasiera CAPRA proiektuaren eskutik etorri zen. Proiektu horretan, ordenadore bidez ordenadorearentzako programak idazten irakatsi nahi da. Bere barruan bi doktorego-tesi gorpuzten dira. Batean problemen enuntziatuak lengoaia naturalez automatikoki ulertzeko sistema bat eraiki zen eta bestean ikasle eta ordenadore-tutorearen arteko komunikazioa lengoaia naturalez burutzen da. Sistema gaztelaniarako egin da, baina euskarari ere egokitu zaio zenbait modulu. Aurten proiektu berria abiarazi da UZEI Institutuarekin eta APIKA informatika-enpresarekin batera. Proiektu honen helburuak bi dira: euskaraz idatzitako testuentzako zuzentzaile ortografikoa eta euskararako analisatzaile morfologiko orokorra burutzea.”

Artikulu hau http://ixa.si.ehu.es/Ixa/Argitalpenak/Artikuluak/1000911726/publikoak/88IVAP.ps orrialdean agertzen da eta oso erabilgarria da gure lanaren arlorako. Artikulu honen izenburua “Lengoaia naturalaren ordenadore-bidezko aplikazioak” da eta ondokoa aurkitu dezakegu:

-Datu baseen galdeketa sistemak -Itzulpen automatikoa -Testuen eduki-araketa -Elkarrizketa interfaceak -Ahozko idazmakina

Irakurketak[aldatu | aldatu iturburu kodea]

  • Multilingual and Cross-Lingual Issues in Question Answering by Aoife O´Gorman, in "Localization focus magazine (December 2003)"

Kanpo loturak[aldatu | aldatu iturburu kodea]