Laburpengintza automatikoa

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu

Laburpengintza automatikoa ordenagailu programa baten bitartez testu baten bertsio laburtua sortzean datza. Prozesu honetan eskuratutako emaitzak jatorrizko testuaren informazio garrantzitsuena mantendu behar du.

Gaur egun dugun informazio kopuru handiak ezinbesteko bihurtu ditu laburpenak. Hori dela eta, garrantzi handiko ikerketa arlo bilakatu da laburpengintza automatikoa. Laburpengintza baliatzen duen adibide bezala Googleren bilatzailea dugu.

Laburpenetan koherentzia mantendu eta oinarrizko informazioa ez galtzeko hainbat aldagai izan behar dira kontuan; hala nola, testuaren luzera, idazketa modua eta sintaxia.

Erauzketa eta laburpena[aldatu | aldatu iturburu kodea]

Orokorrean, bi hurbilketa mota egin dira: erauzketa eta laburpena.

Erauzketarako teknikek jatorrizko testuaren garrantzizko atalak (perpausak, paragrafoak, eta abar) aukeratu eta bere horretan kopiatzen dituzte emaitzan. Laburpenerako teknikek, ordea, testu berria sortzen dute, lengoaia naturalen prozesamendurako teknikak baliatuz. Laburpenek erauzketek baino emaitza hobeak eman ditzakete, gehiago laburtzeko aukera emanez, baina askoz zailagoa da, lengoaiaren prozesamendurako duten beharragatik.

Kontsultan oinarritutako laburpenak[aldatu | aldatu iturburu kodea]

Laburpen generikoez gain, badaude beste laburpen mota batzuk, erabiltzailearen kontsultan oinarritutako laburpenak esate baterako. Honenbestez, erabiltzaileak kontsultaren arabera emaitza bezala emandako laburpena ezberdina izan daiteke. Oso erabilgarriak dira horrelako laburpenak, adibidez, web bilatzaileentzako; Googleren bilatzaileak emaitza bakoitzarekin batera laburpen bat erakusten du, zehaztutako kontsultaren araberakoa izaten dena.

Dokumentu anitzeko laburpengintza[aldatu | aldatu iturburu kodea]

Hainbat sistemak dokumentu bakarrean oinarritutako laburpenak egiten dituzten arren, badaude oinarritzat dokumentu anitz hartzen dituztenak ere; hau dokumentu anitzeko laburpengintza bezala ezagutu ohi da. Horrelako sistemek zailtasun gehiago izaten dituzte, jatorrizko hainbat dokumentu erabiltzeak informazioaren errepikapenak, idazketa mota ezberdinak eta beste zenbait arazo gehigarri dituelako.

Ebaluazioa[aldatu | aldatu iturburu kodea]

Laburpen automatiko baten zuzentasuna ebaluatzea oso zaila izaten da, normalean subjektibotasuna baliatu behar izaten baita, pertsonek ebaluatuz. Pertsonek ebaluatzeak, ordea, denbora eta lan asko suposatzen du, eta oraindik konpondu beharreko arazoa da ebaluazioarena. Dena dela, laburpen bat ebaluatzerakoan kontuan hartzen diren faktoreak koherentzia eta estaldura.

NISTek urtero antolatzen duen Document Understanding Conferences jardunaldietan ebaluazioan lan egiten da, eta bertako erabilitako tekniketako bat ROUGE metrika da (Recall-Oriented Understudy for Gisting Evaluation). Pertsonek eskuz egindako laburpenak automatikoki egindakoekin alderatu, eta n-gramen kointzidentzia izaten du kontuan. Kointzidentzia maila handia bada, laburpenen arteko antzekotasuna handia dela esan nahi du. Teknika honek, ordea, estaldura baino ez du kontuan hartzen, eta ez du koherentzia bermatzen.

Erreferentziak[aldatu | aldatu iturburu kodea]

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo loturak[aldatu | aldatu iturburu kodea]