Ezkutuko semantikaren analisia

Wikipedia, Entziklopedia askea
Jump to navigation Jump to search

Ezkutuko semantikaren analisia (LSA) hizkuntzaren prozesamendurako teknika bat da. Dokumentu-multzo baten eta bertan agertzen diren terminoen arteko erlazioa aztertzeko kontzeptu-multzo bat sortzen da dokumentuetan eta terminoetan oinarrituz. Semantikoki oso antzeko diren hitzak antzeko esanahia duten testuetan agertzen direla ontzat ematen du LSAk. Testuetako paragrafoetako terminoen agerpen maiztasunak kalkulatuz termino-dokumentu matrize bat eraikitzen da (errenkada bat termino bakoitzeko eta zutabe bat paragrafo bakoitzeko) eta balio singularretan deskonposatzea (SVD) izeneko teknika matematikoa erabiltzen da terminoen eta dokumentuen adierazpen bektorialen dimentsioa murrizteko. Hitzen (terminoen) antzekotasun semantikoa kalkulatzeko errenkada-bektoreen arteko angeluaren kosinua kalkulatzen da (edo biderketa eskalarra). Kosinu-antzekotasuna 1etik gertu badago hitzak semantikoki antzekoak direla interpretatzen da, 0tik gertu badago, aldiz, semantikoki oso desberdinak direla.[1]

1988an ezkutuko egitura semantikoan oinarritzen den informazio-berreskuratze teknika bat patentatu zuten (AEBetako 4,839,853 patentea, orain iraungia), Scott Deerwester, Susan Dumais, George Furnas, Richard Harshman, Thomas Landauer, Karen Lochbaum eta Lynn Streeter ikerlariek. Teknika Informazioa berreskuratzeko testuinguruan erabiltzen denean Ezkutuko Semantikaren Indexatzea (LSI) [2] izenez ezagutu ohi da.

Ikuspegi orokorra[aldatu | aldatu iturburu kodea]

Maiztasunen matrize[aldatu | aldatu iturburu kodea]

LSAk termino bakoitzeko errenkada bat eta dokumentu bakoitzeko zutabe bat dituen termino-dokumentu matrize bat eraikitzen du. Terminoek dokumentuetan duten agerpen maiztasuna adierazten da bertan; dentsitate gutxiko matrize bat izaten da. Maiztasunen matrizeko elementuak eraldatu egiten dira tf-idf (term frequency–inverse document frequency) ponderazio ereduaren bidez, adibidez: matrizeko elementuen ponderazioa terminoak dokumentuan duen agerpen maiztasunarekiko proportzionala da, dokumentu gutxitan agertzen diren terminoen ponderazioa igo egiten delarik haien garrantzia erlatiboa erakusteko asmoz.

Dimentsioa murriztea[aldatu | aldatu iturburu kodea]

Matrizea sortu ondoren, hein txikiagoko hurbilpen[3] matrize bat kalkulatzen du LSAk. Hainbat arrazoi egon daitezke horretarako:

  • Jatorrizko termino-dokumentu matrizea oso handia izan daiteke eta horrek konputazio arazoak sortu; halakoetan, hein txikiagoko matrizea jatorrizkoaren hurbilpen moduan interpretatzen da.
  • Jatorrizko termino-dokumentu matrizean zarata egon daiteke. Ikuspuntu honetatik, hurbilpen matrizea zarata kendutako matrize moduan interpretatzen da (jatorrizkoa baino hobea).
  • Jatorrizko termino-dokumentu matrizea dentsitate gutxikoa izan daiteke "benetako" termino-dokumentu matrizearekin konparatuz. Izan ere, jatorrizko matrizeak dokumentuetako hitzen benetako kontaketa besterik ez du erakusten, eta ez dokumentu horiekin zerikusia izan lezaketen hitz guztiena— sinonimia dela eta askoz ere hitz gehiago izan daitezke.

Dimentsioa murriztearen ondorioz hainbat dimentsio konbinatzen dira:

{(auto), (kamioi), (lore)} --> {(1.3452 * auto + 0.2828 * kamioi), (lore)}

Horrek sinonimiaren arazoa leuntzen du, antzeko esanahia duten terminoak adieraziko dituzten dimentsioak sor daitezkeelako dimentsio murrizketari esker. Polisemia fenomenoarekin sortzen den arazoa ere neurri batean konpontzen da, noranzko "egokian" dauden hitz polisemikoen osagaiak antzeko esanahia duten hitzen osagaiekin batzen direlako. 

Deskribapena[aldatu | aldatu iturburu kodea]

Izan bedi matrizea non matrizeko elementuak i. terminoa j. dokumentuan zenbat aldiz agertzen den adierazten duen, maiztasuna alegia.

Matrizeko i. errenkada {\textbf {t}}_{i} terminoari dagokion bektorea da eta dokumentuekin duen erlazioa adierazten du:

Era berean, j. zutabea j. dokumentuaren bektore-adierazpena da eta dokumentuak terminoekin duen erlazioa ematen du:

Aljebra linealeko teoriaren arabera matrizea beste hiru matrizeren biderketa moduan deskonposa daiteke, eta matrize ortogonalak eta matrize diagonala izanik. Deskonposaketa horri Balio Singularretan Deskonposatzea (SVD) esaten zaio:

Deskonposaketa horrela ikus daiteke:

balio singularrak dira eta eta ezker- eta eskuin-bektore singularrak.  matrizean  terminoari ekarpena egiten dion errenkada bakarra da. Errenkada-bektore hori notazioaz adieraziko dugu.  Modu berean,  matrizean dokumentuari ekarpena  zutabeak egiten dio,

Balio handieneko  balio singularrak eta haiei eta matrizeetan dagozkien bektore-singularrak hautatzean, heina duen errore txikieneko hurbilpen-matrize bat kalkula daiteke  matrizearentzat (Frobenius norma). Termino-bektoreak eta dokumentu-bektoreak dimentsio murriztuko espazioan erabiltzeko aukera ematen du horrek (espazio semantikoan). errenkada-bektorearen  osagaiek terminoaren proiekzioa ematen dute dimentsio murriztuko espazioan. Dimentsio berri horiek ez dira berehalakoan interpretatzeko moduko kontzeptuak izaten. Era berean,  "dokumentu"-bektorea jatorrizkoaren hurbilpen bat da dimentsio murriztuko espazioan. Hurbilpen-matrizea honela idatz daiteke:

References[aldatu | aldatu iturburu kodea]

  1.   doi:10.1002/aris.1440380105 .
  2.    .
  3. Markovsky I. (2012) Low-Rank Approximation: Algorithms, Implementation, Applications, Springer, 2012, ISBN 978-1-4471-2226-5 [page needed]