Sentimenduen analisi

Wikipedia, Entziklopedia askea
Sentimenduen analisirako Talaia ataria. 2016ko EAEko hauteskunde autonomikoen termometro digital gisa.

Sentimenduen analisia, iritzien meatzaritza, edo emozioen adimen artifiziala egoera afektiboak eta informazio subjektiboa aztertzeko zenbait tresna erabiliz egindako analisia da. Tresna horien artean daude hizkuntzaren prozesamendua, testuen azterketa, hizkuntzalaritza eta biometria, besteak beste.

Oro har, sentimenduen analisiaren helburua hizlari, idazle edo beste gai batekin lotura duen zerbaiten jarrera zehaztea edota dokumentu, gai eta gertaera baten erreakzio emozionala zehaztea da. Jarrera, erabaki bat edo ebaluazio (ikus ebaluazio teoria) bat, egoera afektiboa, edo komunikazio emozionala (hitz egiten denean hizlariak nahita emandako efektu emozionala) izan daiteke.

Motak[aldatu | aldatu iturburu kodea]

Oinarrizko zereginetako bat sentimenduen azterketan, testu-dokumentu baten edo ezaugarri/aspektu baten polaritatearen sailkapena egitea da —dokumentu, esaldi edota ezaugarri baten iritzia positiboa, negatiboa edo neutrala den aztertzea. Aurreratua, "beyond polarity" sentimenduen sailkapena dago; adibidez,emozien azterketa, adibidez, "haserre", "triste", eta "pozik".

Sentimenduen analisian aitzindarien barne General Inquirer delakoa, testuak kuantifikatzeko ereduak eman zituen. Honetaz gain, ikerketa psikologikoa egin zuen, pertsonen egoera psikologikoaren azterketa beren hitz egiteko portaeran oinarrituta.

Gerora,Volcani eta Fogel-ek deskribatu zuten metodoan, zehazki sentimenduetan zentratu ziren, hitz solte eta esaldiak emozioen eskala batekiko alderatuta.[1] Egungo sistema bat, haien lanean oinarrituta, EffectCheck izena duena, testu batean transmititu nahi den emozio maila handitu edo txikitzeko sinonimoak erakusten ditu.

Gerora egindako beste hainbat saiakerek, sentimenduen analisi positiboa eta negatiboa aztertzen zuten, Turney[2] eta Pang[3] dira horren adibide. Azken honen lanean, metodo ezberdinak erabili ziren, produktu baten analisiaren polaritatea edota film baten analisia positiboa/negatiboa den aztertzeko.

Lan guztiak batera jarri eta hurrerapenak lortzeko-ikasketa, lexikoa, ezagutzan-oinarritua, etab.- 2004ko AAAI Spring Symposium-en egin zen, non linguista, informatikari eta ikerkuntzarako interesa zuten hainbat pertsonek interesak batu eta eginkizun eta datu multzoak proposatu zituzten, ikerketa konputazional sistematikoa zehazteko, testu afektibo, subjektibo eta sentimenduen arloan.

Metodo estatistikoetako klasifikazio gehienetan, klase neutroa baztetzen bada ere, klasifikatzaile binariotik gertu dago. Zenbait ikerketak proposatzen dute, polaritate problema guztietan bezala, kategori bezala hartzea. Honetaz gain, frogatu daiteke klasifikatzaile bereziak, Entropia Maximoa[4] eta Euskarri bektoredun makina[5] adibidez, klase neutroa onuragarria dela eta zehaztasun handiagoa lortu daitekeela honekin. Metodo honetan, algoritmoak lehenik eta behin hizkuntza edo testu neutroa identifikatu eta iragazki moduko bat egiten du, gainerako adierazpenak sentimentu positibo edo negatibo bezala klasifikatuz. Beste aukera bat da, zuzenean hiru kategorietako klasifikazioa egitea, pauso batean. Azkeneko metodo honek, kategoria guztien estimazio bat egiten du, probabilitate distribuzionalaren bidez. Klase neutro bat nola erabili behar den, datuen araberakoa da: datuak neutralak, positiboak eta negatiboak badira, zentzua du lengoaia neutralean filtro bat ezarri eta gainerakoan zentratzea, sentimendu positibo eta negatiboetan. Bestalde, testu gehiena neutroa bada, polaritateen artekok aldaketa txikiekin, zaila izango litzateke, testu positiboaren eta negatiboaren arteko desberdintasunak bereiztea.

Sentimenduen analisia egiteko beste metodo bat eskala batean oinarritzen den sistema da, non hitz konkretu batzuk esanahi positibo, neutro edo negatibo batekin asoziatzen diren zenbaki baten bitartez, -10 tik +10ra edo 0tik positiborantz, +4 esaterako. Estrukturarik gabeko testu bat analizatzen denean hizkuntzaren prozesamenduan, kontzeptu bakoitzari puntuazio bat ematen zaio, hitzak sentimenduekiko duen eraginaren arabera.[6][7] Honen bitartez, sentimenduen esanahia zehatzagoak lortu daitezke, posible delako esaldi baten esanahia aldatzea hitz baten inguruan dauden beste hitzen bitartez. Adibidez, hitz batek, esaldiaren esanahia areagotu, txikitu, edo negatibo bihur dezake.[8]

Subjektibitatearen/objektibitatearen identifikazioa[aldatu | aldatu iturburu kodea]

Zeregin honen helburua, testu baten (esaldia normalean) definizioa bi klasetan bereiztea da: objektiboa edo subjektiboa. Arazo hau maiz polaritatearen klasifikazioa egitea baino zailagoa izan daiteke.[9] Hitzen eta esaldien subjektibitateak testuinguruaren araberakoa delako eta dokumentu objektibo batek, esaldi subjektiboak izan ditzakeelako (berrien testu batek iritziak dituenean, esaterako).

Funtzionalitatean/aspektuan oinarritua[aldatu | aldatu iturburu kodea]

Entitate desberdinen aspektu edo funtzionalitate batek duen iritzi edo sentimendua zehazten datza, adibidez, sakelako telefonoaren kamera edo bateria. Funtzionalitatea edo aspektua entitate baten atributu bat da, mugikorraren pantaila, jatetxe baten zerbitzua, edo kamerak ateratako irudiaren kalitatea, esaterako. Aspektuan oinarritutako sentimenduaren analisiaren abantaila da intereseko objektu baten nabardurak bereiz daitezkeela. Gainera, funtzionalitate ezberdinek erantzun desberdinak sor ditzakete, adibidez, hotel batek kokapen ona izan dezake, baina bertan ematen den janaria txarra izan daiteke.

Metodoak eta ezaugarriak[aldatu | aldatu iturburu kodea]

Gaur egun sentimenduen analisia lantzen duten planteamendu guztiak hiru talde nagusitan bana daitezke: Jakintzan oinarritutako teknikak, metodo estatistikoak, eta planteamendu hibridoak. Jakintzan oinarritutako teknikak kategoria afektiboetan oinarrituz sailkatzen dituzte testuak; kategoria hauek kontentu, triste edo beldurturik bezalako hitz afektibo ez anbiguoen agerpenetan oinarritzen dira. Mota honetako metodo batzuk hau egiteaz gain hitz arbitrarioeri emozio jakin bati nolabaiteko “kidetasun” bat esleitzen die. Metodo estatistikoek makina ikasketako elementuetan oinarritzen dira. Elementu hauen artean analisi semantikoa edo euskarri bektoredun makinak aurki ditzakegu.[2] Metodo konplexuago batzuk sentimendu baten titularra (egoera afektibo hori erakusten duen pertsona) eta jasotzailea (sentimendua jasaten duen entitatea) identifikatzen saiatzen dira. Iritzia dagokion testuinguruan ulertzeko, eta hizlariak iritzia eman duen ezaugarria identifikatzeko, hitzen arteko erlazio gramatikala aztertzen da. Dependentzia gramatikalen erlazioak testuaren analisi sakon baten bidez eskuratzen dira. Planteamendu hibridoak  makina ikasketako metodoetan eta ontologia edo semantika sareak bezalako jakintzaren errepresentazioko tekniketan oinarritzen dira. Teknika hauen bidez adibidez, modu bitxian adierazita dauden semantikak detekta daitezke.

Kode libreko aplikazioak makina ikasketa, estatistika, eta lengoaia naturaleko prozesamendu teknikak erabiltzen dituzte sentimendu analisia testu luzeetan automatizatzeko. Hauen artean web orriak, berriak, interneteko debate taldeak, berrikuntzetan, web blogak eta sare sozialak daude. Jakintzan oinarritutako sistemak ordea, baliabide publikoak erabiltzen dituzte lengoaia naturalen kontzeptuekin lotutako informazio semantikoa eta afektiboa eskuratzeko. Modu berean, sentimenduen analisia irudi edo bideo moduko elementu bisualetan erabili daiteke.

Giza analisiko elementuak beharrezkoak dira sentimenduen analisian, sistema automatikoak ez baitira gai tendentzia historikoak analizatzeko, edo batzuetan klasifikazioak testuinguruarekino modu okerrean egiten direlako. Metodo automatikoak gutxi gora bera 23% asmatze tasa du  gizakiak eginiko klasifikazioekiko. Hala ere, gizakiok iritzi desberdinak izaten dituzte, eta beraz dudan jartzen da sentimendu klasifikatzaile batek giza jakintza maila batera iristeko posibilitatea izatea.

Ebaluazioa[aldatu | aldatu iturburu kodea]

Semtimenduen analisiak duen ebaluazioaren zehaztasuna, printzipioz, gizakion iritziarekin bat egiten duen alderatzen datza. Hau neurtzeko, doitasun eta estaldurak duen aldagai batetan oinarritzen da, bi testuetan oinarrituta, positiboa eta negatiboa. Halere, gizakion iritzietan oinarritutako ikerketa batean oinarituz, honek %80eko asmatze tasa du denboran zehar(ikusi adostasun neurria). Beraz, %70eko asmatze tasa duen sentimenduen analisi batek, ia gizakiok adina asmatze tasa izango du.

Aplikazioak gomendio sistemetan[aldatu | aldatu iturburu kodea]

Sentimenduen analisia oso tresna baliagarria izatea gertatu da gomendio sistementzat. Gomendio sistema batem helburua erabiltzaile batek objetu batekiko duen preferentzia aurreikustea da. Gomendio sistema nagusiek datu multzo esplizituekin egiten dute lan. Adibidez, iragazte kolaboratiboak puntuazio matrizeekin egiten dute lan, eta edukieran oinarritutako iragazkiak objektuen meta-datuekin egiten dute lan.

Sare sozialetan edo salmenta/erosketa web orrietan, erabiltzaileek objektuentzat testuzko iritziak utzi ditzakete. Giza iritziekin sortutako testu hauek produktuekiko sentimendu informazio baliagarria eskaintzen dute. Gainera, testu hauek produktuaren ezaugarri desberdinekiko sentimenduak erakutsi ditzakete. Produktuen ezaugarrien informazio honek edukian oinarritutako iragazkietan meta-datuek duten roll berdina betetzen dute, baina baliagarriagoak izanda. Ezaugarri hauek erabiltzaileen iritzietan hain modu zabalean agertzen direnez, erabiltzaile baten iritzia influentzia dezakeen informazioa eskaintzen du. Bestalde, meta-datuek (gehienetan fabrikatzaileak eskainitako datuak), erabiltzaileentzat interesgarria suertatu daitekeen informazioa alde batera utzi dezakete. Erabiltzaile baten iritzia ezaugarri batekiko dimentsio anitzeko puntuazio sistema bat bezala ikusi daiteke, produktuarekiko preferentzia islatuz.

Euskarazko testuetarako sentimenduen analisia[aldatu | aldatu iturburu kodea]

Testuak automatikoki lantzeko hainbat tresna informatikoz osatutako IXA pipes tresna multzoaren barruan Ixa taldeko Rodrigo Agerri eta German Rigau ikertzaileek sentimendu analisia eta iritzi-azterketarako tresnak eskaintzen dituzte 2014z gero, euskararako eta hainbat hizkuntzatarako erabil daitezkeenak.[10][11] Donostia 2016ko Europako Kultur Hiriburuko Behagune ataria sortu zuten gai horretako txioen jarraipena egiteko.[12][13][14]

Talaia euskarazko testuetan sentimendu-analisia egiten duen aplikazio orokorra da. Iñaki San Vicente-ren doktorego-tesiaren barruan sortu zen, beti ere gaztelania, frantsesa, eta ingelesa ere lantzeko testuinguru eleaniztunean.

Euskara bezalako hizkuntza baterako ere ikasketa automatikoan erabili ahal izango diren baliabide handiak sortzeko tresnak eta metodologiak landu zituzten. Ixa Taldeko German Rigau eta Rodrigo Agerri-ren zuzendaritzapean lau hizkuntza horietarako tresna hauek garatu zituzten:  polaritate-lexikoiak, testuaren hizkuntza-identifikatzailea,  txioetako testuak normalizatzeko tresna, ea testu bateko polaritatea positiboa edo negatiboa den aztertzeko oinarrizko klasifikatzailea (EliXa).[15][16]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Volcani, Yanon; Fogel, David. (November 14, 2006). United States Patent: 7136877 - System and method for determining and controlling the impact of text. (Noiz kontsultatua: 2018-06-11).
  2. a b Turney, Peter D.. (2002-12-11). «Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews» arXiv:cs/0212032 (Noiz kontsultatua: 2018-06-11).
  3. «Thumbs up? Sentiment classification using machine learning techniques» www.cs.cornell.edu (Noiz kontsultatua: 2018-06-11).
  4. (Ingelesez) «The importance of Neutral Class in Sentiment Analysis | Datumbox» blog.datumbox.com (Noiz kontsultatua: 2018-06-11).
  5. Schler, Jonathan. (2005). «The importance of neutral examples for learning sentiment» IN WORKSHOP ON THE ANALYSIS OF INFORMAL AND FORMAL INFORMATION EXCHANGE DURING NEGOTIATIONS (FINEXIN (Noiz kontsultatua: 2018-06-11).
  6. Taboada, Maite; Brooke, Julian; Tofiloski, Milan; Voll, Kimberly; Stede, Manfred. (2011-06-01). «Lexicon-based methods for sentiment analysis» Computational Linguistics 37 (2): 267–307.  doi:10.1162/COLI_a_00049. ISSN 0891-2017. (Noiz kontsultatua: 2018-06-11).
  7. (Ingelesez) Augustyniak, Łukasz; Szymański, Piotr; Kajdanowicz, Tomasz; Tuligłowicz, Włodzimierz. (2015-12-25). «Comprehensive Study on Lexicon-based Ensemble Classification Sentiment Analysis» Entropy 18 (1): 4.  doi:10.3390/e18010004. (Noiz kontsultatua: 2018-06-11).
  8. (Ingelesez) Thelwall, Mike; Buckley, Kevan; Paltoglou, Georgios; Cai, Di; Kappas, Arvid. (2010-12). «Sentiment strength detection in short informal text» Journal of the American Society for Information Science and Technology 61 (12): 2544–2558.  doi:10.1002/asi.21416. ISSN 1532-2882. (Noiz kontsultatua: 2018-06-11).
  9. Wayback Machine. 2010-07-08 (Noiz kontsultatua: 2018-06-11).
  10. ixa-ehu. (2020-02-27). ixa-ehu/ixa-pipe-opinion. (Noiz kontsultatua: 2020-07-03).
  11. Agerri, Rodrigo; Rigau, German. (2019). «Language independent sequence labelling for Opinion Target Extraction | Ixa taldea» ixa.si.ehu.es (Noiz kontsultatua: 2020-07-03).
  12. «Informatika kulturaren alde (DSS2016) // La informática herramienta de cultura» DIFusio@, EHUko Informatika (Noiz kontsultatua: 2020-07-03).
  13. «Behagunea» behagune.elhuyar.eus (Noiz kontsultatua: 2020-07-03).
  14. «Poster in META-forum 2017: Our projects in the frame of the European Capital of Culture in 2016» DIFusio@, EHUko Informatika (Noiz kontsultatua: 2020-07-03).
  15. Tesia: Sentimendu-analisi eleaniztuna komunikabide sozialetan (Iñaki San Vicente, 2019-03-11) – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-07-03).
  16. San Vicente Roncal, Iñaki. (2019-03-11). Multilingual sentiment analysis in social media..  doi:http://hdl.handle.net/10810/32604. (Noiz kontsultatua: 2020-07-03).

Kanpo estekak[aldatu | aldatu iturburu kodea]