Word embedding

Wikipedia, Entziklopedia askea
Jump to navigation Jump to search
500 Euskerazko hitzen bi dimentsiotako errepresentazioa

Word embedding edo bektore distribuzionalak hizkuntzaren prozesamenduan HPn erabiltzen diren, eta hitz edo esaldiei errepresentazio abstraktu bat esleitzen dioten zenbaki errealez osaturiko bektoreak dira. Corpuseko hitz bakoitzari bere esanahiaren errepresentazio abstraktu bat esleitzen diote, hitz bakoitza dimentsio gutxitako bektore-espazio batean kodetzen da. Gauzak horrela, eragiketa matematikoen bidez hitzen arteko antzekotasunak eta erlazioak erraz neurtu daitezke. Gainera, bektore-espazio horiek hizkuntza bat baino gehiagorekin lan egiteko aukera ematen dute, eta, ondorioz, ale desberdinen arteko eragiketak ahalbidetzen dituzte.

Mapaketa hau sortzeko neurona-sareak, probabilitate modeloak, zein beste metodo erabili ohi dira.

Hitz zein esaldi embedding-ak metodoen sarrera bezala erabiliz, errendimenduan hobekuntza nabarmenak izan dira hizkuntzaren prozesamenduaren alorretan, besteak beste, sentimenduen analisian eta azterketa sintaktikoan.

Teknikaren garapena[aldatu | aldatu iturburu kodea]

Hizkuntzalaritzan hitz embedding-ak semantika distribuzionalaren ikerketa esparruan aztertzen dira. Testu-corpus erraldoietatik; hots, neurona-sareek, hipotesi distribuzionalean oinarrituta, corpuseko hitz bakoitzari bere esanahiaren errepresentazio abstraktu bat esleitzen diote. Oinarrian, "Hitz baten esanahia haren auzokideen bidez ezagutuko duzu!" Firth-ek esan bezala.

1960ko hamarkadan garatu zen hitzen errepresentazio bektoriala erabiltzearen teknika, informazioa berreskuratzeko bektore-eremu semantikoaren garapenarekin batera. 2000. hamarkadan Bengio et al [1] artikuluaren bidez testuinguruko hitzen errepresentazioen dimentsioak murrizteko "hitzen errepresentazio distribuzionala ikasiz". Alorra garatzen joan zen eta 2010. hamarkadan aurrerapen handiak egin ziren, bektoreen kalitatearen hobekuntza eta ereduen entrenatzeko abiadurari esker.

Ikerkuntza talde asko daude word embedding-en inguruan lanean. 2013. urtean, Google enpresako talde batek, Tomas Mikolov buru,[2] word2vec sortu zuten, inoiz sortu zenik erremintarik azkarrena hitzen errepresentazioak entrenatzeko.

Esanahi-bektoreak[aldatu | aldatu iturburu kodea]

Esanahi-bektoreak (thought vectors ingelesez) word embedding-en luzapen bat dira, zeinen esaldi edo dokumentu guztiaren errepresentazioa diren. N dimentsioz osatutako bektoreak dira, zeinen dimentsio bakoitza ezaugarri abstraktu bat den. Bektore hauek hitzen auzokide guztien ezaugarriak jasotzen dituzte; honi esker, N dimentsiodun bektore-espazioan kokatzen dira, eta hitzen arteko antzekotasun eta ahaidetasunak aztertzea bideratzen du. Ikertzaile askoren arabera hizkuntza naturalaren prozesamenduaren kalitatea hobetuko da honi esker.[3][4]

Erlazio semantiko eta sintaktikoa[aldatu | aldatu iturburu kodea]

Bektore distribuzionalen ezaugarri garrantzitsu bat erlazio semantiko eta sintaktikoen kontserbazioa da. Mikolov et al-ek bektore aritmetikoak erabiliz patroi semantiko eta sintaktikoak erreproduzitzea posible zela baieztatu zuten. Honi esker, harrigarria dirudien arren, eragiketa aritmetikoak erabili daitezke ondorengo erlazioak burutzeko, "Emakumea Gizonari Arreba Anaiari bezala da" bektoreak erabiliz, Arreba - Emakumea + Gizona = Anaia lortuko genuke. Hau oso erabilgarria izan da zuzentzaile automatikoak sortzeko, orainaldiko eta lehenaldiko aditzen arteko erlazioak mantentze baitira.

Aplikazioak[aldatu | aldatu iturburu kodea]

Gaur egun, hizkuntza naturalen prozesamendurako zenbait atazatan aplikatzen dira eredu semantiko distribuzionalak, besteak beste, sentimendu analisia egiteko, hitzen arteko antzekotasunak bilatzeko, informazioaren-erauzketa burutzeko. Zenbait atazatan emaitzak hobetu dira, baina ikertzen dihardute aurretik azaldutako atazen emaitzen mailara heltzeko.

Itzulpen automatikoa[aldatu | aldatu iturburu kodea]

Azken urtean aurrera pausu handia eman da bektore-espazio eleaniztunen inguruan. Hizkuntza desberdinetako word embedding-en arteko linealtasuna ustiatu da. Artikulu desberdinek baieztatu duten bezala, bi hizkuntza desberdinetako ezagutza-baseak hartuz eta bakoitza bere kaxa entrenatu ezkero, bi hizkuntzen esanahi-bektoreen arteko linealtasuna dago.[5] Azken urtea, ildo beretik jarraiki, inon gainbegiratze metodorik gabe, bi hizkuntzen arteko mapaketa ikasten duen eredu proposatu zen.[6] Honi esker, hiztegi murritzekin mapaketa onak egitea posible da, itzulpen automatikoaren arazoetako bat testu-corpusen tamaina izan baita orain arte.

Anbiguotasuna[aldatu | aldatu iturburu kodea]

Hitzen anbiguotasuna hizkuntza naturalen prozesamenduaren erronketako bat da aspaldidanik. 2016. urtean, Iacobacci et al[7], word embedding-ak erabiltzea proposatu zuten hitzen adiera-desanbiguazioa burutzeko. Ikertzaile talde honek ordura arte HAP ezaugarriz soilik osatutako sistemen artearen-egoera hobetzea lortu zuten, erakutsiz word embedding-en ahalmena ataza honetan. Hala eta guztiz ere, esan behar da ez direla lortu beste ataza batzuetan lortu diren emaitzak, eta ikertzaileak hau hobetzeko lanean hari dira gaur egun.

Kanpo loturak[aldatu | aldatu iturburu kodea]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. (Ingelesez)  Bengio, Yoshua; Schwenk, Holger; Senécal, Jean-Sébastien; Morin, Fréderic; Gauvain, Jean-Luc (2006), «Neural Probabilistic Language Models», Innovations in Machine Learning (Springer, Berlin, Heidelberg): 137–186, doi:10.1007/3-540-33486-6_6, ISBN 3540334866, https://link.springer.com/chapter/10.1007/3-540-33486-6_6. Noiz kontsultatua: 2018-02-20  .
  2.   Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013-10-16), «Distributed Representations of Words and Phrases and their Compositionality», arXiv:1310.4546 [cs, stat], http://arxiv.org/abs/1310.4546. Noiz kontsultatua: 2018-02-20  .
  3.   Kiros, Ryan; Zhu, Yukun; Salakhutdinov, Ruslan; Zemel, Richard S.; Torralba, Antonio; Urtasun, Raquel; Fidler, Sanja (2015-06-22), «Skip-Thought Vectors», arXiv:1506.06726 [cs], http://arxiv.org/abs/1506.06726. Noiz kontsultatua: 2018-02-20  .
  4. (Ingelesez)  team, Chris V. Nicholson, Adam Gibson, Skymind, «Thought Vectors, Deep Learning & the Future of AI - Deeplearning4j: Open-source, Distributed Deep Learning for the JVM», deeplearning4j.org, https://deeplearning4j.org/thoughtvectors#thought-vectors-deep-learning--the-future-of-ai. Noiz kontsultatua: 2018-02-21  .
  5.   , http://ai.stanford.edu/~wzou/emnlp2013_ZouSocherCerManning.pdf .
  6.   Artetxe, Mikel; Labaka, Gorka; Agirre, Eneko; Cho, Kyunghyun (2017-10-30), «Unsupervised Neural Machine Translation», arXiv:1710.11041 [cs], http://arxiv.org/abs/1710.11041. Noiz kontsultatua: 2018-02-21  .
  7.   Iacobacci, Ignacio (2016), «Embeddings for Word Sense Disambiguation: An Evaluation Study», aclweb (http://www.aclweb.org), http://www.aclweb.org/anthology/P16-1085 .