BERT (hizkuntz eredua)

BERT teknika, Google-k Hizkuntzaren prozesamendurako garatu duen aurre-entrenatutako teknika bat da. Honela ere esatenzaio: Bidirectional Encoder Representations from Transformers, edo transformerretarako kodeketa bidirekzionalen errepresentazioa. BERT 2018an sortu eta argitaratu zuen Jacob Devlin-ek Googleko bere lankideekin.^[1]^[2] Googlek BERT aprobetxatzen du erabiltzaileen bilaketak hobeto ulertzeko. ^[3]

Hasieran garatu zuten ingelesezko BERT eredua bi testu corpus huts baino ez zituen erabiltzen aurre-prestakuntzan: BookCorpus eta ingelesezko Wikipedia.^[1]

Azkenaldian euskararekin aplikatuta ere emaitza onak lortu dira.^[4]^[5]

Emaitzak[aldatu | aldatu iturburu kodea]

BERT argitaratu zenean, punta-puntako emaitzak lortu zituen hizkuntza prozesatzeko hainbat zereginetan:^[1]

GLUE (Hizkuntza Orokorra Ulertzeko Ebaluazioa, GLUE) ataza-multzoa (9 zereginekin osatuta)
SQuAD (Stanford Question Answering Dataset) v1.1 eta v2.0.
SWAG (Situations With Adversarial Generations. kontrako sorkuntzadun egoerak)

BERT ereduak euskararako eta baliabide gutxiko hizkuntzetarako[aldatu | aldatu iturburu kodea]

Hitz-bektoreek (word embedding-ek) eta aurrez entrenatutako hizkuntza-ereduek testu-errepresentazio aberatsetan hobekuntzak egiteko aukera ematen dute, eta hori gero hizkuntzaren prozesamenduko atazetan emaitza hobeak lortzeko ere aukera eman dute. Baina, zoritxarrez, oso garestiak dira entrenatzeko, eta enpresa txiki eta ikerketa-talde askok hirugarrenek aurrez entrenatutako eta eskura jarritako ereduak erabiltzen dituzte, berena eraiki beharrean. Bestalde, hizkuntza askotarako ereduak enpresa txikiagoetan (edo kalitate txikiagokoetan) entrenatu dira. Baina ingelesa ez diren hizkuntzetarako aurrez entrenatutako eredu elebakarrak ez daude beti eskuragarri. Kasurik onenean, hizkuntza horietako ereduak bertsio eleaniztunetan sartzen dira, non hizkuntza bakoitzak gainerako hizkuntzekin partekatzen baititu azpikateen eta parametroen kantitateak, bereziki hizkuntza txikiagoetan, hala nola euskararen kasuan.

2020ko neguan euskarazko corpus elebakar handiagoekin entrenatutako eredu batzuk (FastText word embedding-ak, FLAIR eta BERT hizkuntz ereduak) sortu ziren eta askoz emaitza hobeak dituzte hizkuntzaren prozesamenduko zereginetan publikoki eskuragarri dauden aipatu beste bertsio horiek baino. Emaitza hobeak lortzen dituzte gai-sailkapenean, sentimendu-sailkapenean, baita hitzen kategoriak eta entitateak etiketatzerakoan. Erabilitako eredu guztiak eskuragarri daude publikoki.^[6]^[4]

Analisia[aldatu | aldatu iturburu kodea]

BERTek hizkuntza ulertzeko atazetan lortzen dituen emaitza bikainak nola eta zergatik lortzen dituen oraindik ez da ondo ulertzen.^[7]^[8] Oraingo ikerketetan BERTen irteeraren atzean dagoen hainbat elementuren arteko erlazioa aztertzen ari da: kontuz aukeratutako sarrera-sekuentziak,^[9]^[10] sailkatzaileen bidezko bektoreen barne-errepresentazioa^[11]^[12] eta arretaren (attention) pisuek errepresentatzen dituzten erlazioak.^[7]^[8]

Historia[aldatu | aldatu iturburu kodea]

BERTek aurrez entrenatutako testuinguru-errepresentaziotan ditu jatorria: erdi gainbegiratutako sekuentzia-ikasketa,^[13] aurre-entrenamendu sortzailea, ELMo,^[14] eta ULMFit.^[15] Aurreko ereduak ez bezala, BERT sakonki bidirekzionala den hizkuntz errepresentazio gainbegiratugabea da, aurrez entrenatuta dago baina testu-corpus hutsa soilik erabiliz. Testuingururik gabeko ereduek, word2vec edo GloVe esaterako, hiztegiko hitz bakoitzerako errepresentazio-kapsulatu bat (word embedding) sortzen dute; horiekin konparatuta BERT oso bidirekzionala da.

2019ko urriaren 25ean, Google Search-ek iragarri zuen hasia zela AEBn BERT ereduak aplikatzen ingelesezko bilaketa-kontsultetan.^[3] 2019ko abenduaren 9an jakinarazi zuen Google Search-ek 70 hizkuntzatan BERT erabiltzen zuela.^[16]

Errekonozimendua[aldatu | aldatu iturburu kodea]

BERTek paper luze onenaren saria irabazi zuen Association for Linguistics Linguistics (NAACL) Ipar Amerikako kapituluaren 2019ko urteko biltzarrean. ^[17]

Erreferentziak[aldatu | aldatu iturburu kodea]

↑ ^a ^b ^c Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. (2019-05-24). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding» arXiv:1810.04805 [cs] (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing» Google AI Blog (Noiz kontsultatua: 2020-06-09).
↑ ^a ^b (Ingelesez) «Understanding searches better than ever before» Google 2019-10-25 (Noiz kontsultatua: 2020-06-09).
↑ ^a ^b (Ingelesez) Agerri, Rodrigo; San Vicente, Iñaki; Campos, Jon Ander; Barrena, Ander; Saralegi, Xabier; Soroa, Aitor; Agirre, Eneko. (2020). «Give your Text Representation Models some Love: the Case for Basque» arXiv:2004.00033 [cs] (Noiz kontsultatua: 2020-06-09).
↑ «Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-09-28).
↑ IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat! – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-05).
↑ ^a ^b Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna. (2019-11). «Revealing the Dark Secrets of BERT» Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (Association for Computational Linguistics): 4365–4374. doi:10.18653/v1/D19-1445. (Noiz kontsultatua: 2020-06-09).
↑ ^a ^b Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D.. (2019-08). «What Does BERT Look at? An Analysis of BERT's Attention» Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 276–286. doi:10.18653/v1/W19-4828. (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan. (2018). «Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context» Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Association for Computational Linguistics): 284–294. doi:10.18653/v1/P18-1027. (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco. (2018). «Colorless Green Recurrent Networks Dream Hierarchically» Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (Association for Computational Linguistics): 1195–1205. doi:10.18653/v1/N18-1108. (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem. (2018). «Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information» Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 240–248. doi:10.18653/v1/W18-5426. (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) Zhang, Kelly; Bowman, Samuel. (2018). «Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis» Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 359–361. doi:10.18653/v1/W18-5448. (Noiz kontsultatua: 2020-06-09).
↑ Dai, Andrew M.; Le, Quoc V.. (2015-11-04). «Semi-supervised Sequence Learning» arXiv:1511.01432 [cs] (Noiz kontsultatua: 2020-06-09).
↑ Peters, Matthew E.; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Zettlemoyer, Luke. (2018-03-22). «Deep contextualized word representations» arXiv:1802.05365 [cs] (Noiz kontsultatua: 2020-06-09).
↑ Howard, Jeremy; Ruder, Sebastian. (2018-05-23). «Universal Language Model Fine-tuning for Text Classification» arXiv:1801.06146 [cs, stat] (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) 456shares; 11kreads. (2019-12-10). «Google's BERT Rolls Out Worldwide» Search Engine Journal (Noiz kontsultatua: 2020-06-09).
↑ (Ingelesez) Co-Chairs, Program. (2019-04-10). «Best Paper Awards» NAACL-HLT 2019 (Noiz kontsultatua: 2020-06-09).

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]

GitHub biltegi ofiziala

Datuak: Q61726893
Multimedia: BERT / Q61726893

[:0-1] Devlin, Jacob; Chang, Ming-Wei; Lee, Kenton; Toutanova, Kristina. (2019-05-24). «BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding» arXiv:1810.04805 [cs] (Noiz kontsultatua: 2020-06-09).

[2] (Ingelesez) «Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing» Google AI Blog (Noiz kontsultatua: 2020-06-09).

[#1-3] (Ingelesez) «Understanding searches better than ever before» Google 2019-10-25 (Noiz kontsultatua: 2020-06-09).

[:3-4] (Ingelesez) Agerri, Rodrigo; San Vicente, Iñaki; Campos, Jon Ander; Barrena, Ander; Saralegi, Xabier; Soroa, Aitor; Agirre, Eneko. (2020). «Give your Text Representation Models some Love: the Case for Basque» arXiv:2004.00033 [cs] (Noiz kontsultatua: 2020-06-09).

[5] «Conversational Question Answering in Low Resource Scenarios: A Dataset and Case Study for Basque | Ixa taldea» ixa.si.ehu.eus (Noiz kontsultatua: 2020-09-28).

[6] IXAmBERT: Berri onak baliabide gutxiko hizkuntzentzat! – Hizkuntza-teknologiak. (Noiz kontsultatua: 2020-10-05).

[:1-7] Kovaleva, Olga; Romanov, Alexey; Rogers, Anna; Rumshisky, Anna. (2019-11). «Revealing the Dark Secrets of BERT» Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP) (Association for Computational Linguistics): 4365–4374. doi:10.18653/v1/D19-1445. (Noiz kontsultatua: 2020-06-09).

[:2-8] Clark, Kevin; Khandelwal, Urvashi; Levy, Omer; Manning, Christopher D.. (2019-08). «What Does BERT Look at? An Analysis of BERT's Attention» Proceedings of the 2019 ACL Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 276–286. doi:10.18653/v1/W19-4828. (Noiz kontsultatua: 2020-06-09).

[9] (Ingelesez) Khandelwal, Urvashi; He, He; Qi, Peng; Jurafsky, Dan. (2018). «Sharp Nearby, Fuzzy Far Away: How Neural Language Models Use Context» Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Association for Computational Linguistics): 284–294. doi:10.18653/v1/P18-1027. (Noiz kontsultatua: 2020-06-09).

[10] (Ingelesez) Gulordava, Kristina; Bojanowski, Piotr; Grave, Edouard; Linzen, Tal; Baroni, Marco. (2018). «Colorless Green Recurrent Networks Dream Hierarchically» Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers) (Association for Computational Linguistics): 1195–1205. doi:10.18653/v1/N18-1108. (Noiz kontsultatua: 2020-06-09).

[11] (Ingelesez) Giulianelli, Mario; Harding, Jack; Mohnert, Florian; Hupkes, Dieuwke; Zuidema, Willem. (2018). «Under the Hood: Using Diagnostic Classifiers to Investigate and Improve how Language Models Track Agreement Information» Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 240–248. doi:10.18653/v1/W18-5426. (Noiz kontsultatua: 2020-06-09).

[12] (Ingelesez) Zhang, Kelly; Bowman, Samuel. (2018). «Language Modeling Teaches You More than Translation Does: Lessons Learned Through Auxiliary Syntactic Task Analysis» Proceedings of the 2018 EMNLP Workshop BlackboxNLP: Analyzing and Interpreting Neural Networks for NLP (Association for Computational Linguistics): 359–361. doi:10.18653/v1/W18-5448. (Noiz kontsultatua: 2020-06-09).

[13] Dai, Andrew M.; Le, Quoc V.. (2015-11-04). «Semi-supervised Sequence Learning» arXiv:1511.01432 [cs] (Noiz kontsultatua: 2020-06-09).

[14] Peters, Matthew E.; Neumann, Mark; Iyyer, Mohit; Gardner, Matt; Clark, Christopher; Lee, Kenton; Zettlemoyer, Luke. (2018-03-22). «Deep contextualized word representations» arXiv:1802.05365 [cs] (Noiz kontsultatua: 2020-06-09).

[15] Howard, Jeremy; Ruder, Sebastian. (2018-05-23). «Universal Language Model Fine-tuning for Text Classification» arXiv:1801.06146 [cs, stat] (Noiz kontsultatua: 2020-06-09).

[16] (Ingelesez) 456shares; 11kreads. (2019-12-10). «Google's BERT Rolls Out Worldwide» Search Engine Journal (Noiz kontsultatua: 2020-06-09).

[17] (Ingelesez) Co-Chairs, Program. (2019-04-10). «Best Paper Awards» NAACL-HLT 2019 (Noiz kontsultatua: 2020-06-09).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]