Hizkuntzaren identifikazioa
Hizkuntzaren identifikazioa emandako eduki bati dagokion lengoaia naturala antzematean datza. Tradizionalki, hizkuntzaren identifikazioa lengoaietan ohikoak eta errepikakorrak diren hitz eta letrak aurkitzean oinarritu izan da. Azkenaldian, ordea, hurbilketa konputazionalak erabili dira arazoa ebazteko, hizkuntzaren identifikazioa testuaren kategorizazio bezala kontsideratuz, zeina metodo estatistikoetan oinarritzen den.
Hurbilketa ez konputazionalak
[aldatu | aldatu iturburu kodea]Liburugintzan oso garrantzitsua da hizkuntzaren identifikazioa materiala sailkatzeko. Horren arduradunek sarritan ezagutzen ez duten hizkuntzetan dauden liburuak sailkatu behar izaten dituztenez, lengoaietako hitz eta letra errepikakorrez osatutako taulak erabiltzen dituzte lagungarri. Hitz edo karaktere bakarra antzematea nahikoa izan ez daitekeen arren, metodo hau fidagarriago bihurtzen da horietako hainbat aurkitzen direnean.
Hurbilketa estatistikoak
[aldatu | aldatu iturburu kodea]Emandako testuaren konprimagarritasuna eta ezagutzen diren hizkuntzetan dauden testuen konprimagarritasuna alderatuz erabil daitezke metodo hauek. Hurbilketa hau bata-bestearenganako informazioan oinarritutako distantziaren neurketa bezala ere ezagutu ohi da [1].
Beste teknika bat, Dunning (1994) artikuluan azaltzen dena, hizkuntza bakoitzarentzako hainbat entrenamendu testutan oinarrituz n-grama eredu sorta bat sortzean datza. Beraz, identifikatu nahi den edozein testu atalentzako antzeko eredu bat sortzen da, bi ereduak alderatuz. Gordetako eredu guztien artean antzekotasun gehien duena, testuari dagokion hizkuntzarena izango da.
Honekin lotutako arazo bat hizkuntza ezezagun baten gramatika asmatzean datza, hizkuntza ezagun baten emandako testu paralelo baten bitartez. Arazo hau "Rosetta Stone" bezala ezagutzen da. Kuhnen ACL artikuluak (2004) arazo hau ebazteko teknikak aurkezten ditu [2].
Ikus, gainera
[aldatu | aldatu iturburu kodea]Erreferentziak
[aldatu | aldatu iturburu kodea]- Benedetto, D., E. Caglioti and V. Loreto. Language trees and zipping. Physical Review Letters, 88:4 (2002) [3], [4], [5].
- Cilibrasi, Rudi and Paul M.B. Vitanyi. "Clustering by compression". IEEE Transactions on Information Theory 51(4), April 2005, 1523-1545. [6]
- Dunning, T. (1994) "Statistical Identification of Language". Technical Report MCCS 94-273, New Mexico State University, 1994.
- Goodman, Joshua. (2002) Extended comment on "Language Trees and Zipping". Microsoft Research, Feb 21 2002. (This is a criticism of the data compression in favor of the Naive Bayes method.) [7]
- Poutsma, Arjen. (2001) Applying Monte Carlo techniques to language identification. SmartHaven, Amsterdam. Presented at CLIN 2001.
- The Economist. (2002) "The elements of style: Analysing compressed data leads to impressive results in linguistics [8]
- Survey of the State of the Art in Human Language Technology, (1996), section 8.7 Automatic Language Identification [9]
Kanpo estekak
[aldatu | aldatu iturburu kodea]- (Ingelesez) Hizkuntzaren identifikaziorako tresnak