Edukira joan

Hizlari-ezagutza

Wikipedia, Entziklopedia askea

Hizlari ezagutza hizlari baten ahotsaren ezaugarriei esker pertsona hori identifikatzen saiatzen den teknika da. Normalean, Nor ari da hitz egiten? galderari erantzuteko erabiltzen da ezagutza, pertsona honen identifikazioa kontratatzeko edota egiaztatzeko.

Hizlariaren ezagutza orain dela 40 urte baino gehiago erabiltzen hasi zen eta gizaki bakoitzaren ezaugarri akustikoen ezberdintasunak erabiltzen ditu zorroztasuna lortzeko. Hizlari bakoitzak patroi batzuk jarraitzen ditu hitz egiterakoan, bai anatomiagatik eta bai jokaeragatik.

Informatikako segurtasunaren arloan ere erabilia den teknika da, erabiltzaile bat bereizteko edota hau identifikatzeko, bere hitz egiteko moduaren arabera.

Sistemaren egitura

[aldatu | aldatu iturburu kodea]
Hizlari egitura

Nahiz eta sistema guztiek antzerakoak diren atalak erabili, atal bakoitzak funtzio ezberdinak dituzte. Hizlariaren errekonozimenduren sistema bat bi atalez osatuta dago eta honakoak dira:

Entrenamendua: atal honetan, hizlarien ahotsak eta hitz egiteko modua grabatu, aztertu eta gorde egiten da. Modu honetan, hizlari bakoitza erregistratua izango da eta behin erregistratu ondoren, ezaguna izango da sistemarentzako.

Azterketa (testa): atal honetan aldiz, hizlariaren ahotsa erregistratu egiten da ere, eta datu-basetan gordeta dauden beste ahotsekin konparatzen da. Emaitza moduan, aurretik gordetako ahotsen batekin bat etortzen bada, ahots hori daukan erabiltzailea itzuliko du.

Identifikazioa VS. egiaztapena

[aldatu | aldatu iturburu kodea]

Hizlariaren errekonozimendu teknikaren arlo garrantzitsuenak identifikazioa eta egiaztapena dira. Lokutoreak identitate[1] bat onartzen badu, eta sistemak identifikazio hau berretsi behar baldin badu, hau egiaztapena izango litzateke. Beste alde batetik, sistemak soilik ahots bat jasotzen badu, eta hiztun honen identifikazioa asmatu behar balu, kasu honetan identifikazio-sistema baten inguruan arituko ginateke.

Sistemak egiten duen egiaztapenean, hiztunak sistemari emandako ahotsak dituen ezaugarriak eta sistemak aurretik hiztun horri esleitutako ezaugarriak alderatzen ditu. Erantzuna bitarra izango da, hots, erantzun positiboa (arrakasta) edo erantzun negatiboa (porrota). Egiaztapen-sistema hau, segurtasun arloan erabili ohi da, adibidez, ate bat irekitzeko. 

Identifikazio sistema batean, sistemak ahots bat edo batzuk jasotzen ditu, eta datu-basean biltegiratutako beste ahots batzuekin konparatzen ditu. Konparaketa egin ostean, gehien hurbiltzen diren kasuei puntuazio bat esleitzen die. Kointzidentzia handiena dutenei balio altuagoak esleituko die.

Datu-basean gordeko ditugun datuen bilketa

[aldatu | aldatu iturburu kodea]

Hiztun baten identifikazioa ahotsaren bitartez lortzeko, aurretik ahots batzuen bitartez sistema entrenatu egin behar dugu, beraz, bi kasuetarako, entrenamendu eta testa, garrantzitsua da datuen bilketa. Ahotsak biltegiratu ahal izateko, transduktore akustiko-elektrikoak erabili behar dira, izan ere, ahotsaren soinua uhinen bitartez hedatzen dira, orduan uhin hauen presioa seinale elektriko bihurtzen dituen gailua behar dugu eta hori, transduktorea da.

Hizlari-ezagutzaren aldaerak

[aldatu | aldatu iturburu kodea]

Hizlari-ezagutzaren sistema[2] bakoitzak bi fase ditu: matrikula eta egiaztapena.

  • Matrikulazioan, hiztunaren ahotsa grabatu egiten da eta normalean hainbat ezaugarri ateratzen dira ahots inprimaketa osatzeko.
  • Egiaztapen fasean, hizketa lagin bat aldez aurretik sortutako ahots inprimaketarekin konparatzen da.

Identifikazio sistemetarako, berbak ahots grabazio ugarirekin alderatzen da, bat datozen ala ez zehazteko. Egiaztapen sistemek, aldiz, ahots inprimaketa bakar batekin konparatzen du.

Bi kategoriatan banatzen da: testuaren menpekoa eta testuarekiko independentea.


  • Testu menpeko sistema: matrikulatzeko eta egiaztatzeko testua berdina izan behar du. Galderak ohikoak edota bakarrak izan daitezke hiztun guztietan.
  • Testu independentea duten sistemak: hiztunen identifikaziorako erabiltzen dira batez ere lankidetza gutxi eskatzen baitute. Kasu honetan testua matrikulazioan eta proban desberdina da. Testu independentearen teknologiek matrikulazio eta egiaztapenetan esandakoa konparatzen ez dutenez, egiaztapen aplikazioek ahots bidezko aitorpena ere erabili ohi dute erabiltzaileak zer esan nahi duen zehazteko.


Audio azterketa

Bozgorailuen aitorpena ereduen aitorpen arazoa da. Ahots grabatuak prozesatzeko eta gordetzeko erabiltzen diren hainbat teknologiaren artean[3], maiztasuna kalkulatzea, ezkutuko Markov ereduak, Gaussiako nahasketa ereduak, patroiak bat datozen algoritmoak, sare neuralak, irudikapen matrizialak, kuantifikazio bektoriala eta erabaki-zuhaitzak daude.

Ahots grabatuen kontrako hitzak alderatzeko, kosinuen antzekotasunak bezalako oinarrizko metodoak erabiltzen dira, sinpletasunagatik eta errendimenduagatik..

Ingurunean dagoen zarataren mailak hasierako eta ondorengo ahots laginen bildumak oztopatu ditzake. Zarata murrizteko eta zehaztasuna hobetzeko algoritmoak [4]erabil daitezke, baina aplikazio okerrak kontrako efektua izan dezake.

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. (Gaztelaniaz) Reconocimiento de locutores. 2020-02-07 (Noiz kontsultatua: 2020-04-23).
  2. «Speaker Recognition - an overview | ScienceDirect Topics» www.sciencedirect.com (Noiz kontsultatua: 2020-04-23).
  3. (Ingelesez) Knagg, Oscar. (2018-10-03). «Building a Speaker Identification System from Scratch with Deep Learning» Medium (Noiz kontsultatua: 2020-04-23).
  4. Hansson, M.; Salomonsson, G.. (1997-03). «A multiple window method for estimation of peaked spectra» IEEE Transactions on Signal Processing 45 (3): 778–781.  doi:10.1109/78.558503. ISSN 1053-587X. (Noiz kontsultatua: 2020-04-23).