Ahotsaren ezagupena

Wikipedia, Entziklopedia askea
Hona jauzi: nabigazioa, Bilatu

Ahotsaren teknologia honek ahozko hizkuntzaren ezagutza eta honen testu transformazioa jorratzen ditu. Teknologia hau ahots indibiduala ezagutzeko prestatuta dauden sistemek egiten duten diktaketa jarraia eta oso zehatzetik, domeinu berezietan eta edozein erabiltzailerekin lan egiten duten sistemetaraino hedatzen da.

Ahotsaren Ezagupenaren helburu nagusia mintzatutako aginduen bidez gizaki-makina elkarrekintza egokia proportzionatzea da. Horrela, teknologia honek proportzionatzen dituen emaitzak beste alternatibetatik (teklatu, panel, sagua, etab.) eratorritakoekin kontrastatu beharko dira gizaki-makina elkarrekintzaren prozesuaren kontrol egokia proportzionatzen dutenentz jakiteko. Ahotsaren Ezagupenean oinarritutako sistemak eta beste alternatibak ezberdintzen dituzten ezaugarri nagusiak hauexek dira: komando eta kontrol operazioetan hizketa erabiltzeak suposatzen duen naturaltasuna, eta zehaztasuna eta sendotasuna erabiltzaile eta inguru ezberdinentzako komunikazioan. Lehenengo ezaugarriak Ahotsaren Teknologian oinarritutako sistemen berezko abantaila errepresentatu beharko luke. Baina esperientziak erakutsi digu, hizketa pertsonen arteko komunikazio modu naturala bada ere, gizaki-makina arteko elkarrizketan ez dela legezkoa. Bigarren ezaugarria Ahotsaren Ezagupenaren aplikazioen aurrean kritikoagoa agertzen da. Ahotsaren Ezagupenaren inguruan egindako ikerketen gaurregungo egoerak laborategiek kontrolatutako inguruetan aritzen diren sistemen emaitza ezin hobeak eman ditu. Hala eta guztiz ere, teknologia honen aplikazio erreal batek exigitzen du funtzionamendu bat mundu errealean, non arazoen zailtasun maila garrantzi handiagoko kontua da.

Aplikazio erreal bat bilatzeko premisa hori dela eta, gizaki-makina arteko elkarrizketarako Ahotsaren Ezagupenak proposatzen duen komunikazio modelo generikoa honela adierazi daiteke modu erraz batean:


Ahozko Ezagupenerako komunikazio modelo generikoa[aldatu | aldatu iturburu kodea]

Diagrama honetan, datu-base baten bildutako informaziorako sarrera erabiltzaileak bidalitako ahozko mezu baten ekoizpenarekin hasten da, baina hizketa estilo mugatu bat erabiliz. Ahozko seinaletik hasita, unitate linguistiko (hitzak, fonemak, silabak, etab.) ezberdinei elkartutako patroien ezagupenean oinarritutako klasifikazio prozesu batek komunikazio interfaz bateri permititzen dio erabiltzaileak eskatutako informazioa datu-basetik ateratzea.

Lan eremu nagusiak[aldatu | aldatu iturburu kodea]

Ahotsaren Ezagupen sistemen espezifikazioan eta diseinuan parte hartzen duten lan eremu nagusiak:

  • Ahozko seinalearen prozesua
  • Patroien ezagupenerako teknikak
  • Hizketa estilo ezberdinak
  • Mintzalariarekiko menpekotasuna
  • Hiztegiarekiko menpekotasuna
  • Ezagupenerako gramatikak

Ahozko seinalearen prozesua.[aldatu | aldatu iturburu kodea]

Ezagutzaile batek egin beharreko lehenengo gauza sisteman sartuko den ahozko seinalea prozesatzea da, guk egin behar dugun zereginerako nabarmena den informazio akustikoa erauzteko helburuarekin.

Patroien ezagupenerako teknikak.[aldatu | aldatu iturburu kodea]

Patroien ezagupena ezagupen sistema guztien teknika zehatzena da. Modulu honek, ahotsaren errepresentazio parametrikotik hasita, klasifikazio prozesu bat egiten du patroi multzo bat erabiliz. Patroi hauek sistemaren entrenamendu fase batetik lortzen dira eta unitate linguistiko (hitzak, silabak, soinuak, fonemak) multzo bat agertzen dute. Prozesu honen berezitasun handiena, zeinak bere zailtasuna azpimarratzen duen, ahotsaren abiadurek edota modu ezberdinek ekoiztutako unitate linguistiko batek aurkeztu dezakeen barietate denborala da. Hori dela eta, patroien ezagupenerako erabilitako lehenengo teknikak Programazio Dinamikoko algoritmoen bidezko Lerrokadura Denboralean (DTW teknikak) oinarritutakoak izan ziren. Geroago iraupen aldakorreko sekuentziak adierazteko prozesu estokastikoen modelaketak permititzen duen malgutasun handienari heldu egin zitzaion. DTW tekniken alternatiba zehazki Markov -n Modelo Ezkutuak (HMM) izan ziren. Gaur egun Sare Neuronalek (Redes Neuronales) erakutsitako potentziak eta klasifikaziorako kapazitate ezin hobeek bihurtzen dute hauek HMM -ren alternatiba posiblea.

Hizketa estilo ezberdinak.[aldatu | aldatu iturburu kodea]

Ezagupen sistema baten aurrean hitz egiteko funtsezko hiru modu bereizten dira:

  • Hitz isolatuak: Erabiltzaileak ahoskatzen du hitz bakar bat zeina sistemak ezagutu beharko duen.
  • Hizketa lotua: Erabiltzaileak era jariakorrean mezu bat ahoskatzen du hiztegi oso mugatu bat erabiliz.
  • Hizketa jarraia: Esaldien ahoskera modu naturalean hiztegi zabal batentzat.

Arestian aipatutako funtsezko hiru moduez gain, ahotsaren ezagutzaileek, hizketaren modelaketa indartsu bat egin ahal izateko, hurrengo hiru aspektuei aurre egin behar diete:

  • Testuinguruko ezagupena edo word spotting: Hitz isolatuen ezagupenean bereziki erabiltzen den teknika honek beste hitz edo ahoskeren testuinguruan ezagutuko diren hiztegiko hitzen presentzia detektatzea du helburu. Gehienetan testuingurua erabiltzaileak hitz isolatu bakar baten ahoskerari egokitzeko aurkitzen duen zailtasunaren emaitza da. Beste batzuetan, testuinguruan egiten den ezagupena da konponbide egokia akustikoki kontrakoak diren giroetan ezagupena sendotzeko.
  • Ukapena: Soinu ez desiragarrien (zaratak, hiztegitik kanpo dauden soinu edo hitzak) presentziaren beste efektu bat benetan ahoskatu ez diren hitzen ezagupena eragitea da. Ukapen tekniken helburua soinu ez desiragarri horien identifikazioa ezagupenaren emaitzen artean sartzen uztea da. Ezagupen sistema baten eraginkortasunari begira, garrantzi handiko arazo baten aurrean aurkitzen gara.
  • Hainbat hautagai: Ezagutzaile batek egiten duen patroien ezagupenaren prozesua ezagututako hitz edo hitzen sekuentzia onena zein den erabakitzeko puntuazio altuena eskaintzen duen patroiaren identifikazioan oinarritzen da. Prozesu hau informazio akustikoan soilik oinarritzen da, kontutan hartu gabe hautagai dauden hitz edo hitz sekuentzia ezberdinen puntuazioak kontenplatzeko erabil zitezkeen beste ezagutza-iturri posibleak. Kasu gehienetan, ezagutzailea dagoen aplikazioa hainbat ezagupen hipotesien artean beharrezko informazioa aukeratzea baimenduko duena da. Ezagutzaile bati ezagupenaren N hipotesia maneiatzeko malgutasuna edukitzea permititzen dioten prozedurak N-best deitzen dira.

Mintzalariarekiko menpekotasuna.[aldatu | aldatu iturburu kodea]

Mintzalariaren menpekotasun mailak zehazten du sistemak mintzalari mugatu bati egokitutako unitate linguistikoen patroiak eransten dituen eta, beraz, berarentzat bakarrik funtzionatuko du zuzenki, edo patroiek edozein hiztunentzat baliogarri izatea nahi baldin baduten. Lehenengo kasuan mintzalariaren menpeko ezagupenaz hitz egiten da, bigarrenean mintzalariarengandik independentea den ezagupenaz.

Hiztegiarekiko menpekotasuna.[aldatu | aldatu iturburu kodea]

Ezagutzaile baten prestamenak hiztegiaren tamaina eta zailtasun mailaren menpean daude neurri handi baten. Hau da, sistemak ezagutu dezakeen hitz kopuruaren eta hauen ezagupenaren zailtasun handiago edo txikiagoaren menpe hitzen arteko antzekotasun fonetikoaren arabera. Gaur egun hiztegi txiki (50 hitz baino gutxiago), ertain (50etik 500erainoko bitarteko hitzak) zein handietarako (500 hitz baino gehiago) sistemak diseinatzen dira.

Hiztegiaren beste dimentsio garrantzitsu bat hiztegi finko eta malguen arteko bereizgarritasunari dagokiona da. Aplikazio zehatz bat, ezagupena egiten ari denean, beti hiztegi finko baten gainean arituko da. Baina kasu askotan hiztegi hori aldatu edo gaurkotu egin beharko da hitz berriak ezabatu edota sartzeko. Tradizionalki, hiztegiaren aldakuntza batek sistemaren patroien berrantolaketa eta datu-base berri bat biltzeko prozesu luze eta neketsu bat hastea suposatzen zuen. Gaur egun badaude hainbat hurbilketa hiztegi malgua duen sistema bat lortzeko, zeinak ez baitu behar berrantolaketa hiztegi berri bakoitzarentzat.

Ezagupenerako gramatikak.[aldatu | aldatu iturburu kodea]

Hiztegiko hitzak gehiagotu egiten diren heinean, konbinazio posibleak ere hazi egiten dira modu esponentzialean. Horregatik, ezinbestekoa bihurtzen da murrizketak barneratzea. Murrizketa horiek arau sintaktiko eta semantikoetan oinarritutako gramatikak dira eta hitz kopurua murriztea dute helburu.

Eginkizun zehatz batek suposatzen duen zailtasun maila mugatzeko erabiltzen den neurriari harridura (perplejidad) esaten zaio. Beraz, harridura maila baxu batek hautagai dauden hitz kopurua ere baxua dela adierazten du, eta harridura maila altu batek kopurua altua dela eta hortaz, ezagupena zailagoa izango da.

Ahozko Ezagupen sistema nagusiak[aldatu | aldatu iturburu kodea]

80. hamarkadaren hasieran Estatu Batuetako hamar konpainia baino gehiagok mintzalariaren menpeko hitz isolatuentzako ezagutzaileak eskaintzen zituzten, zeinek 300 hitzez osotutako hiztegiak zeuzkaten. VERBEX eta NEC enpresek bakarrik mintzalariarengandik independentea den eta hitz lotuak ezagutu ditzakeen sistema bat eskaintzen zuten. Momentu horretan Ahotsaren Ezagupenaren egoera honela laburbildu daiteke:

  • Mintzalariaren menpeko hitz isolatuentzako ezagutzaileak teknologia nagusia bezala.
  • Mintzalariarengandik independenteak diren ezagutzaileak eta hitz lotuen ezagutzaileak teknologia berriak bezala.

Beste alde batetik, banda - zabalean (ancho de banda) zeuden mugak eta zarataren aurreko sentsibilitatea zirela eta, hauetariko ezagutzaile batzuk bakarrik lan egiten zuten sare telefonikoaren gainean. Garai honetan telekomunikazioen esparruaren barneko Ahotsaren Ezagupenaren hiru aplikazio bakarrik aurkitzen ditugu literaturan:

  • Mintzalariarengandik independenteak diren hitz isolatuentzako ezagutzaileen bi prototipo, sare pribatuan ahotsaren bidezko markazioa egiteko eta hitzen ezagupenerako.
  • Mintzalariaren menpekoa den hitz isolatuentzako ezagutzaile bat ahots bidezko telefono zenbakien markazioari aplikatuta.

Azken hamar urteetan zehar Ahotsaren Ezagupenaren gainean egindako ikerketen ondorioz, asko dira gaur egun mintzalariarengandik independenteak diren hitz isolatuentzako (digituak eta komando kopuru txiki bat) ezagutzaileak dauzkaten konpainiak. Sistema hauek, gehienbat, telekomunikazio aplikazioetan erabiltzeko diseinatuta daude.

Etorkizun handiena daukaten ezagupen-sistemen bilakaera, hiztegi handietarako ezagupenak eta hizketa jarraiak, hurrengo sistema esperimentalak dauzkate errepresentatzaile onenak bezala:

BYBLOS[aldatu | aldatu iturburu kodea]

BBN -k garatuta. Byblos feniziar hiri baten izena da, non eskritura fonetikoaren lehenengo aztarna aurkitu zen. Izendapen honek oinarri fonetiko baten gainean sistemak garatzeko gaur egun ipintzen den gogoa azpimarratzen du. Sistema honek, mintzalariaren menpeko sistema bat izan arren, N-best algoritmoetan oinarritutako ezagupen azkarra egiten duen prozedura berri eta eraginkor bat sortarazi du.

TANGORA[aldatu | aldatu iturburu kodea]

IBM -n garatuta. Hau ere hiztegi handietarako mintzalariaren menpeko sistema bat da. Bere interes printzipala da 1200 hitzez osotutako 100 esaldi irakurtzeko 20 minutu besterik ez behar duen dituen mintzalari berri batekiko egokitutako prozesua.

SPHINX - II[aldatu | aldatu iturburu kodea]

Carnegie-Mellon Unibertsitatean (CMU) garatuta. Hiztegi handietarako mintzalariarengandik independentea den ezagupen-sistema aitzindari bat da. Bere arestiko berrikuntza VOCIND prozedura da, zeinak sistema egiten duen hiztegitik independentea.

LINCOLN[aldatu | aldatu iturburu kodea]

Lincoln laborategian garatuta. Bere emaitza printzipala ahots azkarreko modelaketa da.

DECIPHER SRI[aldatu | aldatu iturburu kodea]

SRI International -ean garatuta. Bere berrikuntza printzipala garrantzizko aspektu fonetikoek (hitzen arteko koartikulazioa, besteak beste) zehaztutako errepresentazioa izan zen.

ATR HMM - LR ATR[aldatu | aldatu iturburu kodea]

ATR -n garatutako sistema japoniar hau fonema edo hitz modeloen bitarteko egiturarik erabiltzen ez duten soinuen modelaketaren prozedura zehatzean oinarrituta dago.

CSELT[aldatu | aldatu iturburu kodea]

Izen berbera daukan zentru italiarrean garatutako sistema honen berrikuntza printzipala bilakuntza azkarra egiten duen sistema bat da. Bilakuntza azkar honek lehenengo eta behin deszifraketa sinple eta azkar bat egiten du eta gero bilaketa zehatzago bat.

PHILIPS[aldatu | aldatu iturburu kodea]

Izen bereko enpresak garatutako sistema honek hizketa jarrairako ezagupen prozesu azkarra eta 10.000 hitzetako hiztegi berria dauzka.

AT&T -k eta Bell Northern Research[aldatu | aldatu iturburu kodea]

AT&T -k eta Bell Northern Research -k (BNR) egindako sistema telefonikoak. Sistema biek zerbitzu telefonikoen automatizazio-aplikazioetarako prozedura zehatzak dauzkate.

Ikus, gainera[aldatu | aldatu iturburu kodea]

Hizketaren ezagutza