Hizketa-ezagutze automatiko

Wikipedia(e)tik
Hizketaren ezagutza» orritik birbideratua)
Hona jo: nabigazioa, Bilatu

Hizketa-ezagutze automatikoa hizketa testu bihurtzeko teknologia da. Hizketaren soinua ordenagailuarengandik onda analogikoetan hartuta izaten da, honek analizatuak eta aztertuak izaten dira, soinuaren unitateak identifikatzeko, hau da hitzak eratzen dituzten fonemak. Produkzioa ona eta kalitatezkoa izateko,lan handia suposatzen du zeren modelo ezberdin ugari batu behar dira eta batze honek jarraitua izan behar da.

Ordenagailuetan erabiltzeko hizkuntza medio arrunta izango bada egunero badaude arazo garrantzitsuak gainditu behar direnak. Lehenengoa da, nola desberdinduko du ordenagailuak hizkuntza kontinua edo hiztunak egindako hizkuntza banatua eta hutsunez betetakoa. Bigarren arazoa, nola desberdindu hiztun ezberdinak, hau da, sistemak ahots desberdinak identifikatzeko prestatzearen beharra. Hirugarren arazo larria da inguruan dagoen zaratak erraz zaildu ahal duela ahotsaren identifikazioa.

Hizkuntza naturalarekin diharduten teknologiak hiru atal nagusitan sailkatzen dira: hizketa testu bihurtzeko teknologiak edo hizketa-ezagutze automatikoa (ASR, Automatic Speech Recognition), testua prozesatzeko teknologiak, eta testua hizketa bihurtzeko teknologiak edo TTS (text-to-speech). ASR eta TTS dira hizketa-teknologien muina, testua prozesatzeko teknologiei datu-sarrera eta -irteera mintzatua ematen baitiete (ikus 1. irudia). ASR eta TTS teknologiez gainera, makinak interpretatze-, ulertze- eta elkarrizketa-osagaiak ere behar ditu erabiltzailearekin interakzio bat sortu ahal izateko; hortaz, ezaguera edo jakintza beharrezko ditu makinak. Hiru teknologiak uztartzen dituen puntako aplikazio bat ahots-ahots itzulpena da (speech-to-speech translation). Halako sistema bat garatzeko, ASR eta TTS moduluez gainera, testuaren itzulpen automatikoa (AMT, Automatic Machine Translation) egiteko modulua baliatzen du makinak, eta hizkuntza batez esandako hitz segida bat ezagutu, automatikoki itzuli eta atzera ahots bihurtzea da haren azken helburua. [1]

Hizketa-ezagutze automatikoa ahoskatutako hitzak makinak irakurtzeko gai diren sarreretan bihurtzen dituzte. “Ahots Ezagutza” terminoa erabiltzen da batzuetan hizketa-ezagutze automatikoari erreferentzia egiteko. Erabilera hori anbiguoa izan daiteke, hiztun-ezagutze automatikoari buruz (hitz egiten ari den pertsona ezagutzeaz), edo esaten ari dena ezagutzeaz?

Hizketa-ezagutze automatikoaren aplikazioen artean hauek aipa daitezke: Ahots-bidezko markaketa telefonoa (ad., “Deitu Etxera”), deien igorpenarako (ad. “Taldeko dei bat egin nahiko nuke”), aplikazio domotikoen kontrola eta audioan oinarritutako edukien bilaketa egiteko (ad., hitz jakin batzuk ahozkatuak izan diren podkast bat bilatu), informazio bakunaren sarreretarako (ad. Kreditu txartel baten erabilera), estrukturatutako dokumentuen prestakuntzarako (ad., irizpen erradiologiakoak), ahoskeratik testurako prozesaketarako (ad., hitz prozesagailua edo e-mailak), eta hegazkinen garlingetan ( normalean Ahots Sarrera Zuzena bezala ezagututa) erabiltzen da.

Historia[aldatu | aldatu iturburu kodea]

Estatu Batuetan Hizketa-ezagutze automatikoaren aplikazio komertzialik ezagunena osasun arreta izan da; eta gehienbat, "medical transcriptionist(MT)"-ena. Industria jakituen arabera, hizketa-ezagutze automatikoa, transkripzioa guztiz ezabatzeko modu bat bezala saldu zen, transkripzio prozesua eraginkorragoa egin ordez, eta horregatik ez zen ontzat hartu. Gainera, ondo erabiltzeko aldaketak egin behar izan ziren lanean. Hizketa-ezagutze automatikoaren mugarik nagusiena softwarearekin konparatzen dela da. Diktaketa narratiboak interpretazio altua eskatzen du gizaki batengandik eskuratua. Beste limitazio bat, erabiltzaileari edo sistemaren hornitzaileari eskatutako denbora handia izan da programa informatikoak sortzerako orduan.

ASR-an askotan egiten den bereizketa "artificial syntax systems" eta "natural language processing" artekoa da. Aplikazio hauetako bakoitzak beraien helburu eta erronka propioak dituzte.

Aplikazioak[aldatu | aldatu iturburu kodea]

Osasunaren arreta[aldatu | aldatu iturburu kodea]

Osasunaren arretan, Hizketa-ezagutze automatikoaren hobekuntzaz geroztik, mediku transkripzinalistak (MT) ez dira zaharkituak geratu oraindik. Materian adituak diren hainbat jakintsuek aurreikusi dute Hizketa-ezagutze automatikoaren bitartez, zerbitzu hauek birbanatuak izan behar direla ordezkatuak izan beharrean.

Hizketa-ezagutze automatikoa bi ataletan banatzen da osasun dokumentazioaren prozesuan, Front-End eta Back-end.

Front-end SR. Arakatutako hitzak hitz egin eta gero azaltzen dira, eta diktadorea da dokumentua editatzeaz eta zinatzeaz arduratzen dena. Inoiz ez doa MT/editor baten bitartez.

Back-end edo diferitu SR da non hornitzaileak edizio digitala ezartzen duen tokia, eta ahotsa Hizketa-ezagutze automatikoko makina batetik pasatzen da eta ezagututako dokumentu hori MT/editorrera doa ahots originalarekin batera, proiektua editatu eta amaitzen duena. Erregistro mediku elektroniko askok aplikazio efektibo izan daitezke eta errestasun handiagoarekin egin daitezke. Kontsultak, bilaketak… azkarrago egin daitezke hizketa-ezagutzeko prozesu baten bitartez teklatuarekin baino.

Militar mundua[aldatu | aldatu iturburu kodea]

Gerrarako hegazkinen errendimendu altua[aldatu | aldatu iturburu kodea]

Azkenengo hamarkadan ahalegin handiak egin dira hizketa-ezagutzea probatzeko eta ebaluatzeko gerrako hegazkinetan. Hizketa-ezagutze automatikoaren programa berezienak hiru herrialdeetan eman dira. Estatu Batuetan , "Advanced Fighter Technology Integration" taldearena da; Frantzian "Mirage" motako hegazkinetan instalatzean, eta Britainia Handian hegazkinen plataformen barietatea adosten diren programetan. Programa hauetan, hizketa-ezagutze automatikoa duten sistemak bikain funtzionatu dute gerra hegazkinetan, eta aplikazio hauek gehitu dituzte: irrati frekuentzi desberdinak erakartzea, autopiloto sistemaren ordenetara egotea, puntu kardinaletan eta parametroetan armak liberatzea eta aire-bisualizatzaileak kontrolatzea. Gehienetan, nahiz eta bokabulario oso mugatua izan, oso ongi erabili da, eta ahalegin handiena hizketa-ezagutze automatikoa hegazkin sisteman integratzea izan da.

Hauek dira programak frogatu osteko ondorio garrantzitsuenak:

  1. Hizketa-ezagutze automatikoa programak pilotuaren lana gutxitu du; hala ere, ez da iraunkorra momentu guztietan.
  2. Ezagutzearen prezisio altua (%95 edo gehiagokoa) faktorerik kritikatuena izan zen, ezagutze-sistema erabilgarria egiteko.
  3. Bokabulario eta gramatika natural gehiago eta formazio gutxiagoa dutenek askotan erabilgarriakoak izango ziren.

Laborategi-ikerketa sendo honek adierazi duenez, hizketa-ezagutze automatikoak militar munduan emaitza onak izan ditu.

JAS-39 Gripem Cabinako suediar pilotuekin lan egiterako orduan, ezagutza hondatua aurkitu zuen G kargen gehikuntzarekin. Ikerketa honek ere kasu guztietako emaitzak hobetzeko balio izan du. Espero zenaren ordez, ez ziren aurkitu zailtasunik pilotuen hizkera etenean, baina honek ezagutze prozesuan arazoak sortu ditu bokabulario mugatuan, eta denaren gainetik, sintaxian.

"Eurofighter Typhoon"-a, orain Britainia Handiko RAF-arekin zerbitzuan, menpeko-bozgoragailu sistema bat erabiltzen du; hau da, pilotu bakoitzak plantilla bat egitea eskatzen duela. Sistema ez da erabiltzen segurtasunerako edo lan kritikoak egiteko, baizik eta kabinaako hainbat funtzio gehiago betetzeko. Sistema, pilotuaren lanaren murrizketa bat bezala ikusten da, eta gainera, pilotuak ahotsaren bitartez aginduak bidali ahal dizkio bere buruari.

Helikopteroak[aldatu | aldatu iturburu kodea]

Ezagutze-prezisio altua lortzeko arazoak ingurumenagatik eta ehizagatik dira. Hala ere, beste arazo batzuk daude helikopteroetako hizketa-ezagutze automatikoan ; hala nola, zarata handia, eta aurpegi maskara bat ez erabiltzea, honek mikrofonoan zarata murrizten duelako. Azkenengo hamarkadan programen frogak egin dira hizketa-ezagutze automatikoan helikoptero sistemen inguruan, bereziki Estatu Batuetako Armadan. Frantzian lan egiteak Puma helikopteroetan hizketa-ezagutzeko sistema sartzea ekarri du; baita Kanadan ere sistema honek emaitzak eman ditu. Emaitzak eragingarriak izan dira, eta ahotsaren aplikazioak hauek izan dira: komunikazio irratien kontrola eta nabegazio sistemen ezarpena.

Trafiko aereoaren kontrolatzaileak[aldatu | aldatu iturburu kodea]

Militarren formakuntzarako, aireko kontrolatzaileak hizketa-ezagutzeko aplikazio egokiak dira. ATC sistema askok pertsona bat behar dute "seudo-piloto" baten moduan jokatzeko eta praktiketako kontroladorearekin hitz egiteko. Hizketa ezagutzeko eta sintesizatzeko teknikak "seudo-pilotoa" ezabatzeko aukera ematen dute. Kontrolaren lanak, aireko trafikoaren irteeraren kontrolatzailearen diskurtso nagusiagatik ezagutzen dira.

Estatu Batuak gertaera serie bat babestu du hizketa-ezagutzearen bitartez. Oro har, doitasunaren azterketa ez dagokio sistema eta ikaslearen arteko elkarrekintzari. Estatu Batuetako marinak, esfortzu handi bat babestu du ATC sistemen eraketan. Ezagutzailea lexikoan mugatuta ikusi arren, programaren helburuetako bat kontrolatzaileei lexiko zabalagoa erakustea izan zen, ATCren eginkizunetarako lexiko berezi bat. Frantzian egindako ikerketa, hizketa-ezagutzearen zabalkuntzan oinarritu da, batez ere gramatikari dagokionari.

USAF-k,USMC-k eta Estatu Batuetako armadak, ATC simuladoreak erabiltzen ari da ahots ezagutzaren bitartez. Software honek ahots ezagutza erabiltzen du airez eta lurrez doazen ibilgailuen kontrolerako sasi-pilotoen beharrik euki gabe.

Telefonoa eta beste menpetasunak[aldatu | aldatu iturburu kodea]

ASR-a telefonoaren esparruan ohikoa bilakatzen ari da eta simulazio nahiz zori-jokoen esparruan gero eta arruntagoa bihurtzen ari da. Konputazio orokor pertsonalean, hitz prozesaketaren integrazioaren maila altuaz aparte, ASR-ak ez du espero zen hazkundea izan dokumentuen produkzioaren esparruan.

Prozesadore mobilak izan duen abiaduraren hobekuntzak, Symbian eta Mobile Smartphones-entzako hitzaldi egokitua posible izatea eragin du. Hizketa-textu ohizko programak luzeegiak dira eta CPU-aren energia gehiegi behar dute Pocket PC-arentzako praktikoak izan daitezen. Hitzaldia, Erabiltzailearen Interfaze bezala erabili ohi da gehienetan, ahots komandu aurrezehaztu edo pertsonalizatuak eratzeko. Esparru honetako software hornitzaile nagusiak hurrengoak dira: Microsoft Corporation (Microsoft Voice Command); Nuance Communications (Nuance Voice Control); Vito Technology (VITO Voice2Go); Speereo Software (Speereo Voice Translator). MyCaption for BlackBerry (http://www.mycaption.com)

Gaigabezidun pertsonak[aldatu | aldatu iturburu kodea]

Gaigabezidun pertsonak Hizketa-ezagutze automatikoaren aplikazio-eremu bat dira. Hau batez ere eskuak erabili ezin edo haiek erabiltzeko arazoak dituzten pertsonentzat dago pentsatuta. Teklatua erabiltzen duten pertsonek eta RSI-a garatu dutenek, hizketa-ezagutzearen merkatu urgentean bilakatu zen. Hizketa-ezagutze automatikoa gorren telefonian erabiltzen da, ahots buzoian, retrasmision eta azpitituluetan kasurako. Minusbaliotasunekin, paperetik ikasteko arazoak dituzten pertsonek, programa honen bidez baliatu al dira haientzako laguntza ona izan baitaiteke.

Hizketa-ezagutze automatikoaaren errendimendua[aldatu | aldatu iturburu kodea]

Hizketa ezagutzeko sistemen funtzionamendua zehaztasun eta abiadura parametroen bidez neurtzen da noramlean. Sistemaren funtzionamenduaren zehaztasuna Hitz Okerren Tasa (Word Error Rate), abiadura berriz Denbora Faktore Errealaren bitartez neurtzen da. Zehaztasunaren beste neurri batzuk Hitz Bakunen Okerren Tasa (Single Word Error Rate) eta Aginduen Arrakasta Tasa (Command Success Rate).

Hizketa ezagutzeko sistemen erabiltzaile askok batera datoz diktaketa makinek kontrolpeko egoeretan funtzionamendu oso egokia dutela esatean. Halaber, badago nolabaiteko desadostasuna Hizketa Ezagutza eta diktaketa terminoen arteko elkartrukean.

Komertzializatuak izan diren hiztunaren menpekoak diren diktaketa sistemek, normalean, entrenamendu aldi laburra behar dute. Gainera, erritmo arruntean eta hiztegi zabal batekin osatutako hizketak atzeman ditzakete. Enpresa gehienek ezagutza softwareak %98 eta %99 arteko zehaztasuna lor dezakete egoera egokietan funtzionatzen badute. “ Egoera egokiak” erabiltzaileek hurrengo jarrerak hartzen dituzte euren gain:

  • Entrenatutako informazioa hizketa ezaugarriekin bat datozela
  • Hiztunek hitz egiteko modu aproposa dutela
  • Zarata gabeko girotan lan egiten dutela.

Honek azaltzen du zergatik erabiltzaile batzuek, azentu gogor bat dutenek esate baterako, zehaztasun tasa txikiagoak lortzen dituzten. Hizketa-ezagutze automatikoa bideoen bitartez ospe handiko bilaketa-teknologia bilakatu da, bideo bilaketa konpainia askok erabilia hain zuzen ere.Hiztegi mugatuko sistemek, entrenamendurik behar ez dutenek, hiztun gehienek erabiltzen dituzten hitz kopuru txikia ezagutu ditzakete. Horrelako sistemak organizazio handietan erabili ohi dira jasotzen dituzten telefono deietarako.

Informazio gehiago[aldatu | aldatu iturburu kodea]

Hizketa-ezagutze automatikozko konferentziak urtero edo egiten dituzte ICASSP, Eurospeech/ICSLP (orain Interspeech bezala ezagututa) eta IEEE ASRU bezalako erakundeek. Hizketa Naturalen Prozesaketaren arloan dauden konferentziak hizketa prozesamenduari buruzko lanak erabiltzen hasi dira. Aldizkari garrantzitsuak IEEE Transactions on Speech and Audio Processing, Computer Speech and Language eta Speech Communication dira. Lawrence Rabinerek idatzitako liburua, Fundamentals of Speech Recognition erabilgarria izan daiteke oinarrizko ezagutza bat lortzeko, baina nahiko zahartuta geratu da gaur egun. Frederick Jelineken Statistical Methods for Speech Recognition beste iturri on bat da arlo honi buruzko informazioa lortzeko, Xuedong Huangen Spoken Language Processing. Oraindik berriagoa Computer Speech da, Manfred R. Schroederek idatzia. Sistema modernoenetan erabilitako teknikak ezagutzeko gobernuek bultzatutako ebaluaziok dira (DARPAk antolatutakoa kasu).

Dohainik dauden iturrien artean, HTK liburua hasiera ona liteke hizketa-ezagutze automatikoari buruz ikasteko eta esperimentatzen hasteko. Carnegie Mellon Universityren SPHINXek presentatzen dituen tresnak iturri onak dira baita ere. AT&T, GRM eta DCD liburutegiak hizketa-ezagute automatikorako hiztegia zabala duten software askeko beste aukera bat dira.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. I., Odriozola, I., Hernaez, E., Navas. Euskara eta Hizketa Teknologiak. BAT Soziolinguistika Aldizkaria, vol. 66, pp. 123-133, 2008. ISSN: 1130-8435.
  • Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007), "Conversational Interface Technologies", in Sears, Andrew; Jacko, Julie A., The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics), Lawrence Erlbaum Associates Inc, ISBN 978-0-8058-5870-9.
  • managing editors Giovanni Battista Varile, Antonio Zampolli. (1997), Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans et al., eds., Survey of the state of the art in human language technology, Cambridge Studies In Natural Language Processing, XII–XIII, Cambridge University Press, ISBN 0-521-59277-1.
  • Junqua, J.-C.; Haton, J.-P. (1995), Robustness in Automatic Speech Recognition: Fundamentals and Applications, Kluwer Academic Publishers, ISBN 978-0-7923-9646-8.

Kanpo loturak[aldatu | aldatu iturburu kodea]