Hizketaren ezagutza

Wikipedia(e)tik
Hona jo: nabigazioa, Bilatu

Hizketaren ezagutza hizkuntzaren hotsa ordenagailuarengandik onda analogikoetan hartuta izaten da, honek analizatuak eta aztertuak izaten dira, soinuaren unitateak identifikatzeko, hau da hitzak eratzen dituzten fonemak. Produkzioa ona eta kalitatezkoa izateko,lan handia suposatzen du zeren modelo ezberdin ugari batu behar dira eta batze honek jarraitua izan behar da.

Ordenagailuetan erabiltzeko hizkuntza medio arrunta izango bada egunero badaude arazo garrantzitsuak gainditu behar direnak. Lehenengoa da, nola desberdinduko du ordenagailuak hizkuntza kontinua edo hiztunak egindako hizkuntza banatua eta hutsunez betetakoa. Bigarren arazoa, nola desberdindu hiztun ezberdinak, hau da, sistemak ahots desberdinak identifikatzeko prestatzearen beharra. Hirugarren arazo larria da inguruan dagoen zaratak erraz zaildu ahal duela ahotsaren identifikazioa.

Hizketa Ezagutza (Hizketa Ezagutza Automatikoa edo Konputadore Hizketa Ezagutza bezala ezagutzen dena ere bai) ahozkatutako hitzak makinak irakurtzeko gai diren sarreretan bihurtzen dituzte. “Ahots Ezagutza” terminoa askotan txarto erabiltzen da Hizketa Ezagutzari erreferentzia egiteko. Hiztunaren ezagutzari buruz deritzogunean hitz egiten ari den pertsonaren ezagutzaz ari gara, esaten ari denarekin alderatuz. Halaber, Hizketa Ezagutza sistemak erabiltzen duten kazetari eta aparatu sortzaileek askotan Ahots Ezagutza terminoa erabiltzen dute Hizketa Ezagutza esan nahi dutenean.

Hizkuntza ezagutza aplikazioak ahotz markaketarako (ad., “Deitu Etxera”), deien igorpenarako (ad. “Taldeko dei bat egin nahiko nuke”), aplikazio domotikoen kontrola eta audioan oinarritutako edukien bilaketa egiteko(ad., hitz jakin batzuk ahozkatuak izan diren podkast bat bilatu), informazio bakunaren sarreretarako (ad. Kreditu txartel baten erabilera), estrukturatutako dokumentuen prestakuntzarako (ad., irizpen erradiologiakoak), ahozkeratik testurako prozesaketarako (ad., hitz prozesagailua edo e-mailak) , eta hegazkinen garlingetan ( normalean Ahots Sarrera Zuzena bezala ezagututa) erabiltzen da.

Eduki-taula

[aldatu] Historia

Estatu Batuetan hizketa ezagutzaren aplikazio komertzialik ezagunena osasun arreta izan da; eta gehienbat, "medical transcriptionist(MT)"-ena. Industria jakituen arabera, ahots ezagutza, traskripzioa guztiz ezabatzeko modu bat bezala saldu zen, transkripzio prozesua eraginkorragoa egin ordez, eta horregatik ez zen ontzat hartu. Gainera, ondo erabiltzeko aldaketak egin behar izan ziren lanean. Ahots ezagutzaren limitaziorik nagusiena softwarearekin konparatzen dela da. Diktaketa narratiboak interpretazio altua eskatzen du gizaki batengandik eskuratua. Beste limitazio bat, erabiltzaileari edo sistemaren hornitzaileari eskatutako denbora handia izan da programa informatikoak sortzerako orduan.

ASR-an askotan egiten den bereizketa "artificial syntax systems" eta "natural language processing" artekoa da. Aplikazio hauetako bakoitzak beraien helburu eta erronka propioak dituzte.

[aldatu] Aplikazioak

[aldatu] Osasunaren arreta

Osasunaren arretan, teknologien hizketaren ezagutzaren hobekuntzaz geroztik, mediku transkripzinalistak (MT) ez dira zaharkituak geratu oraindik. Materian adituak diren hainbat jakintsuek aurreikusi dute ahots ezagutzaren bitartez, zerbitzu hauek birbanatuak izan behar direla ordezkatuak izan beharrean.

Ahots ezagutza bi ataletan banantzen da osasun dokumentazioaren prozesuan, Front-End eta Back-end.

Front-end SR. Arakatutako hitzak hitz egin eta gero azaltzen dira, eta diktadorea da dokumentua editatzeaz eta zinatzeaz arduratzen dena. Inoiz ez doa MT/editor baten bitartez.

Back-end edo diferitu SR da non hornitzaileak edizio digitala ezartzen duen tokia, eta ahotsa ahots ezagutzaile makina batetik pasatzen da eta ezagututako dokumentu hori MT/editorrera doa ahots originalarekin batera, proiektua editatu eta amaitzen duena.

Erregistro mediku elektroniko askok aplikazio efektibo izan daitezke eta errestasun handiagoarekin egin daitezke. Kontsultak, bilaketak… azkarrago egin daitezke ahots ezagutza prozesu baten bitartez teklatuarekin baino.

[aldatu] Militar mundua

[aldatu] Gerrarako hegazkinen errendimendu altua

Azkenengo hamarkadan ahalegin handiak egin dira ahots ezagutza frogatzeko eta ebaluatzeko gerrako hegazkinetan. Ahotsaren ezagutzaren programa berezienak hiru herrialdeetan eman dira. Estatu Batuetan , "Advanced Fighter Technology Integration" taldearena da; Frantzian "Mirage" motako hegazkinetan instalatzean, eta Britainia Handian hegazkinen plataformen barietatea adosten diren programetan. Programa hauetan, ahotsa ezagutzen duten sistemak bikain funtzionatu dute gerra hegazkinetan, eta aplikazio hauek gehitu dituzte: irrati frekuentzi desberdinak erakartzea, autopiloto sistemaren ordenetara egotea, puntu kardinaletan eta parametroetan armak liberatzea eta aire-bisualizatzaileak kontrolatzea. Gehienetan, nahiz eta bokabulario oso mugatua izan, oso ongi erabili da, eta esfortsu handiena ahots ezagutza hegazkin sisteman integratzea izan da.

Hauek dira programak frogatu osteko ondorio garrantzitsuenak:

  1. Ahots ezagutzaren programak pilotuaren lana gutxitu du; hala ere, ez da iraunkorra momentu guztietan.
  2. Ezagutzaren prezisio altua (%95 edo gehiagokoa) faktorerik kritikatuena izan zen, ahotsaren ezagutza sistema erabilgarria egiteko.
  3. Bokabulario eta gramatika natural gehiago eta formazio gutxiagoa dutenek askotan erabilgarriakoak izango ziren.

Laborategi-ikerketa sendo honek adierazi duenez, ahots ezagutza militar munduan emaitza onak izan ditu.

JAS-39 Gripem Cabinako suediar pilotoekin lan egiterako orduan, ezagutza hondatua aurkitu zuen G kargen gehikuntzarekin. Ikerketa honek ere kasu guztietako emaitzak hobetzeko balio izan du. Espero zenaren ordez, ez ziren aurkitu zailtasunik pilotuen hizkera etenean, baina honek ezagutzan arazoak sortu ditu bokabulario mugatuan, eta denaren gainetik, sintaxian.

"Eurofighter Typhoon"-a, orain Britainia Handiko RAF-arekin zerbitzuan, menpeko-bozgoragailu sistema bat erabiltzen du; hau da, piloto bakoitzak plantilla bat egitea eskatzen duela. Sistema ez da erabiltzen segurtasunerako edo lan kritikoak egiteko, baizik eta kabinaako hainbat funtzio gehiago betetzeko. Sistema, pilotuaren lanaren murrizketa bat bezala ikusten da, eta gainera, pilotoak ahotsaren bitartez aginduak bidali ahal dizkio bere buruari.

[aldatu] Helikopteroak

Ezagutza prezisio altuan lortzeko arazoak ingurumenagatik eta ehizagatik dira. Hala ere, beste arazo batzuk daude helikopteroetako ahots ezagutzan; hala nola, zarata handia, eta aurpegi maskara bat ez erabiltzea, honek mikrofonoan zarata murrizten duelako. Azkenengo hamarkadan programen frogak egin dira ahots ezagutzan helikoptero sistemen inguruan, bereziki Estatu Batuetako Armadan. Frantzian lan egiteak Puma helikopteroetan ahotsa ezagutza sistema sartzea ekarri du; baita Kanadan ere sistema honek emaitzak eman ditu. Emaitzak eragingarriak izan dira, eta ahotsaren aplikazioak hauek izan dira: komunikazio irratien kontrola eta nabegazio sistemen ezarpena.

[aldatu] Trafiko aereoaren kontrolatzaileak

Militarren formakuntzarako, aireko kontrolatzaileak ahots ezagutzaren aplikazio egokiak dira. ATC sistema askok pertsona bat behar dute "seudo-piloto" baten moduan jokatzeko eta praktiketako kontroladorearekin hitz egiteko. Ahots ezagutza eta sintesien teknikak "seudo-pilotoa" ezabatzeko aukera ematen dute. Kontrolaren lanak, aireko trafikoaren irteeraren kontrolatzailearen diskurtso nagusiagatik ezagutzen dira.

Estatu Batuak gertaera serie bat babestu du ahots ezagutzaren bitartez. Oro har, doitasunaren azterketa ez dagokio sistema eta ikaslearen arteko elkarrekintzari. Estatu Batuetako marinak, esfortzu handi bat babestu du ATC sistemen eraketan. Ezagutzailea lexikoan mugatuta ikusi arren, programaren helburuetako bat kontrolatzaileei lexiko zabalagoa erakustea izan zen, ATCren eginkizunetarako lexiko berezi bat. Frantzian egindako ikerketa, ahots ezagutzaren zabalkuntzan oinarritu da, batez ere gramatikari dagokionari.

USAF-k,USMC-k eta Estatu Batuetako ejerzitoak, ATC simuladoreak erabiltzen ari da ahots ezagutzaren bitartez. Software honek ahots ezagutza erabiltzen du airez eta lurrez doazen ibilgailuen kontrolerako seudo-pilotoen beharrik euki gabe.

[aldatu] Telefonoa eta beste menpetasunak

ASR-a telefonoaren esparruan ohikoa bilakatzen ari da eta simulazio nahiz zori-jokoen esparruan gero eta arruntagoa bihurtzen ari da. Konputazio orokor pertsonalean, hitz prozesaketaren integrazioaren maila altuaz aparte, ASR-ak ez du espero zen hazkundea izan dokumentuen produkzioaren esparruan.

Prozesadore mobilak izan duen abiaduraren hobekuntzak, Symbian eta Mobile Smartphones-entzako hitzaldi egokitua posible izatea eragin du. Hizketa-textu ohizko programak luzeegiak dira eta CPU-aren energia gehiegi behar dute Pocket PC-arentzako praktikoak izan daitezen. Hitzaldia, Erabiltzailearen Interfaze bezala erabili ohi da gehienetan, ahots komandu aurrezehaztu edo pertsonalizatuak eratzeko. Esparru honetako software hornitzaile nagusiak hurrengoak dira: Microsoft Corporation (Microsoft Voice Command); Nuance Communications (Nuance Voice Control); Vito Technology (VITO Voice2Go); Speereo Software (Speereo Voice Translator). MyCaption for BlackBerry (http://www.mycaption.com)

[aldatu] Gaigabezidun pertsonak

Gaigabezidun pertsonak ahots ezagutza garatzen dute beste parte bat dira. Hau batez ere eskuak erabili ezin edo haiek erabiltzeko arazoak dituzten pertsonentzat dago pentsatuta. Teklatua erabiltzen duten pertsonek eta RSI-a garatu dutenek, ahots ezagutzaren merkatu urgentean bilakatu zen. Ahots ezagutza gorren telefonian erabiltzen da, ahots buzoian, retrasmision eta subtituloetan kasurako. Minusbaliotasunekin, paperetik ikasteko arazoak dituzten pertsonek, programa honen bidez baliatu al dira haientzako laguntza ona izan baitaiteke.

[aldatu] Ahots ezagutzaren errendimendua

Hizketa Ezagutza sitemen funtzionamendua zehaztasun eta abiadura parametroen bidez neurtzen da noramlean. Sistemaren funtzionamenduaren zehaztasuna Hitz Okerren Tasa (Word Error Rate), abiadura berriz Denbora Faktore Errealaren bitartez neurtzen da. Zehaztasunaren beste neurri batzuk Hitz Bakunen Okerren Tasa (Single Word Error Rate) eta Aginduen Arrakasta Tasa (Command Success Rate).

Hiketa Ezagutzaren sistemen erabiltzaile askok batera datoz diktaketa makinek kontrolpeko egoeretan funtzionamendu oso egokia dutela esatean. Halaber, badago nolabaiteko desadostasuna Hizketa Ezagutza eta diktaketa terminoen arteko elkartrukean.

Komertzializatuak izan diren hiztunaren menpekoak diren diktaketa sistemek, normalean, entrenamendu aldi laburra behar dute. Gainera, erritmo arruntean eta hiztegi zabal batekin osatutako hizketak atzeman ditzakete. Enpresa gehienek ezagutza softwareak %98 eta %99 arteko zehaztasuna lor dezakete egoera egokietan funtzionatzen badute. “ Egoera egokiak” erabiltzaileek hurrengo jarrerak hartzen dituzte euren gain:

  • Entrenatutako informazioa hizketa ezaugarriekin bat datoztela
  • Hiztunek hitz egiteko modu aproposa dutela
  • Zarata gabeko girotan lan egiten dutela.

Honek azaltzen du zergatik erabiltzaile batzuek, azentu gogor bat dutenek esate baterako, zehaztasun tasa txikiagoak lortzen dituzten. Hizketa Ezagutza bideoen bitartez ospe handiko bilaketa teknologia bilakatu da, bideo bilaketa konpainia askok erabilia hain zuzen ere.Hiztegi mugatuko sistemek, entrenamendurik behar ez dutenek, hiztun gehienek erabiltzen dituzten hitz kopuru txikia ezagutu ditzakete. Horrelako sistemak organizazio handietan erabili ohi dira jasotzen dituzten telefono deietarako.

[aldatu] Informazio gehiago

Hizketa ezagutzan konferentziak urtero edo egiten dituzte ICASSP, Eurospeech/ICSLP (orain Interspeech bezala ezagututa) eta IEEE ASRU bezalako erakundeek. Hizketa Naturalen Prozesaketaren arloan dauden konferentziak hizketa prozesamenduari buruzko lanak erabiltzen hasi dira. Aldizkari garrantzitsuak IEEE Transactions on Speech and Audio Processing, Computer Speech and Language eta Speech Communication dira. Lawrence Rabinerek idatzitako liburua, Fundamentals of Speech Recognition erabilgarria izan daiteke oinarrizko ezagutza bat lortzeko, baina nahiko zahartuta geratu da gaur egun. Frederick Jelineken Statistical Methods for Speech Recognition beste iturri on bat da arlo honi buruzko informazioa lortzeko, Xuedong Huangen Spoken Language Processing. Oraindik berriagoa Computer Speech da, Manfred R. Schroederek idatzia. Sistema modernoenetan erabilitako teknikak ezagutzeko gobernuek bultzatutako ebaluaziok dira (DARPAk antolatutakoa kasu).

Dohainik dauden iturrien artean, HTK liburua hasiera ona liteke hizketa ezagutzari buruz ikasteko eta esperimentatzen hasteko. Carnegie Mellon Universityren SPHINXek presentatzen dituen tresnak iturri onak dira baita ere. AT&T, GRM eta DCD liburutegiak hizketa ezagutzarako hiztegia zabala duten software askeko beste aukera bat dira.

[aldatu] Erreferentziak

  • Karat, Clare-Marie; Vergo, John; Nahamoo, David (2007), "Conversational Interface Technologies", in Sears, Andrew; Jacko, Julie A., The Human-Computer Interaction Handbook: Fundamentals, Evolving Technologies, and Emerging Applications (Human Factors and Ergonomics), Lawrence Erlbaum Associates Inc, ISBN 978-0-8058-5870-9.
  • managing editors Giovanni Battista Varile, Antonio Zampolli. (1997), Cole, Ronald; Mariani, Joseph; Uszkoreit, Hans et al., eds., Survey of the state of the art in human language technology, Cambridge Studies In Natural Language Processing, XII–XIII, Cambridge University Press, ISBN 0-521-59277-1.
  • Junqua, J.-C.; Haton, J.-P. (1995), Robustness in Automatic Speech Recognition: Fundamentals and Applications, Kluwer Academic Publishers, ISBN 978-0-7923-9646-8.

[aldatu] Kanpo loturak

Tresna pertsonalak
Izen-tarteak

Aldaerak
Ekintzak
Nabigazioa
Inprimatu/esportatu
Tresnak
Beste hizkuntzak