Hizketaren sintesi

Hizketaren sintesia giza-hizketaren emaitza artifiziala da. Xede honetarako erabiltzen den sistemari hizketaren sintetizatzaile deritzo, eta egikaritu egin daiteke bai softwarean bai hardwarean. Hizketaren sintesi sistemek, sarritan, TTS, text-to-speech edo testu-ahots bihurtzaile izena hartzen dute testua hizketa bihurtzeko duten gaitasunagatik.^[1] Hala ere, transkipzio fonetikoak bezalako irudikapen linguistiko sinbolikoak hizketa soilik itzul ditzaketen sistemak ere badaude.

Hizketaren sintesiaren teknologiaren deskribapena[aldatu | aldatu iturburu kodea]

Text-to-speech bat (testutik hizketara) bi atalez osatuta dago: nagusia eta menpekoa. Orokorrean, atal nagusiak testu formako lana hartu eta irudikapen linguistiko sinboliko bihurtzen du. Menpekoak, aldiz, irudikapen linguistiko sinbolikoa jaso eta uhin formako hizketa sintetizatua sortzen du. Hizketako sintetizatzaile bateko naturaltasunak, gehienetan, benetako pertsona baten hizketarekin duen antzari egiten dio erreferentzia. Hizketa sintetizatzailearen ulergarritasunak esan nahi duena zera da: prozesuaren emaitza zein modu errazean ulertua izan daitekeen.

Atal nagusiak bi zeregin garrantzitsu ditu. Lehenik eta behin, testu gordina hartu eta bertako osagaiak testutik kanpo ere baliagarriak diren zenbaki eta laburdura bihurtzen ditu. Sarritan, prozesu honi normalkuntza, aurretiko prozesu edota tokenization deritzo. Gero, hitz bakoitzari dagokion transkripzio fonetikoa ematen dio, eta testua hainbat unitate prosodikotan zatitu eta markatzen du, hala nola, esaldiak, klausulak eta perpausak. Hitzei transkripzio fonetikoak emateko prozesuari testurik fonemarako bihurketa (TTP ingelesez) deitzen zaio baita grafematik fonemara (GTP) ere. Transkripzio fonetikoen eta prosodia informazioaren arteko konbinazioak atal nagusiko emaitza linguistiko fonetikoaren irudikapena eratzen du.

Beste atalak, menpekoak edo bigarren mailakoak, irudikapen linguistiko sinbolikoa jaso eta benetako soinu bihurtzen du. Menpeko atal hau, askotan, sintetizatzailetzat ere hartu izan da. Sintetizatzeko tekniken era desberdinak beherago azaltzen dira.

Historia[aldatu | aldatu iturburu kodea]

Seinale elektronikoen gaur egungo prozesamendua asmatu baino askoz lehenago, hizketaren ikertzaileek giza-hizketa sor zezaketen makinak eratzeko ahalegin ugari egin zituzten. Hasierako “buru hizlarie”en adibideak, besteak beste, hauek izan ziren: Gerbert of Aurillac-ek egindakoa (1003), Albertus Magnus-ena (1198-1280) eta Robert Bacon-ena (1214-1294).

1779. urtean, St Petersburgoko Christian Kratzenstein-ek bost bokalen ([aː], [eː], [iː], [oː] and [uː]) soinu luzeak sorrarazi zitzaketen gizakion ahots-moldearen modeloak sortu zituen.^[2] Honen ostean, hauspoek eragindako “hizketarako makina akustiko-mekanikoa” sortu zuen Vienako (Austria) Wolfgang von Kempelen-ek, eta honela deskribatu zuen bere egunkarian: Mechanismus der menschlichen Sprache nebst der Beschreibung seiner sprechenden Maschine (Diskurtsoaren makinaren deskribapena duen giza-diskurtsoaren mekanismoa). Makina honi mihi eta ezpainak erantsi zitzaizkion geroago, eta, era horretara, bai kontsonanteak bai bokalak sor zitzakeen. 1837an Charles Whatstone-k von Kempelen-en diseinuan oinarritutako “diskurtsoaren makina” sortu zuen, eta 1857an M. Faber-ek “Euphonia” asmatu zuen. Whatstone-n diseinua Paget-ek berregituratu egin zuen 1923an.

Bell Labs-en VODER-a 1939ko New Yorkeko mundu azokan erakutsi zen (1939 New York World´s Fair) eta diskurtso erabat argi eta ulergarria sortu zuen.

1930eko hamarkadan, Bell Labs-ek VOCODER-a garatu zuen, guztiz ulerterraza zen hizketaren eragile elektroniko analizatzaile eta sintetizatzailea. Homer Dudley-k honako gailua hobetu egin zuen VODER-a sortuz, 1939ko New Yorkeko mundu azokan erakutsi zuena.

Hasierako hizketa sintetizatzaile elektronikoak ez ziren batere naturalak eta, maiz, erabat ulertezinak gerta zitezkeen. Ordea, gaur eguneko text-to-speech (TTS) direlakoen sistemen emaitzak, batzuetan, benetako giza-hizketatik ezberdintzea zail bihurtzen da.

hizketaren sintesi elektronikoak duen arrakasta handia izan arren, ikerketak oraindik hizketaren sintetizatzaile mekanikoetara bideratzen dira giza-itxurako roboten erabilerarako. Sintetizatzaile elektroniko perfektuena ere soinua eratzen duen transduktorearen (bozgorailua, orokorrean) kalitateak mugatzen du. Hori dela eta, bozgorailu txiki batek baino soinu askoz naturalagoa sor dezake sistema mekanikoak robot batean.

Hizketaren sintesirako lehenengo sistema konputarizatuak 1950eko hamarkadako azken urteetan eratu ziren eta text-to-speech (TTS) lehen sistema erabat osotua 1968an amaitu zen. Ordutik aurrera, makina bat aurrerakuntza izan dira hizketa sintetizatzeko erabilitako teknologietan.

Teknologia sintetizatzaileak[aldatu | aldatu iturburu kodea]

Hizketa baten sortzean ageri zaizkigun uhin sintetikoen forma nagusiak bi dira.

Sintesi kateaketa[aldatu | aldatu iturburu kodea]

Sistema konkatenatiboa hitzaldi erregistratuen segmentuen kateatzean oinarriturik dago. Orokorrean, sistema honek hizketarik naturalenak lortu ohi ditu. Hitzaldiaren aldakuntzak eta uhinak segmentu bihurtzeko teknika automatizatuek, bestalde, interferentziak sortzen dituzte diskurtsoaren naturaltasunetik aldenduz. Sintesi mota honen barnean hiru azpiatal bereiz genitzake:

Hautapen unitatearen sintesia. Atal honek hizketa luzeak hartzen ditu bere baitan, ordu bete baino gehiagoz erregistratuta dauden hizketak alegia. Datuen sortzeari dagokionez, mintzakera oro segmentuetan banatzen da: telefono zenbakiak, morfemak, silabak, hitzak, esaldiak eta perpausak. Gehienetan, segmentuen banaketa ezagutze-gailu eraldatu baten bitartez egiten da "behartutako lerrokapena" erabiliz. Ondoren, eskuzko zuzenketa bat beharrezkoa da, ikus-adierazpenak erabiliz, uhinaren forma eta espektograma, esaterako. Datu basean dauden unitateen erakusle bat sortzen da orduan segmentazioan eta soinu-parametroetan erroturik, oinarrizko frekuentzian, iraupenean eta inguruko telefonoetan alegia. Aurrera bidean, nahi den mintzakera datu baseko hautagaiaren unitate katerik onenean oinarriturik zehazten da. Unitatearen hautaketak ematen dio naturaltasunik handiena ez baitu seinaleen prozesatze digitalak igortzen duen seinale handiena bere egiten. Azken honek eragiten dio hizketari naturaltasuna galtzen duelarik. Maiz, unitatearen hautaketatik abiatutako sistemarik onenetan ezinezkoa da benetako pertsonen soinuekin desberdintzea, batez ere, TTS sistema erabili den inguru horietan.

Diphone sintesia. Mota honek Diphones-ak (soinutik soinura doazen trantsizioak) dituen hizketaren atalik txikienean jorratzen du. Diphone kopurua hizkuntzaren fonotaktiken araberakoa da. Gaztelerak 800 bat diphone dituen bitartean, alemanak 2500 inguru ditu. Diphonaren sintesian, diphone bakoitzaren adibide bakarra gordetzen da diskurtsoaren datu basean. Ekintzan zehar, zenbaki seinalearen prozesu teknika erabiltzen da, kodifikazio profetiko lerrokakoa, PSOLA o MBROLA, adibidez. hizketak amaieran lortzen duen soinu kalitatea ez da unitatearen hautaketan sortzen den bestekoa, hala ere, ondoren aztertuko den sintetizatzaile-formanteak lortzen duen baino soinu naturalagoa lortzen du. Diphone sintesiak sintesi konkatenatiboko sonic interferentziez gain sintetizatzaile-formanteak dituen izate robotikoaren interferentziak ere baditu. Abantailarik bakanenetarikoa tamainari dagokionean baino ezin genezake azpimarratu. Horren ondorioz, aplikazio komertzialetan orain arte izan duen erabilera jaisten hasi da ikerkuntzan oraindik ere mantentzen bada ere bere aukera desberdinengatik.

Jabekuntza sintesi espezifikoa. Aurretiazko hitz eta esaldiak kateatzen ditu mintzakera osoak lortzeko asmoz. Sistemak sortzen dituen idatzien aniztasuna abekuntza partikular batera mugatuko denean erabiltzen da; denboraren informeak, joan-etorriaren ordutegien oharrak... Teknologia hau martxan jartzea oso sinplea izanik erabilpen komertzialean denbora luzez izan du arrakasta handia. Adibiderik esanguratsuenak erlojuak eta hitz egiten duten kalkulagailuak dira. Sistema honen naturaltasuna oso handia izan daiteke darabiltzan esaldi motak mugatuak direlako eta grabazio originalen intonazioa eta prosodia bateratzen dituelako. Sistemaren datu basean dauden hitz eta esaldien mugapenak sistemaren hedapen murriztua ekarri du; arestian haiek aurre-programaturiko hitz eta esaldien konbinaketarekin besterik ezin dute sintetizatu.

Sintesi formantea[aldatu | aldatu iturburu kodea]

Sistema formanteak ez du inolako giza-hizketarik erabiltzen ekintzak aurrera egiten duen bitartean. Irtengo den hizketa eredu akustiko batean errotzen da. Soinu uhin artifiziala sortzeko frekuentzia, soinua eta zarata bezalako parametro ezinbestekoak aldatu egiten dira. Sistema formantean oinarrituriko hainbat teknologiak artifizial bihurtzen ditu robot-soinu-hizketak, gizaki baten hizketarekin nahasteko irizpiderik ez legokeelarik. Hala ere, naturaltasuna ez da beti hizketaren sintesia bilatzen duten sistemetan helmuga; sintesi formanteak baditu hainbat abantaila sistema konkatenatiboarekiko. Hizketa sintesizatu formantea oso ulergarria da, baita abiadura handian ere, sistema konkatenatiboak saihestu ezin dituzten soinu interferentziak alboratzen baitituzte. Abiadura handiko hizketa sintesizatua sarri erabiltzen du ikusmen murriztuak, pantaila irakurle bat erabiliz, arin nabigatzen duten ordenagailuentzako. Bestalde, sintetizatzaile formantea konkatenatiboak baino txikiagoak izaten dira ez baitute diskurtsoaren laginez hornituriko datu basea. Sistema formanteak diskurtsoaren irteeran, prosodyaren aniztasunean edota intonazioan kontrol osoa du, galdera eta baieztapenak egin beharrean emozio eta ahots tonuak sortzen dituelarik.

Beste sintesi modu batzuk[aldatu | aldatu iturburu kodea]

Sintesi artikulatzailea oraintsu arte, batez ere, sintesi sistema akademikoa izan da. Giza ahoan gertatzen diran zenbaketa eta artikulazioan oinarritzen den sistema dugu. Gaur egun, bere erabilera oso murritza da sistema komertzialei dagokien alorrean.

Sistesi hibridoak sintesi formantearen eta sintesi kateaketaren hainbat atal uztartzen ditu hauetan gertatzen diren interferentzia akustikoak ekiditzeko asmoz hizketaren segmentatzean.

HMM-an oinarridun sintesia Hidden Marcov Model-ean (Marcoren eredu ezkutuan) oinarrituriko metodoa da. Sistema honetan diskurtsoaren espektroa (aho ingurua), oinarrizko frekuentzia (aho iturria) eta iraupena (prosody) aldi berean modelatuak dira HMMgatik. Hizketaren uhin-formak HMMek sortuak dira Probabilitate osoaren irizpideari jarraituz.

Planteamendu frontalak[aldatu | aldatu iturburu kodea]

Testuen normalizazioaren erronka[aldatu | aldatu iturburu kodea]

Testuen normalizazio prozesua gutxitan izaten da zuzena. Testuak errepresentazio fonetikoa behar duten homografoz, zenbakiz eta laburduraz beterik daude. Ingelesez, esaterako, kontestuaren arabera ahoskatzen diren hitz asko daude.

TTS sistemaren parterik handienak ez ditu testuen errepresentazio semantikoak sortzen, hori egiteko prozesuak ez direlako ez fidagarriak ezta ondo ulertuak ere. Horregatik, hainbat teknika heuristiko erabiltzen dira homografoen zalantzagarritasuna era egokian ulertzeko.

Zenbakiak aldatzearen erabakia arazo bat da TTS sistementzat. Hau zenbakiak era idatzira bihurtzeko sistema da (1420= mila laurehun eta hogei). Baina zenbaki hau "hamalau hogeita" irakurri beharko litzateke helbide bat izango balitz, edota "bat lau bi zero" segurtasun txartelaren azken digituak balira. Askotan, TTS sistemak zenbakia nola interpretatu ondoriozta dezake inguruko hitzak eta puntuazio zeinuak kontuan hartuz.

Horrela "etab." bezalako laburdurak "eta abar" bezala ematen dira, baina, askotan, laburdurak anbiguoak izaten dira.

Text-to-phoneme prozesua[aldatu | aldatu iturburu kodea]

Ahozko sintesia egiten duten sistemek ortografian oinarritutako hitz baten ahoskera zehazteko funtsezko bi irizpide erabiltzen dituzte. Prozesu honi text-to-phoneme deritzo, fonema soinu desberdinak linguistikaren bitartez deskribatzeko erabiltzen den hizkuntza delarik.

Text-to-phoneme elkarrizketara hurbiltzeko modurik errazena hiztegira jotzea da. Bertan, programa baten bitartez, hizkuntza batek dituen hitz bakoitzaren ahoskera egokia aurki dezakegu. Hitz bakoitzaren ahoskera egokia erabiltzen gauden jakiteko, hiztegiko hitz bakoitzaren gainean begiratu beharra dago eta, horretaz gain, hitzaren ortografia bertan agertutako ahoskeraren ordezko jarri behar da.

Hurbilketak bere alde onak eta txarrak ditu. Hiztegiaren bitartez egindako hurbiltasunak arinagoa eta zehatzagoa izatearen abantaila du. Baina gure hiztegian agertzen ez den hitz bat izanez gero, hemen agertzen da alderik txarrena.

Hizkuntza batzuek, gaztelerak esaterako, idazkera sistema oso erregularra dute eta hitzen ahoskeraren iragarpena errazagoa gerta daiteke. Ingeleraren ahozko sintesiko ortografia, ostera, gaztelerarena baino askoz zailagoa denez, hiztegira jotzen dute edozein eratako ortografia zalantza izanez gero.

Hizketaren sintesirako markaketa hizkuntzak[aldatu | aldatu iturburu kodea]

Testu bat diskurtsotzat interpretatzeko gai den eta lantzen erraza den XML formaturako markaketa hizkuntza batzuk eratu dira. Berriki sortutakoa W3C-ak proposaturiko SSML izan da, oraindik zirriborroa baino ez dena. Hizketaren sintesirako markaketa hizkuntza zaharrago batzuek SABLE eta JSML-a barne dute. Bi hauek estandar berri moduan proposatu baziren ere, oraindik bietako bat ere ez da guztiz ondo eratu.

Hizketaren sintesirako markaketa hizkuntzak elkarrizketarako markazko hizkuntzetatik bereiztu behar dira hala nola, Voice XML-a. Honek, testutik hizketarako markaketa barne izateaz gain, hizketaren azterketarekin erlazionaturiko etiketak, hizketaren prozesua eta telefonia elektrikoko sistema ere barne baditu.

Euskaraz[aldatu | aldatu iturburu kodea]

Euskaraz ere badago TTS sistemarik. AhoTTS eta Euskararen Zerbitzu Plataformaren TTS tresna.

AhoTTS[aldatu | aldatu iturburu kodea]

AhoTTS Euskal Herriko Unibertsitateko Aholab laborategiak garatutako aplikazioa da. Aholab EHUko Seinaleen Prozesamendurako Laborategiaren izena da. Biometria nahiz Testutik Hizketarako (Test to Speech) sistemak ikertzen diharduen unibertsitateko ikerketa talde honek Bilbon du egoitza. Orotariko disziplinetako ikerlariek dihardute bertan lanean, nagusiki telekomunikazio ingeniariak eta hizkuntzalariak. Bilboko Ingeniaritza Fakultateko Elektronika eta Telekomunikazio Departamentuaren baitan dago laborategia.

Euskararen Zerbitzu Plataformaren TTS tresna[aldatu | aldatu iturburu kodea]

Euskararen Zerbitzu Plataforma ^[3] Gipuzkoako Foru Aldundiko Kultura eta Euskara Departamentuak Gipuzkoa 2.0 programaren baitan garaturiko web zerbitzuen plataforma da. Bere barnean hartzen dituen tresnen artean ahots sintesiko TTS aplikazioa^{[Betiko hautsitako esteka]} dago eta bere bitartez .TXT formatuko testu fitxategien audio bertsioak .MP3 formatuan eskuratu daitezke.

Kanpoko aplikazioek tresna hau erabil dezaten bultzatze aldera, API publikoa eta honi atxikitutako dokumentazioa ^[4] garatzaile eta programatzaileentzat eskuragarri du.

Zerbitzua doakoa da eta berau erabiltzeko zerbitzuaren webgunean erregistratu beharra dago.