Audio iturrien bereizketa

Wikipedia, Entziklopedia askea

Audio iturrien bereizketa audio seinale multzo baten soinuen bereizketa da. Nahaste baten parte den soinu bakoitzari iturri deritzogu[1]. Betebeharra audio iturrietako bat bakarrik bereiztea izan daiteke, baita seinalearen parte diren guztiak ere. Hori helburuaren araberakoa da: pertsona bakar baten diskurtsoa argi entzun, abesti baten instrumentu bolumena doitu, karaokea, zarata kendu…

Matematikoki, hurrengo erara adierazten da seinale multzo bat:

N iturri kopurua eta xi(t) horietako iturri bakoitza izanik.

Iturrien bereizmena gauzatzeko momentuan, hainbat zailtasun aurki daitezke:[2]

  • Iturria eta horren ezaugarrien ezjakintasuna
  • Nahaste prozesuaren eta horren ezaugarrien ezjakintasuna
  • Iturri eta nahaste kopuruen arteko harremana
  • Banaketa prozesuak dituen mugak

Hala ere, garatutako metodoei eta aztertu nahi den audioen ezaugarriei esker, audio iturrien bereizketa gauzatu ahalko da.

Metodoak[aldatu | aldatu iturburu kodea]

Sorta eraketa[aldatu | aldatu iturburu kodea]

Sorta eraketa (ingelesez beamforming) audio iturrien bereizketan erabilitako metodoa da, mikrofono array baten espazio-orientazioaz baliatzen dena.[1] Array horren sentsoreek iturri akustikoaren seinalea erregistratzen dute eta mikrofonoak hura desfasatzeaz arduratzen dira.[3]

Metodo honek patroi direktiboak erabiltzen ditu hartzailean, non jatorri zehatz batetik seinaleak jasotzen dituen. Horrela, nahi ez diren seinaleak edota zarata ahultzea lortzen da.[4]

Gainera, matematika eragiketa batzuk gauzatuz eta seinaleen atzerapena aztertuz, soinuaren jatorria zein den jakin daiteke. Horri esker, iturrien bereizketa gauzatu ahalko da.[3]

Sare neuronalak[aldatu | aldatu iturburu kodea]

Sare neuronalak audio iturrien bereizketan erabilitako ikasketa automatiko (ingelesez, machine learning) algoritmo mota bat dira. Horietan oinarritutako metodoei ikaskuntza sakon (ingelesez, deep learning) edo sare sakon (ingelesez, deep net) esaten zaie.[5]

Ikasketa automatiko algoritmoak gai dira, batetik, ez-jarraitasunak modelatzeko eta, bestetik, beste algoritmo batzuk baino inplementazio azkarragoak eskaintzeko. Algoritmo hauek gainbegiratutako ikasketa arazoak bezala adierazten dira, xede-taldeak (ahotsa, hari-instrumentuak...) eta kostu-funtzio desberdinak erabiliz.[6]

Sare sakonak hainbat audio nahasketetan probak eginez funtzionatzen dute. Sareak iturri batentzako irteera bat sortzen du. Ondoren, behin isolatuta, perfektua izango litzatekeen iturriarekin konparatzen da. Mota honetako konparaketak sarea eguneratzeko erabiltzen dira. Horrela, sarea berriz erabiltzen denean benetako iturriaren antz handiagoa izango du irteerak.[5]

Sare neuronala eta horren geruzak

Zuzen dabiltzan sare sakonak lortzea ez da erraza izaten. Sistema oso konplexuak dira, egokitu beharreko milioika parametroz osaturik, pisuak (ingelesez weights) deiturikoak. Pisu horien ezarketa prozesu nahiko zaila izaten da.

Sare neuronalen atalak:[7]

  • Geruzak
  • Aktibazio-funtzioak
  • Normalizazioa
  • Baztertzea

Aplikazioak[aldatu | aldatu iturburu kodea]

Ahotsaren bereizketa eta hobekuntza[aldatu | aldatu iturburu kodea]

Audio iturrien bereizketan hedatuen dagoen aplikazio bat ahotsaren bereizketa da.[1] Bi pertsona edo gehiago aldi berean hitz egiten daudenean, baliteke zaila izatea pertsona horietako baten hizketan bakarrik jartzea arreta. Gainera, zarata ere egon daiteke. Hori dela eta, audio iturrien bereizketara jotzen da.

Alde batetik, ahotsa eta zarata banandu daitezke. Kalean hots-kutsadura egon ohi da, hirietan gehienbat: automobilak, autobusak, eraikuntza-lanak, jendetza… Hori arazo bat izan daiteke kasu askotan, lagun talde batekin hitz egiterakoan eta WhatsAppa erabiliz ahots-mezu bat bidaltzerakoan, esate baterako. Egoera horietan guztietan, posible da pertsonen hizketan arreta jarri eta desatsegina den edozein hots alde batera uztea.

Bestetik, pertsona desderdinen diskurtsoa audio iturri independente bihur daiteke. Jende-talde bateko pertsonek haien iritzia partekatzen dutenean gerta daiteke momentu zehatz batean bik edo gehiagok aldi berean hitz egitea. Ondorioz, ezin da guztia ondo ulertu. Horri aurre egiteko, audio iturrien bereizketa nahiko erabiltzen da.

Musika[aldatu | aldatu iturburu kodea]

Musika abesti edo audio bat iturri askok osatu dezakete, ahotsak eta musika-tresnak, adibidez. Musika iturrien bereizketa nahaste baten audio seinale originalak bereiztean datza. Horrek esan nahi du aldez aurretik iturri horiek sortutako soinuak nahastu direla eta, gehienetan, ez da prozesuari buruzko informazio nahikorik izaten, ezta iturriari buruzkoa ere.

Musika audio baten espektrograma, harmonikoak nabarmenduta

Musikan audio iturrien bereizketa gauzatzean, hainbat zailtasun egon daitezke:

  • Musikan iturriak oso lotuta daude elkarren artean; hau da, normalean iturri guztiak aldi berean aldatzen dira. Esaterako, musika talde batean biolinak konpas hasieran nota aldatzen badu, segur aski beste musika-tresnek ere nota aldatuko dute.
  • Musika nahaste ez-jarraiak diren teknikak erabiliz prozesatzen da. Erreberberazioa eta iragazkien erabilera horietako batzuk dira, eta musikaren bereizketa zailtzen dute. Arazo bat izaten da; izan ere, oso gutxitan jakiten da zein den nahastearen edozein iturritan aplikatutako prozesaketa.[1]

Hala ere, musika soinuek ezaugarri bereziak izaten dituzte, baita egitura zehatz batzuk ere: harmonikoen egitura uniformea, maiztasun batzuen errepikapena tarteka eta musika-tresna bakoitzaren berezkoa den uhin-forma. Gainera, patroi batzuk jarraituz errepika daitezke.[8]

Softwareak[aldatu | aldatu iturburu kodea]

Musika iturrien bereizketa gauzatzen duten hainbat software daude eta gehienak adimen artifizialaz baliatzen dira. Horietako bakoitzak bereizketa era eta helburu desberdinak ditu. Badaude alde batetik ahotsa eta bestetik musika-tresnak bereizten dituztenak. Beste batzuek musika-tresnak taldeetan sailkatzen dituzte. Ondoren software batzuk eta haien bereizketa-ereduak aipatzen dira:

  • Moises
    • 2 audio-pista: ahotsa eta musika-tresnak.
    • 4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[9]
  • Vocal Remover and Isolation
    • 2 audio-pista: ahotsa eta musika-tresnak.[10]
    • 4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[11]
  • LALAL
    • Hurrengoen artean aukeratu: ahotsa eta instrumentuak, bateria, baxua, ahotsa eta zarata, gitarra elektrikoa, gitarra akustikoa, pianoa, sintetizadorea, hari-instrumentu eta haize-instrumentuak.[12]
  • Melody
    • 2 audio-pista: ahotsa eta instrumentuak.
    • 4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[13]
  • Media.io
    • Ahotsa ezabatzea.[14]
  • Acapela extractor
    • Ahotsa bakarrik mantendu.[15]
  • Vocals Remover
    • Ahotsa ezabatzea.[16]
  • Splitter
    • 2 audio-pista: ahotsa eta instrumentuak.
    • 5 audio-pista: ahotsa, bateria, baxua, pianoa eta bestelakoak.[17]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. a b c d «What is Source Separation? — Open-Source Tools & Data for Music Source Separation» source-separation.github.io (Noiz kontsultatua: 2023-11-28).
  2. Marxer Piñón, Ricard. (2013-09-09). Audio source separation for music in low-latency and high-latency scenarios. Universitat Pompeu Fabra (Noiz kontsultatua: 2023-11-28).
  3. a b Machín, Jorge. 2016. Beamforming, localización de fuentes sonoras mediante arrays de micrófonos. Gradu Amaierako Lana. Valentziako Unibertsitate Politeknikoa.
  4. García de la Rosa, Rodrigo. 2020. Sistema de localización de fuentes sonoras. Gradu Amaierako Lana. Madrileko Unibertsitate Politeknikoa.
  5. a b «Introduction — Open-Source Tools & Data for Music Source Separation» source-separation.github.io (Noiz kontsultatua: 2023-11-30).
  6. López, Ferran. 2020. Music Source Separation Using Deep Neural Networks. Gradu Amaierako Lana. Kataluniako Unibertsitate Politeknikoa.
  7. «Building Blocks — Open-Source Tools & Data for Music Source Separation» source-separation.github.io (Noiz kontsultatua: 2023-11-30).
  8. Cano, E., Fitzgerald, D., Liutkus, A., Plumbley, M. D. eta Stöter, F. 2019. Musical Source Separation: An Introduction. IEEE Signal Processing Magazine, 36 (1), 31-40.
  9. (Gaztelaniaz) «Cómo Separar Pistas de Audio Online de Forma Gratuita» moises.ai (Noiz kontsultatua: 2023-11-30).
  10. «Eliminador de Voz y Aislamiento» vocalremover.org (Noiz kontsultatuta: 2023-12-05)
  11. «Aislar los instrumentos de una canción» vocalremover.org (Noiz kontsultatuta: 2023-12-05)
  12. (Gaztelaniaz) GMBH, OmniSale. «Extractor de vocal y separador de instrumental IA | LALAL.AI» www.lalal.ai (Noiz kontsultatua: 2023-11-30).
  13. «melody ml» melody.ml (Noiz kontsultatua: 2023-11-30).
  14. (Gaztelaniaz) «Removedor de voz gratuito con IA - ¡Haz karoake en línea fácilmente!» Media.io (Noiz kontsultatua: 2023-11-30).
  15. (Ingelesez) BEATS, MUGA. «Acapella Extractor | Make acapellas from any song for free !» www.acapella-extractor.com (Noiz kontsultatua: 2023-11-30).
  16. (Ingelesez) BEATS, MUGA. «Remove Vocals | Make karaoke instrumentals for FREE !» www.remove-vocals.com (Noiz kontsultatua: 2023-11-30).
  17. «Splitter.ai - AI Audio Processing» www.splitter.ai (Noiz kontsultatua: 2023-11-30).

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]