Lankide:Naroa Martínez Cerezo/Proba orria

Wikipedia, Entziklopedia askea

Audio iturrien bereizmen[aldatu | aldatu iturburu kodea]


Artikulu hau, osorik edo zatiren batean, ingelesezko wikipediako «Music information retrieval» artikulutik itzulia izan da. Jatorrizko artikulu hori GFDL edo CC-BY-SA 3.0 lizentzien pean dago. Egileen zerrenda ikusteko, bisita ezazu jatorrizko artikuluaren historia orria.
Artikulu hau, osorik edo zatiren batean, ingelesezko wikipediako «Signal separation» artikulutik itzulia izan da. Jatorrizko artikulu hori GFDL edo CC-BY-SA 3.0 lizentzien pean dago. Egileen zerrenda ikusteko, bisita ezazu jatorrizko artikuluaren historia orria.

Audio iturrien bereizmena audio seinale multzo baten soinuen bereizketa da. Nahaste baten parte den soinu bakoitza iturria deritzogu[1]. Betebeharra audio iturrietako bat bakarrik bereiztea izan daiteke, baita seinalearen parte diren guztiak ere. Hori helburuaren araberakoa da: pertsona bakar baten diskurtsoa argi entzun, abesti baten instrumentu bolumena doitu, karaokea, zarata kendu…

Matematikoki, hurrengo erara adierazten da seinale multzo bat:

N iturri kopurua eta xi(t) horietako iturri bakoitza izanik.


Iturrien bereizmena gauzatzeko momentuan, hainbat zailtasun aurki ditzakegu:[2]

  • Iturria eta horren propietateen ezjakintasuna
  • Nahaste prozesuaren eta horren propietateen ezjakintasuna
  • Iturri eta nahaste kopuruen arteko erlazioa
  • Banaketa prozesuak dituen mugak


Hala ere, garatutako metodoei eta aztertu nahi den audioen ezaugarriei esker, audio iturrien bereizmena gauzatu ahalko da.

Metodoak[aldatu | aldatu iturburu kodea]

Sorta eraketa[aldatu | aldatu iturburu kodea]

Sorta eraketa (ingelesez beamforming) audio iturrien bereizmenean erabilitako metodo bat da, mikrofono array baten espazio orientazioaz baliatzen dena.[1] Array horren sentsoreek iturri akustikoaren seinalea erregistratzen dute eta mikrofonoak hura desfasatzeaz arduratzen dira.[3]

Metodo honek patroi direktiboak erabiltzen ditu hartzailean, non jatorri zehatz batetik seinaleak jasotzen dituen. Horrela, nahi ez diren seinaleak edota zarata ahultzea lortzen da.[4]

Gainera, matematika eragiketa batzuk gauzatuz eta seinaleen atzerapena aztertuz, soinuaren jatorria zein den jakin daiteke. Horri esker, iturrien bereizmena burutu ahalko da.[3]

Sare neuronalak[aldatu | aldatu iturburu kodea]

Sare neuronalak audio iturrien bereizmenean erabilitako ikasketa automatiko (ingelesez machine learning) algoritmo mota bat dira. Horietan oinarritutako metodoei ikaskuntza sakon (ingelesez deep learning) edo sare sakon (ingelesez deep net) esaten zaie.[5]

Ikasketa automatiko algoritmoak bai ez-jarraitasunak modelatzeko, bai beste algoritmo batzuk baino implementazio azkarragoak eskaintzeko gai dira. Algoritmo hauek gainbegiratutako ikasketa arazoak bezala adierazten dira, xede-taldeak (ahotsa, hari-instrumentuak...) eta kostu-funtzio desberdinak erabiliz.[6]

Sare sakonak hainbat audio nahasketetan probak eginez funtzionatzen dute. Sareak iturri batentzako irteera bat sortzen du. Ondoren, behin isolatuta perfektua izango litzatekeen iturriarekin konparatzen da. Mota honetako konparaketak sarea eguneratzeko erabiltzen dira. Horrela, sarea berriz erabiltzen denean benetako iturriaren antza handiagoa izango du irteerak.[5]

Sare neuronala eta horren geruzak

Zuzen funtzionatzen duten sare sakonak lortzea ez da erraza izaten. Sistema oso konplexuak dira, egokitu beharreko milioika parametroz osaturik, pisuak (ingelesez weights) deiturikoak. Pisu horien ezarketa prozesu nahiko zaila izaten da.

Sare neuronalen atalak:[7]

  • Geruzak
  • Aktibazio-funtzioak
  • Normalizazioa
  • Baztertzea

Aplikazioak[aldatu | aldatu iturburu kodea]

Ahotsaren bereizmena eta hobekuntza[aldatu | aldatu iturburu kodea]

Audio iturrien bereizmenean hedatuenetariko aplikazio bat ahotsaren bereizmena da.[1] Bi pertsona edo gehiago aldi berean hitz egiten daudenean, baliteke pertsona horietako baten hizketan bakarrik arreta jartzea zaila izatea. Gainera, zarata ere egon daiteke. Hori dela eta, audio iturrien bereizmenera jotzen da.

Alde batetik, ahotsa eta zarata banandu daiteke. Kalean gaudenean, hots-kutsadura egon ohi da, hirietan gehienbat: automobilak, autobusak, eraikuntza-lanak, jendetza… Hori arazo bat izan daiteke kasu askotan, lagun talde batekin hitz egiterakoan eta WhatsApp erabiliz ahots-mezu bat bidaltzerakoan, esate baterako. Egoera horien aurrean, pertsonen hizketan arreta jarri eta desatsegina den edozein hots alde batera uztea posiblea da.

Bestetik, pertsona desderdinen diskurtsoa audio iturri independente bihurtu daiteke. Jende-talde bateko pertsonek haien iritzia partekatzen daudenean gerta daiteke momentu zehatz baten bik edo gehiagok aldi berean hitz egiten egotea. Ondorioz, ezin da guztia ondo ulertu. Horri aurre egiteko, audio iturrien bereizmena nahiko erabiltzen da.

Musika[aldatu | aldatu iturburu kodea]

Musika abesti edo audio bat iturri askok osatu dezakete, ahotsak eta musika-tresnak, adibidez. Musika iturrien bereizmena nahaste baten audio seinale originalak bereiztean datza. Horrek esan nahi du aldez aurretik iturri horiek sortutako soinuak nahastuta izan direla eta gehienetan ez da prozesua buruzko informazio nahikorik izaten, ezta iturriari buruzkoa ere.

Musika audio baten espektrograma, harmonikoak nabarmen

Musikan audio iturrien bereizmena gauzatzean, hainbat zailtasun egon daitezke:

  • Musikan iturriak oso erlazionatuta daude, hau da, normalean iturri guztiak aldi berean aldatzen dira. Esaterako, musika talde batean biolinak konpas hasieran nota aldatzen badu, segur aski beste musika-tresnek nota ere aldatuko dute.
  • Musika nahaste ez-jarraiak diren teknikak erabiliz prozesatzen dira. Erreberberazioa eta iragazkien erabilera horietako batzuk dira eta musikaren bereizmena zailtzen dute. Arazo bat izaten da; izan ere, oso gutxitan badakigu nahastearen edozein iturritan aplikatutako prozesaketa.[1]

Hala ere, musika soinuek ezaugarri bereziak izaten dituzte, baita egitura zehatz batzuk ere: harmonikoen egitura uniformea, maiztasun batzuen errepikapena tarteka eta musika-tresna bakoitzaren berezkoa den uhin-forma. Gainera, patroi batzuk jarraituz errepikatu daitezke.[8]

Softwareak[aldatu | aldatu iturburu kodea]

Musika iturrien bereizmena gauzatzen duten hainbat software existitzen dira eta gehienak adimen artifizialaz baliatzen dira. Horietako bakoitzak bereizketa era eta helburu desberdinak ditu. Badaude alde batetik ahotsa eta bestetik musika-tresnak bereizten dituztenak. Beste batzuk musika-tresnak taldeetan sailkatzen dituzte. Ondoren software batzuk eta haien bereizketa ereduak aipatzen dira:

  • Moises
    • 2 audio-pista: ahotsa eta musika-tresnak.
    • 4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[9]
  • Vocal Remover and Isolation
    • 2 audio-pista: ahotsa eta musika-tresnak.[10]
    • 4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[11]
  • LALAL
    • Hurrengoen artean aukeratu: ahotsa eta instrumentuak, bateria, baxua, ahotsa eta zarata, gitarra elektrikoa, gitarra akustikoa, pianoa, sintetizadorea, hari-instrumentu eta haize-instrumentu.[12]
  • Melody
    • 2 audio-pista: ahotsa eta instrumentuak.
    • 4 audio-pista: ahotsa, bateria, baxua eta bestelakoak.[13]
  • Media.io
    • Ahotsaren ezabaketa.[14]
  • Acapela extractor
    • Ahotsa bakarrik mantendu.[15]
  • Vocals Remover
    • Ahotsaren ezabaketa.[16]
  • Splitter
    • 2 audio-pista: ahotsa eta instrumentuak.
    • 5 audio-pista: ahotsa, bateria, baxua, pianoa eta bestelakoak.[17]

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. a b c d «What is Source Separation? — Open-Source Tools & Data for Music Source Separation» source-separation.github.io (Noiz kontsultatua: 2023-11-28).
  2. Marxer Piñón, Ricard. (2013-09-09). Audio source separation for music in low-latency and high-latency scenarios. Universitat Pompeu Fabra (Noiz kontsultatua: 2023-11-28).
  3. a b Machín, Jorge. 2016. Beamforming, localización de fuentes sonoras mediante arrays de micrófonos. Gradu Amaierako Lana. Valentziako Unibertsitate Politeknikoa.
  4. García de la Rosa, Rodrigo. 2020. Sistema de localización de fuentes sonoras. Gradu Amaierako Lana. Madrileko Unibertsitate Politeknikoa.
  5. a b «Introduction — Open-Source Tools & Data for Music Source Separation» source-separation.github.io (Noiz kontsultatua: 2023-11-30).
  6. López, Ferran. 2020. Music Source Separation Using Deep Neural Networks. Gradu Amaierako Lana. Kataluniako Unibertsitate Politeknikoa.
  7. «Building Blocks — Open-Source Tools & Data for Music Source Separation» source-separation.github.io (Noiz kontsultatua: 2023-11-30).
  8. Cano, E., Fitzgerald, D., Liutkus, A., Plumbley, M. D. eta Stöter, F. 2019. Musical Source Separation: An Introduction. IEEE Signal Processing Magazine, 36 (1), 31-40.
  9. (Gaztelaniaz) «Cómo Separar Pistas de Audio Online de Forma Gratuita» moises.ai (Noiz kontsultatua: 2023-11-30).
  10. «Eliminador de Voz y Aislamiento» vocalremover.org (Noiz kontsultatuta: 2023-12-05)
  11. «Aislar los instrumentos de una canción» vocalremover.org (Noiz kontsultatuta: 2023-12-05)
  12. (Gaztelaniaz) GMBH, OmniSale. «Extractor de vocal y separador de instrumental IA | LALAL.AI» www.lalal.ai (Noiz kontsultatua: 2023-11-30).
  13. «melody ml» melody.ml (Noiz kontsultatua: 2023-11-30).
  14. (Gaztelaniaz) «Removedor de voz gratuito con IA - ¡Haz karoake en línea fácilmente!» Media.io (Noiz kontsultatua: 2023-11-30).
  15. (Ingelesez) BEATS, MUGA. «Acapella Extractor | Make acapellas from any song for free !» www.acapella-extractor.com (Noiz kontsultatua: 2023-11-30).
  16. (Ingelesez) BEATS, MUGA. «Remove Vocals | Make karaoke instrumentals for FREE !» www.remove-vocals.com (Noiz kontsultatua: 2023-11-30).
  17. «Splitter.ai - AI Audio Processing» www.splitter.ai (Noiz kontsultatua: 2023-11-30).

Ikus, gainera[aldatu | aldatu iturburu kodea]

Kanpo estekak[aldatu | aldatu iturburu kodea]