Testu-meatzaritza

Wikipedia, Entziklopedia askea
Jump to navigation Jump to search

Testu-meatzaritza, testutik kalitate handiko informazioa lortzeko prozesua da. Kalitate handiko informazioa, oro har, patroiak eta joerak egitean lortzen da, esate baterako, eredu estatistikoko ikasketen bidez. Testu-meatzaritza, oro har, idazketa-testua egituratzeko prozesua dakar (normalean azterketa, ezaugarri linguistiko eratorri batzuk gehituta eta besteen ezabapena eta ondorengo datu-base batean sartzea), datu egituratuak eta, azkenik, irteeraren ebaluazioa eta interpretazioa. Testu-meatzaritzan "kalitate handia" garrantziaren, berrikuntzaren eta interesaren konbinazioari dagokio. Testu-meatzaritzako eginkizun tipikoen artean, testuen sailkapena, testu-taldekatzea, kontzeptu/entitate erauzketa, taxonomia granularrak, sentimenduen analisia, dokumentuaren laburpena eta entitate-ereduen modelizazioa.


Testuen analisiak honako hauek dakartza: informazioaren berreskurapena, azterketa lexikoa, hitzaren maiztasunen banaketa, ereduen ezagutza, etiketatzea/anotazioa, informazioaren erauzketa, datuen meatzaritza teknikak, bisualizazioa eta aurresateko analisia. Helburu nagusia testua aztertzeko datuak bihurtzea da, hizkuntzaren tratamendu naturalaren aplikazioaren bidez eta metodo analitikoen bidez.

Historia[aldatu | aldatu iturburu kodea]

80ko hamarkadaren hasieran, giza ahalegin handia behar zuen lehenengo testu-meatzaritzako ahaleginak sortu ziren, baina aurrerapen teknologikoak baimendu dute inguru hau azkar aurreratzea azken hamarkadan. Testu-meatzaritza ingurunea, informazio berreskurapenean oinarritutako diziplina askotarikoa da, datu-meatzaritza, ikasketa automatikoa, estatistika eta hizkuntzalaritza konputazionala. Informazioaren zati gehiena (%80ra baino gehiago), gaur egun testu gisa gordeta aurkitzen da, uste da testu-meatzaritza merkatu balio handia duela.

Geroz eta gehiago hizkuntza anitzeko testu-meatzaritzari interes handiagoa ematen zaio: beste hizkuntzetan informazio eskuratzeko gaitasuna.

Testu-analisia[aldatu | aldatu iturburu kodea]

Testu-analisia terminoa deskribatzen du linguistika, estatistika eta makina-ulermen tekniken multzo bat, ereduak eta estrukturak barneratzen ditu negozio-inteligentzia, datu-analisien esplorazioa edo ikerketa testuen informazioa. Termino hau, testu-meatzaritzaren sinonimo estua da; hain zuzen ere, testu-meatzaritzari buruzko 2.000 deskripzio aldatu zituen Ronen Feldman 2004an, deskribatzeko testu analisia.  Beranduago, termino hau gehiago erabiltzen zen negozio alorrean, aplikazioen negozio arazoei erantzuteko; testu-meatzaritza erabiliagoa da aplikazio alorrean.

Testu-analisia, analisi kualitatibo mota bat da, metodo bat da informazio erabilgarria ateratzeko testuetatik, eta ideiak eta gako kontzeptuak taldekatzeko modu egokian. Testu-analisia edozein motako edo luzerako testuetan egin daiteke.

Erregistroak edo dokumentu motzak errazago sailkatu daitezke, zeren ez dira konplexuak eta, hitz eta galdera anbiguo gutxiago dituzte. Esate baterako, galdera irekiko inkesta bat; jendeari eskatzen badiogu izendatzeko beraien oporretako jarduera gogokoena, erantzun motz asko itxaron ditzakegu, hondartzara joan, parke nazional bat bisitatu edo ez egin ezer motakoak. Galdera-erantzun irekiak, bestaldetik, oso konplexuak eta oso luzeak izan daitezke, bereziki inkestatuak jakitunak badira, motibatuak badaude eta denbora asko badute inkesta betetzeko. Jendeari eskatzen badiogu politikari buruz hitz egiteko, iruzkin luzeak aurkitu ditzakegu tema eta postura ezberdinekin.

IBM® SPSS Modeler Text Analytics-en abantaila bat da, kontzeptu gakoak ateratzeko eta sortzeko sailkapen intuitiboak testu luzeetatik denbora-epe txikian. Abantaila hau lortzen da hainbat teknika linguistiko automatiko eta estatistikoen konbinaketari esker, zeinei eskertzen zaie emaitza fidagarriagoak izateak testu analisiko fase bakoitzean.

Testu-analisi prozesuak[aldatu | aldatu iturburu kodea]

Azpietiketak—testu handiago baten osagaiak normalean zera barneratzen dute:

  • Informazio-berreskurapena edo corpusaren identifikazioa azterketa prestatzeko urratsa da: materialen biltzea edo identifikatzea, webean edo fitxategi sistema batean, datu-basean...
  • Testu-analisi sistema batzuek metodo estatistiko aurreratu esklusiboak aplikatzen dituzte, baina, beste askok hizkuntza naturalaren prozesamendua aplikatuko duteKategoria gramatikalen etiketatzea, hala nola, kategoria gramatikalen etiketatzea, aztertzaile sintaktikoak, eta bestelako azterketa linguistikoak.
  • Entitateen izenen ezagutzea hiztegi geografiko edo teknika estatistikoak erabiltzea da, testuaren ezaugarriak identifikatzeko: pertsonak, erakundeak, lekuen izenak, sinboloak, zenbait laburdura, eta abar.
  • Desanbiguazioa, testuinguruko arrastoak erabiltzea beharrezkoa izan daiteke, adibidez, "Ford" AEBetako lehendakari ohiak aipatzeko, Ibilgailuen fabrikatzailea, filmaren izar bat...
  • Patroiaren bidez identifikatutako erakundeen aitorpena: telefono zenbakiak, helbide elektronikoak, kantitateak (unitateak) bereizten dira adierazpen erregularren edo bestelako patroiekin alderatuz.
  • Erreferentziakidetasun: izen-sintagmen eta objektu berari dagokion terminoak identifikatzea.
  • Harreman eta gertaeren erauzketa: erakundeen eta beste informazio batzuen arteko elkarteen identifikazioa.
  • Sentimendu-analisia material subjektiboa bereizten du (gertakariaren kontrakoa) eta jarrera informatikoa era ezberdinak ateratzen ditu: sentimendua, iritzia, aldartea eta emozioa. Testen analisirako teknikak baliagarriak dira aztertzeko, entitate mailan, kontzeptuan edo gaietan sentitzeko eta iritziaren titularra eta iritziaren helburua bereizteko.[1]
  • Testu-azterketa kuantitatiboa gizarte-zientzietatik eratorritako teknika multzo bat da, non epaileak edo ordenagailuak hitzaren arteko erlazio semantikoak edo gramatikalak ateratzen dituzte esanahia aurkitzeko.[2]

Aplikazioak[aldatu | aldatu iturburu kodea]

Teknologia gaur egun oso zabalduta dago gobernu, ikerketa eta negozioen beharretan. Aplikazioak kategoriatan sailka daitezke, azterketa motaren edo merkataritza-funtzioaren arabera. Ikuspegi hau irtenbideak sailkatzeko, aplikazioen kategoriak honakoak dira:

Segurtasun-aplikazioak[aldatu | aldatu iturburu kodea]

Testu-meatzaritzako software pakete gehienak segurtasun-aplikazioetarako merkaturatzen dira, batez ere testu iturri linealen jarraipena eta analisia, esate baterako, Internet, albisteak, blogak, etab. Segurtasun nazionalerako helburuetarako. Testu enkriptatze/deszifratzearen azterketan ere parte hartzen du.

Aplikazio biomedikoak[aldatu | aldatu iturburu kodea]

Biomedikuntzan testu-meatzaritzako aplikazio ugari deskribatu dira.

Biomedikuntzako testuinguruko meatzaritza aplikazioa PubGene da, biomedikuntzako testuen meatzaritza sare bidezko bisualizazioarekin bateratzen du interneteko zerbitzu gisa.

GoPubMed biomedikuntzako testuen jakintza oinarritzat duen bilatzailea da.

Software-aplikazioak[aldatu | aldatu iturburu kodea]

Testu-meatzaritza metodoak eta softwarea ikertzen eta garatzen ari dira enpresa handiek, IBM eta Microsoft barne, meatzaritza- eta analisi-prozesuak automatizatzeko eta hainbat enpresaren bidez bilaketa eta indexatze arloan lan egiten dutenak, orokorrean emaitzak hobetzeko. Sektore publikoaren barruan, terrorismoaren jarraipena egiteko eta kontrolatzeko softwarea sortzen ahalegin handiak egin dira.

Enpresa eta marketin aplikazioak[aldatu | aldatu iturburu kodea]

Testu-meatzaritza marketinean erabiltzen hasi da, bezeroekiko harremanak kudeatzeko sistema-tan zehazki. [3] Coussement eta Van den Poel (2008)[4]bezeroen desegiterako azterketaren iragarpen analitikoen ereduak hobetzeko aplikatu zuten.

Aplikazio akademikoa[aldatu | aldatu iturburu kodea]

Testu-meatzaritzaren arazoa garrantzi handikoa da indexatzailea behar duten datu-base handiak berreskuratzeko. Hau bereziki egia da diziplina zientifikoan, gehienetan informazio zehatza idatzitako testuetan jasotzen baita. Horregatik hainbat proiekturekin hasi dira; Naturaren Testu Meatzaritza Interfaze Irekia (ingelesez Open Text Mining Interface OTMI) proposamena eta Osasun Institutu Nazionalaren dokumentu mota definizioa (ingelesez Document Type Definition DTD), makinei seinale semantikoak emango lizkiekeenak testuan jasotako kontsulta espezifikoei erantzuteko, sarbide publikoa oztopatu gabe.

Erakunde akademikoek testu-meatzaritza ekimenean ere parte hartu dute: 

Software komertziala eta aplikazioak

  • Anderson Analytics – testu analisien eta erabiltzaileen jarrerarekin erlazionatutako edukiaren hornitzailea.
  • Attensity – industria ezberdinentzako testu-meatzaritzako soluzio taldea.
  • Autonomy – testu-meatzaritza software, clustering eta sailkapena.
  • Clarabridge – testu-meatzaritzako aplikazioak, bezeroentzako sailkapena, osasun zerbitzuak eta ikerketa analitikoa.
  • Clearforest – testu informazioaren esanahia hainbat eratan ateratzeko testu-meatzaritza softwarea.
  • Cortex Intelligence – web-eduki analisiaren hornitzailea.
  • Crossminder – hizkuntza anitzeko bilaketa eta hurbilketa semantikoa duen testu-meatzaritza enpresa.
  • IBM Intelligent Miner for Text – testu komertzialentzako testu-meatzaritza softwarea
  • Inxight – testu analisi, bilaketa eta ikusketa hornitzailea.
  • Island Data – denbora errealeko merkatu inteligentzia erabiltzaileen erantzunetatik.
  • Lingmotif – Sentimendu Analisiaren ikuspegitik, testuak analizatzen dituzten plataforma anitzeko mahaigaineko aplikazioa. Test bat edo batzuen semantika orientazioa (positiboa edo negatiboa den eta zein gradutan) zehazten du, polaritatea zehazten duen adierazpen linguistikoak detektatuz.
  • Luxid – TEMIS, informazio inteligentearen ingurunearen software argitaletxea da. Bere Luxid softwarea, testu analisirako erremintak eskaintzen ditu: edukien sailkapena, kontzeptu erauzketa, sentimenduaren analisia…
  • Nstein Technologies – testu analisi eta web edukia maneiatzeko teknologien hornitzailea.
  • QDA Miner – metodo kualitatibo eta mistoen kodifikazio, analisi eta txosten idazketa softwarea.
  • SAS Enterprise Miner – testu-meatzaritza softwarea.
  • SAS Text Analytics – testu-meatzaritza, sentimenduen analisia, edukien sailkapena, eta kontzeptuen erauzketarako softwarea.
  • SPSS – TextSmart, SPSS Texct Analysis for Surveys eta Clementine-ren hornitzailea, beste SPSSrekin erabili daiteke.
  • TALTAC2 – testu datuen analisirako softwarea. Edukia edo propietateak deskribatu eta interpretatzea dauka helburu.
  • Textalytics – APIak hodeian izan: testu-meatzaritza, sentimenduen analisia, edukien sailkapena, eta kontzeptuen erauzketak.
  • TextAnalyst – meatzaritza komertzial softwarea.
  • Textalyser – testuen estatistika ikusteko analisi erreminta.
  • Topicalizer – erreminta bat, webgune eta beste testuen estatistikak sortzeko.
  • WordStat – eduki analisia eta testu-meatzaritza softwarea.
  • Weka – eduki analisia eta testu-meatzaritza, datu eta sailkapen softwarea.

Inplikazioak[aldatu | aldatu iturburu kodea]

Duela gutxi arte, webguneak gehienetan erabiltzen zuten testuan oinarritutako bilaketak, zeintzuk bakarrik aurkitzen zituzten erabiltzaileak definitutako hitz edo esaldiak zituzten dokumentuak. Gaur egun, web-semantikaren erabileraren bidez, testu-meatzaritzak aurkitu ditzake edukiak oinarrituz esanahian eta testuinguruan (zehaztutako hitzen beharrean). Gainera, testu-meatzaritza softwarea erabili daiteke espediente luzeak eraikitzeko pertsona edo ekitaldi zehatzei buruz. Adibidez, erreportaje berrietatik ateratako datu-multzo luzeak eraiki daitezke errazteko sare sozialen analisia. Testu-meatzaritza softwareak jardun dezake adimen analista edo liburutegiko bilatzaile gisa, nahiz eta analisia eremu mugatuagoa den. Testu-meatzaritza oso erabilia da zabor-posta, bide bat da definitzeko mezu baten karakteristikak, konparatzeko iragarkiekin edo bilatzen ez den materialarekin. Testu-meatzaritzak paper garrantzitsua jokatzen du finantza merkatu sentimenduan.

Etorkizunean[aldatu | aldatu iturburu kodea]

Gero eta interes gehiago sortzen ari da datu-meatzaritza eleanitzean:  informazioa hizkuntza ezberdinetan lortzeko eta hizkuntza-iturri desberdinetako antzeko elementuak beren esanahiaren arabera biltzeko gaitasuna.

Enpresek proportzio handian modu ez-egituratuan sortzen duten informazioa ustiatzeko erronka aitortu izan da hamarkadetan.

Enpresen Adimenaren (EA) lehenengo definizioan aitortzen da, 1958ko urrian IBM Journal-eko artikulu batean H. P. Luhn-en artikulu batean, Enpresen Adimenaren Sistema, bertan deskribatzen duen sistema horrelakoa izango da:

"....erabili datuak prozesatzeko makinak dokumentuen auto-abstrakzio eta autokodeketarako eta erakundeko "ekintza puntuetako" bakoitzeko profilak sortzeko. Jasotako eta barrutik sortutako dokumentuak automatikoki abstraitzen dira, hitz-patroiaz karakterizatuak dira eta automatikoki ekintza-puntu egokietara bidaltzen dira."

Zergatik behar dugu?[aldatu | aldatu iturburu kodea]

Testu-meatzaritzak aplikazio asko ditu. Adibidez, testu-meatzaritzak, zenbait domeinu eta teknologia berriak eta berritzailek aurkitzen lagundu dezake. Informazio eta ezagutza berria sortzeko metodo eraginkor bat da. Praktika honek, enpresei laguntzen die testu luzeen eta laburpen literarioen irakurketa denbora murrizten. Honek esanahi du gako baliabideak azkarrago eta eragin gehiagorekin bilatu ditzakegula. Halaber, erabiltzaileei baimentzen die  informazio berria lortzea, beste era batera, zaila izango zena.

Testu egituratuak ez diren testu guztietako administrazioaren arazo nagusiak, testua idazteko arau estandarrak ez izatea eta ordenagailuak ulertu ahal izatea da. Hizkuntza eta beraz, esanahia, dokumentu batetik bestera aldatu egiten da. Datu ez-egituratuak  berreskuratzeko eta antolatzeko modu bakarra, hizkuntza aztertzea eta bere esanahia bilatzea da. Metodo automatiko ezberdinak daude, informazio  kontzeptu ez egituratuak lortzeko. Metodo hauek bi motetan bana daitezke; linguistikoak eta ez-linguistikoak. Zenbait erakundek saiatu dira soluzio automatiko ez-linguistikoak erabiltzen, estatistikan eta sare neuronaletan oinarrituz. Informatikako teknologiaren bitartez, soluzio hauek arakatu eta sailkatu ditzakete kontzeptu gako hauek askoz azkarrago giza irakurleek baino. Zoritxarrez, soluzio hauen prezisioa oso baxua da. Estatistikan oinarritutako sistema gehienak, bakarrik kontatzen dituzte zenbat aldiz errepikatzen diren hitz bakoitza, eta kontzeptu erlazioen hurbilpen estatistiko bat kalkulatzen dute. Garrantzirik gabeko emaitza eta alferrikako datuak sortzen dituzte, eta aurkituak izan behar ziren emaitza asko ahazten dituzte, termino isilak deitzen zaie.

Prezisioko muga hau konpentsatzeko, hainbat soluzio barneratzen dituzte erregela ez linguistiko konplexuak, garrantziko eta garrantzirik gabeko emaitzak bereizten laguntzen dutenak. Hauek testu-meatzaritza erregeletan oinarrituta gisa ezagutzen dira.

Linguistikan oinarritutako testu-meatzaritza, bestaldetik, (NLP) Lengoaia Naturaleko Prozesamenduko printzipioak aplikatzen ditu, giza lengoaietako sistema batetik lagundutako analisia; hitzen, esaldien eta sintaxien analisia, edo testu baten egitura. NLP sistema barneratzen duen teknologia batek, erazagutu ditzake kontzeptuak era inteligentean (esaldi osatuak barne). Gainera, lengoaia nagusiko azpiko lengoaien ezagutza baimentzen du kontzeptuak erlazionatutako taldeetan sailkatzea (hala nola, produktuak, entitateak edo pertsonak), esanahia eta testuingurua erabiliz.

Linguistikan oinarritutako testu-meatzaritza, pertsonak egiten duten bezala, testuaren  esanahia aurkitzen du, hitzen era askotarikoak ezagutuz, hauen esanahia eta egitura analizatuz, azpiegiturak laguntzen du testua ulertzen. Metodo honek, estatistikan oinarritutako sistemak bezala, abiadura eta errentagarritasuna eskaintzen du, baina giza parte-hartzea gutxituz eta prezisio maila handiagotuz.

Erauzketa prozesuaa ezberdintzen da estatistikan edo linguistikan oinarritutako planteamenduak. Estatistikan nahiz linguistikan oinarritutako soluzioak, biek handiagotu beharko lukete hitzen sinonimoak, bestela, ahaztuko lukete informazio garrantzitsua. Hizkuntza baten ulermena, gutxitzen du testuen anbiguotasuna, eta honek testu-meatzaritza fidagarriago bihurtzen du.

Nola funtzionatzen du testu- eta datu-meatzaritzak?[aldatu | aldatu iturburu kodea]

1) Bildu: datuak bildu baliabide ezberdinetatik, hala nola, webguneak, posta elektronikoa, bezeroen iruzkinak eta dokumentuetatik. Aplikazioaren arabera, prozesu hau guztiz automatizatua izan daiteke edo pertsona batez gidatua.

2) Aurreprozesua: edukiaren identifikazioa eta ezaugarrien erauzketa. Datuak inportatzen dira eta formatu uniforme batetan bihurtzen dira,non hauek erabili daitezke beste analisi batzuk egiteko. Bihurketa hau barrutik egiten da eta ez ditu jatorrizko datuak aldatzen.

3) Indizea (testu garbiketa): ezabatu edozein alferrikako edo nahigabeko informazio, esate baterako iragarkiak. Garrantzitsua da ulertzea baliabide linguistikoen rola, termino hautagaien identifikazioan erauzketa linguistiko garaian. Baliabide linguistikoak, erauzketan beti erabiltzen dira. Badira txantiloi formakoak, liburutegiak, eta konpilatutako baliabideak. Liburutegiak, erauzketa zehazteko edo egokitzeko, hitz lista, erlazioak eta bestelako informazioa barneratzen ditu. Konpilatutako baliabideak ezin dira ikusi ezta editatu. Ordea, gainerako baliabideak editatu daitezke txantiloi editore batekin edo, baliabideen editore batean aurkitzen baldin bada lan interaktibo ingurumeneko sesioi bat.

Konpilatutako baliabideak, IBM SPSS Modeler Text Analytics erazagupenean, barruko osagai nagusiak dira. Baliabide hauek barneratzen dute hiztegi orokor bat, non barruan duen oinarrizko formatuen sailkapen lexikoen lista (lexikoa, aditza, adjektiboa, …).

Baliabide konpilatuez gain, hainbat liburutegi entregatzen dira produktuarekin batera, eta erabil daitezke osatzeko baliabide konpilatuen mota eta definizioak, hala nola sinonimoak eskainiz. Liburutegi hauek (eta sortutako pertsonalizatuak) hainbat hiztegiz osatzen dira. Hauek, mota hiztegia, sinonimo hiztegiak eta bazterketa hiztegiak barneratzen dituzte.

Behin datuak inportatuta eta bihurtuta, erauzketa motorra hasiko da hautagai terminoak identifikatzen erauzketarako, hitzak edo hitz multzoak dira. Testu prozesaketa bitartean, hitz sinpleak (unitermino) eta hitz osatuak (multitermino)  identifikatzen dira, sailkapen lexikoen erauzketa patroien biez. Jarraian, testu sentimenduen estekentzako hautagai diren sentimenduko hitz gakoak identifikatzen dira analisi bidez.

Hiztegi orokorrean konpilatutako terminoak, interes gutxiko edo linguistika arloan anbiguoak izan daitezkeen hitz guztien lista bat ordezkatzen du. Hitz hauek baztertzen dira erauzketak behin identifikatuak izan direnean. Ordea, berriro ebaluatuak izango dira sailkapen lexikoa zehaztuko direnean, baina ez dira bilatuko hitz osatu hautagai luzeagoak bilatuko direnean.

4) Meatzaritza (Tokenizazioa): ordenagailu batek, bakarrik “ikusten” du karaktere kateak, identifikatu ezinik, adibidez, paragrafoak, esaldiak edo hitzak. Tokenizazioa, hutsuneak eta puntuazio zeinuen arabera, testua zatitzen du entitate esanguratsuetan (hitzak, esaldiak, …). Hautagai uniterminoak eta multiterminoak identifikatu ondoren, hiztegi normalizatu bat erabiltzen du softwarea hitz baliokideak eta klaseak identifikatzeko. Esaldi baten oinarrizko formatua edo forma batean esaldi bereko bi aldaerak da klase baliokide bat. Honen helburua da bermatzea baliokidetzak, adibidez, bigarren mailako efektua ez dela banatutako kontzeptu bat. Baliokidetza klaseetan kontzeptuak zehazteko, erauzketa motorrak honako erregelak aplikatzen ditu:

  • Liburutegi batean, erabiltzaileak zehaztutako forma.
  • Lehenago konpilatutako baliabideek maiz zehaztutako forma.

5) Analisia (ezaugarrien erauzketa): karakterizazio prozesua da. Jarraian, ateratako kontzeptuei tipo bat ezartzen zaie. Liburutegiak bezalako baliabide konpilatuak erabiltzen dira pauso honetan. Tipo mota, honako maila altuko kontzeptuak barneratzen ditu: hitz positibo eta negatiboak, izen bereziak, lekuak, organizazioak, …

Sistema linguistikoak, ezagutzari sentigarriak dira: hiztegietan zenbat eta informazio kopuru gehiago izan, orduan eta handiagoa izango da emaitzen kalitatea. Hiztegiko edukiaren modifikazioa, hala nola, sinonimoen definizioa, emaitzen ondorioa sinplifikatu dezake. Batzuetan, prozesu iteratibo bat gerta liteke, baina beharrezkoa da errekuperazio kontzeptual zehatz baterako. NLP, IBM SPSS Modeler Text Analytics-en elementu nagusi bat da.

Nolako pertsonak egiten dute testu-meatzaritza?[aldatu | aldatu iturburu kodea]

Testu-meatzaritzaren teknologia, gaur egun, erabiltzaile anitzengatik aplikatua izan ohi da, gobernuko erakundeetatik, ikerketa eta enpresa erakundeetaraino, beraien eguneroko beharrak asetzeko. Hauek dira eremu ezberdinetako zenbait adibide:

Ikerketa: adibidez, ezagutzaren aurkikuntza, medikuntza eta osasun atentzioa: aitzinean, analizatzea eta informazio nabarmena lortzea, denbora asko eramaten zieten giza ikertzaile bati. Zenbait kasutan, informazio hau ez zen irisgarria. Testu-meatzaritzak baimentzen die ikertzaileei, informazioa gehiago aurkitzen eta modu azkar eta eraginkor batean.

Negozio: adibidez, enpresa handiak testu-meatzaritza erabiltzen dute, laguntzeko erabakiak hartzen eta azkarrago erantzuten bezeroen kontsultak, arrisku kudeaketan edo curriculumen sailkapenean.

Segurtasuna: terrorismoaren aurkako alorrean, blogen eta beste testu iturrien analisian erabiltzen da, Interneteko krimenetan eta iruzurrak saihestako.

Egunerokoan: testu-meatzaritza erabili ohi dute posta elektronikoko webgunetan, sortzeko sailkapen metodo fidagarri eta eraginkorragoak, spamen iragazkian, gizabide-komunikazioko datuen analisirako, … Baita, identifikatzeko erabiltzaileen eta zenbait produktu edo zenbait gaiei buruzko ikuspegiak erlazionatzeko.

Testu-meatzaritza teknikak[aldatu | aldatu iturburu kodea]

Testu-meatzaritzan, hiru teknika existitzen dira eta interesatu oro ezagutu beharko luke:

  • Terminoen erauzketa, oinarrizko teknika da non termino gakoak eta erakunde logikoak identifikatzen ditu. Testu-meatzaritzako oinarrizko formatua da, datu-egitura sinpleena da ezaugarrien bektorea, testuan agertzen diren hitz haztatuen lista bat da.
  • Informazioaren erauzketa, oinarritzen da testuetatik erauzitako terminoetan oinarrizko erlazioak identifikatzeko. Izan liteke enpresa ezberdinen fusioan dauden funtzio ezberdinak, informazio erauzketa oinarritzen da ekitaldi bat osatzen duten gertakari multzoan.
  • Analisi erlazionalean, prozesu konplexuetarako urrats anitzeko ereduak sortzeko hainbat loturen konbinaketan, tekniken multzo bat da, non baimentzen du hainbat entitateen arteko hainbat konexioetako, erlazioetan ideia bat izatea.

Testu-meatzaritzaren onurak[aldatu | aldatu iturburu kodea]

  • Abiadura eta kostua: ekonomia eskala handiak heldu daitezke eskuzko kodifikazioarekin konparatuz, bereziki, analizatuak izan behar diren datu handiak eta errepikagarriak. Behin parametroak ezarri eta balidatzen direnean, prozesua automatizatzen da, nahiz eta beharrezkoa den giza parte-hartzea ziurtatzeko funtzionamendu egoki eta zehatza dela.
  • Trinkotasuna: analisia, eskuzko kodifikazioa baino trinkoagoa da aldagaiei esker, honek, esanahi du emaitzen aldaketak, benetako aldaketak izango direla eta ez planteamendu ezberdineko kodifikazioa. Gainera, honek baimentzen iturri ezberdinetako datuen barneraketa, konparazio eta esteka nabarmenei analisi iragarle hobeagoa egin ahal izateko.
  • Eskalagarritasuna: behin parametroak ezarri direnean negozio gai zehatz batean, beste proiektuetako datuak analizatuak izan daitezke eraginkortasun handiagorekin eta parametro berdina erabiliz.
  • Sinpletasun: datu ez-egituratuak bereziki konplexuak dira, baina testu-meatzaritzari esker, errazagoa da sailkatzea, bilatzea eta datuen arteko erreferentziak izatea ikuspegi bateratu batean.
  • Idei hoberenak: testu-meatzaritza ez da eskuzko kodifikazioaren aukera ekonomiko bat bakarrik, baita, esanahiak eta inteligentzia erauzteko, eta testu bitarteko predikazioak handitzeko erreminta.

Ikusi ere[aldatu | aldatu iturburu kodea]

Hiztegi mota

Text mining

Mineria de textos

En que consiste el text mining

Erreferentziak[aldatu | aldatu iturburu kodea]

Aipatuak[aldatu | aldatu iturburu kodea]