Anomalien detekzioa
Datuen analisian, anomalien detekzioa [balio atipikoen detekzioa ere esaten zaio (Ingelesez: outlier detection)] eta, batzuetan, bitxikerien detekzioa (novelty detection), datu gehienetatik modu esanguratsuan desbideratzen diren eta portaera normalaren nozio ongi definitu batera egokitzen ez diren elementu, gertakari edo behaketa ezohikoen identifikaziotzat hartzen da.[1] Horrelako adibideek susmoa piztu dezakete mekanismo desberdin batek sortu dituela, edo datu-multzo horretako gainontzekoekin bat ez datozela dirudi.
Anomaliak hautemateak eremu askotan du aplikazioa, hala nola zibersegurtasunean, medikuntzan, ikusmen artifizialean, estatistikan, neurozientzian, legearen aplikazioan eta finantza-iruzurrean, batzuk bakarrik aipatzearren. Hasiera batean, anomaliak datuetatik argi eta garbi baztertzeko bilatzen ziren, analisi estatistikoa errazteko, adibidez batez bestekoa edo desbiderapen estandarra kalkulatzeko. Erregresio lineala bezalako ereduen iragarpenak hobetzeko ere ezabatzen ziren eta, duela gutxira arte, horiek ezabatzeak ikasketa automatikoko algoritmoen errendimendua hobetzen laguntzen du. Hala ere, aplikazio askotan, anomaliak berak interesgarriak dira, eta datu-multzo osoaren behaketa desiragarrienak dira, trafikotik edo balio atipiko hutsaletatik identifikatu eta bereizi behar direnak.
Anomaliak detektatzeko hiru teknika-kategoria handi daude.[1] Anomaliak detektatzeko teknika ikaskuntza gainbegiratuek "normal" eta "anormal" gisa etiketatutako datu-multzo bat behar dute, eta sailkatzaile baten entrenamendua eskatzen dute. Hala ere, ikuspegi hori oso gutxitan erabiltzen da anomaliak detektatzeko, etiketatutako datuen eskuragarritasun orokorragatik eta klaseen berezko izaera desorekatuagatik. Anomaliak antzemateko teknika semi-gainbegiratuen arabera, datuen zati bat etiketatuta dago. Datu normalen edo anomaloen edozein konbinazio izan daiteke, baina ohikoena da teknikek portaera normala irudikatzen duen eredu bat eraikitzea, entrenamenduko datu normalen multzo jakin batean oinarrituta, eta, hortik abiatuta, modeloak proba-instantzia bat sortzeko probabilitatea egiaztatzea. Anomaliak detektatzeko teknika ez-gainbegiratuen arabera, datuak ez daude etiketatuta. Gehien erabiltzen direnak dira, aplikazio zabalagoa eta egokiagoa dutelako.
Definizioak
[aldatu | aldatu iturburu kodea]Estatistika eta informatika komunitateetan hainbat saiakera egin dira anomalia bat definitzeko. Ohikoenak honako hauek dira:
- Balio gainerakorra beste behaketa guztietatik hainbeste urruntzen den behaketa bat da, ezen susmoa pizten baitu mekanismo desberdin batek sortu duela.
- Anomaliak datu multzoan oso gutxitan agertzen diren kasuak edo datu multzoak dira, eta haien ezaugarriak nabarmen ezberdinak dira datu gehienekin alderatuta.
- Balio gainerakorra datu multzo horren gainerakoarekin koherentea ez dirudien behaketa bat (edo behaketen azpimultzo bat) da.
- Anomalia dimentsio anitzeko ezaugarri-espazio batean beste puntu batzuetatik nahiko urrun dagoen puntu bat edo puntu multzo bat da.
- Anomaliak datuetan agertzen diren eta portaera normalaren nozio ondo definitu bati egokitzen ez zaizkion ereduak dira.[2]
- T behaketa ditugula banaketa gaussiar unibariant batetik eta O T-ko puntu bat dela. Orduan, O-ren z-puntuazioa aurrez ezarritako atalase bat baino handiagoa da eta soilik eta soilik O anomalia bada.
Aplikazioak
[aldatu | aldatu iturburu kodea]Anomalien detekzioa oso eremu ugari eta askotarikoetan aplikagarria da, eta ikaskuntza automatiko ez-gainbegiratuaren azpi-arlo garrantzitsu bat da. Horrela, aplikazioak ditu zibersegurtasunean sarrera-intrusen detekzioan (adibidez, IDSetan), iruzurren detekzioan, akatsen detekzioan, sistemaren osasun-zaintzan, sentsore-sareetako gertaeren detekzioan, ekosistemetako nahasmenduen detekzioan, ikusmen artifizialaren bidez irudietako akatsen detekzioan, diagnostiko medikoan eta legearen aplikazioan.
Anomalien detekzioa Dorothy Denningek proposatu zuen 1986an intrusio-detekzio-sistematan (IDS). IDSetarako anomalien detekzioa normalean atalaseak eta estatistikak erabiliz egiten da, baina soft computing bidez eta ikasketa induktiboa erabiliz ere egin daiteke. 1999an proposatutako estatistika-moten artean zeuden erabiltzaileen profilak, lan-estazioak, sareak, urruneko hostak, erabiltzaile-taldeak eta maiztasunetan, batezbestekoetan, bariantzan, kobariantzan eta desbideratze estandarretan oinarritutako programak. Anomalien detekzioaren kontrako ikuspegia, intrusio-detekzioan, erabilera desegokiaren detekzioa da.
Askotan erabiltzen da aurreprozesamenduan datu multzotik datu anomaloak kentzeko. Hori hainbat arrazoirengatik egiten da. Datuetako estatistikak, hala nola batezbestekoa eta desbideratze estandarra, zehatzagoak dira anomaliak kendu ondoren, eta datu-bistaratzea ere hobetu daiteke. Ikaskuntza gainbegiratuan, datu anomaloak kentzeak normalean zehaztasunaren igoera estatistikoki esanguratsua eragiten du.[3] Anomaliak ere sarritan datuetan aurkitu behar diren behaketa garrantzitsuenak izaten dira, esaterako intrusioen detekzioan edo irudi medikoetan anomalien detekzioan.
Teknika ezagunak
[aldatu | aldatu iturburu kodea]Literaturan anomaliak detektatzeko teknika asko proposatu dira.[4][5] Teknikarik ezagunenetako batzuk honako hauek dira:
- Estatistikak (unitate tipifikatua, Tukey-ren tarte-proba eta Grubbs-en proba)
- Dentsitatean oinarritutako teknikak (k auzorik hurbilenak,[6] faktore gainerakor lokala, isolamendu-basoa,[7] eta kontzeptu honen bestelako aldakuntza ugari[8])
- Azpiespazioan, korrelazioan eta tentsorean[9] oinarritutako balio gainerakorren detekzioa dimentsio handiko datuetarako[10]
- Klase bakarreko euskarri-bektore makinak (SVM)[11]
- Sare neuronal errepikatzaileak, autokodeatzaileak (autoencoders), aldaera-automodulatzaileak (VAE), eta aldi laburreko memoriadun sare neuronalak (LSTM).
- Sare bayestarrak
- Markov eredu ezkutuak (HMM)
- Gutxieneko kobariantza-determinantea[12][13]
- Taldekatzea: talde-analisiaren bidezko balio gainerakorren detekzioa[14][15]
- Elkartze-arauen eta item multzo maizen desbideratzeak
- Logika difusoan oinarritutako balio gainerakorren detekzioa
- Talde-teknikak: feature bagging, puntuazioen normalizazioa eta dibertsitate-iturri desberdinak erabiltzen dituzten teknikak[16]
Metodoen errendimendua datu-multzoaren eta parametroen araberakoa da, eta, oro har, metodoek ez dute abantaila sistematiko handirik besteekiko datu-multzo eta parametro askoren gainean alderatuta.[17]
Anomalien azaltzeko moduko detekzioa
[aldatu | aldatu iturburu kodea]Aipatutako metodo askok anomalia-puntuazioaren aurreikuspena baino ez dute eskaintzen, eta hori erabiltzaileei azal dakieke puntua datuen dentsitate txikiko eremu batean dagoela (edo auzoen dentsitateekin alderatuta dentsitate erlatiboki txikian). Hala ere, azalgarritasunaren arloan (adimen artifiziala), erabiltzaileek azalpen-ahalmen handiagoko metodoak eskatzen dituzte. Metodo batzuek azalpen zehatzagoak eskaintzen dituzte:
- Azpiespazioko Balio Gainerakorren Gradua (Subspace Outlier Degree, SOD) lagin bat zein atribututan den normala identifikatzen du, eta zein atribututan desbideratzen den espero den portaeratik.
- Balio Gainerakorren Korrelazio Probabilitateak (Correlation Outlier Probabilities, COP) lagin batek kokapen espero batetik zenbateraino desbideratzen den adierazten duen errore-bektore bat kalkulatzen dute; hori kontrafaktual gisa interpreta daiteke: lagina normala izango litzateke kokapen horretara eramango balitz.
Softwarea
[aldatu | aldatu iturburu kodea]- ELKI Java bidezko kode irekiko datu-meatzaritza tresna-multzo bat da, anomaliak detektatzeko algoritmo ugari eta hauek azkartzeko indizeak barne hartzen dituena.
- PyOD Python bidezko kode irekiko liburutegi bat da, bereziki anomaliak detektatzeko garatua.
- Scikit-learn Python bidezko kode irekiko liburutegi bat da, anomalia ez-gainbegiratuen detekziorako algoritmo batzuk eskaintzen dituena.
- Wolfram Mathematica-k datu mota anitzetan oinarritutako anomalia ez-gainbegiratuen detekzio-funtzionalitatea eskaintzen du.
Datu-multzoak
[aldatu | aldatu iturburu kodea]- Anomalien detekziorako erreferentzia-datuen biltegia, Ludwig-Maximilians-Universität München unibertsitateak arretaz hautatutako datu-multzoekin; Mirror São Pauloko Unibertsitatean ere eskuragarri.
- ODDS – Balio gainerakorren detekziorako publikoan eskuragarri dauden datu-multzoen bilduma handia, hainbat domeinutan egiaztatutako errealitatearekin (ground truth).
- Unsupervised Anomaly Detection Benchmark Harvard Dataverse-n: anomalia ez-gainbegiratuen detekziorako datu-multzoak, errealitate egiaztatua dutela.
- KMASH Data Repository Research Data Australia plataforman, 12.000 datu-multzo baino gehiago biltzen dituena, guztiek egiaztatutako errealitatea dutelarik.
Erreferentzia
[aldatu | aldatu iturburu kodea]- 1 2 (Ingelesez) Chandola, Varun; Banerjee, Arindam; Kumar, Vipin. (2009-07). «Anomaly detection: A survey» ACM Computing Surveys 41 (3): 1–58. doi:. ISSN 0360-0300. (kontsulta data: 2025-12-03).
- ↑ (Ingelesez) Chandola, Varun; Banerjee, Arindam; Kumar, Vipin. (2009-07). «Anomaly detection: A survey» ACM Computing Surveys 41 (3): 1–58. doi:. ISSN 0360-0300. (kontsulta data: 2025-12-09).
- ↑ «An Experiment with the Edited Nearest-Neighbor Rule» IEEE Transactions on Systems, Man, and Cybernetics SMC-6 (6): 448–452. 1976-06 doi:. ISSN 0018-9472. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Chandola, Varun; Banerjee, Arindam; Kumar, Vipin. (2009-07). «Anomaly detection: A survey» ACM Computing Surveys 41 (3): 1–58. doi:. ISSN 0360-0300. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Zimek, Arthur; Filzmoser, Peter. (2018-11). «There and back again: Outlier detection between statistical reasoning and data mining algorithms» WIREs Data Mining and Knowledge Discovery 8 (6) doi:. ISSN 1942-4787. (kontsulta data: 2025-12-09).
- ↑ Knorr, Edwin M.; Ng, Raymond T.; Tucakov, Vladimir. (2000-02-01). «Distance-based outliers: algorithms and applications» The VLDB Journal The International Journal on Very Large Data Bases 8 (3-4): 237–253. doi:. ISSN 1066-8888. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua. (2012-03). «Isolation-Based Anomaly Detection» ACM Transactions on Knowledge Discovery from Data 6 (1): 1–39. doi:. ISSN 1556-4681. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Schubert, Erich; Zimek, Arthur; Kriegel, Hans-Peter. (2014-01). «Local outlier detection reconsidered: a generalized view on locality with applications to spatial, video, and network outlier detection» Data Mining and Knowledge Discovery 28 (1): 190–237. doi:. ISSN 1384-5810. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Fanaee-T, Hadi; Gama, João. (2016-04). «Tensor-based anomaly detection: An interdisciplinary survey» Knowledge-Based Systems 98: 130–147. doi:. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Zimek, Arthur; Schubert, Erich; Kriegel, Hans‐Peter. (2012-10). «A survey on unsupervised outlier detection in high‐dimensional numerical data» Statistical Analysis and Data Mining: The ASA Data Science Journal 5 (5): 363–387. doi:. ISSN 1932-1864. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Schölkopf, Bernhard; Platt, John C.; Shawe-Taylor, John; Smola, Alex J.; Williamson, Robert C.. (2001-07-01). «Estimating the Support of a High-Dimensional Distribution» Neural Computation 13 (7): 1443–1471. doi:. ISSN 0899-7667. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Hubert, Mia; Debruyne, Michiel; Rousseeuw, Peter J.. (2018-05). «Minimum covariance determinant and extensions» WIREs Computational Statistics 10 (3) doi:. ISSN 1939-5108. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Hubert, Mia; Debruyne, Michiel. (2010-01). «Minimum covariance determinant» WIREs Computational Statistics 2 (1): 36–43. doi:. ISSN 1939-5108. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) He, Zengyou; Xu, Xiaofei; Deng, Shengchun. (2003-06). «Discovering cluster-based local outliers» Pattern Recognition Letters 24 (9-10): 1641–1650. doi:. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Campello, Ricardo J. G. B.; Moulavi, Davoud; Zimek, Arthur; Sander, Jörg. (2015-07-27). «Hierarchical Density Estimates for Data Clustering, Visualization, and Outlier Detection» ACM Transactions on Knowledge Discovery from Data 10 (1): 1–51. doi:. ISSN 1556-4681. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Zimek, Arthur; Campello, Ricardo J.G.B.; Sander, Jörg. (2014-03-17). «Ensembles for unsupervised outlier detection: challenges and research questions a position paper» ACM SIGKDD Explorations Newsletter 15 (1): 11–22. doi:. ISSN 1931-0145. (kontsulta data: 2025-12-09).
- ↑ (Ingelesez) Campos, Guilherme O.; Zimek, Arthur; Sander, Jörg; Campello, Ricardo J. G. B.; Micenková, Barbora; Schubert, Erich; Assent, Ira; Houle, Michael E.. (2016-07). «On the evaluation of unsupervised outlier detection: measures, datasets, and an empirical study» Data Mining and Knowledge Discovery 30 (4): 891–927. doi:. ISSN 1384-5810. (kontsulta data: 2025-12-09).