Datu handiak

Wikipedia, Entziklopedia askea
Jump to navigation Jump to search

Datu handiak edo datu masiboak (ingelesez: Big data) prozesatzeko oso multzo handia osatzen duten datuak dira, konplexutasun handikoak; ohiko informatika-sistementzat zaila izaten da horrelako datuak prozesatzea.[1] Bere analisi, tratamendu, eskuratze, partekatze eta babeste erronka handiak dira. Gehienetan, iragarpen analitikoak egiteko erabiltzen dituzte[2] Interneteko bilakaeran, finantzetan, meteorologian, genetikan[3] eta beste hainbat arlotan.

1980ko hamarkadatik aurrera, 40 hilabetero munduan informazioa pilatzeko gaitasuna bikoiztu egin da;[4] 2012. urtean, egunero 2,5 exabyte (2,5×1018) datu sortzen zen.[5] Datu masiboen bolumena etengabe hazten da. Termino hau 1990. hamarkadatik aurrera erabili da eta, batzuek, John Mashey zientzilariari[6] eman diote hedatzearen ospea. 2012an bere tamaina hamabi terabyte eta hainbat petabyte artekoa zela balioztatu zen datu multzo bakar batean. MIKE2.0 metodologiak definizio hau ematen du Datu handientzat: "informazioaren kudeaketarekin erlazionaturiko gaiak ikertzen ditu, permutazio erabilgarrien, konplexutasunen eta erregistro indibidualak ezabatzeko zailtasunen terminoetan".[7]

2001ean, kongresu eta erlazionatutako aurkezpenetan oinarritzen zen ikerketa txosten batean[8], META Group (orain Gartner) enpresak datuen hazkuntza konstantea bolumena, abiadura eta aniztasuna ikertzeko aukera eta erronka bezala definitzen zuen[9]. Gartner enpresak datu masiboak erreferentzia bezala erabiltzen jarraitzen du. Gainera, datu masiboen merkatuko hornitzaile handiek datu kantitate horien prozesatzeari buruzko eskaera kritikoenei erantzuteko irtenbideak garatzen dituzte, hala nola, MapR eta Cloudera.

2016ko definizio batek terminoa horrela definitzen du: “Datu handiek balioan eraldatzeko teknologia espezifiko eta metodo analitikoak beharrezkoak dituen bolumen, abiadura eta aniztasun handiagatik bereizitako informazio aktiboa adierazten dute”[10]. Gainera, erakunde batzuek beste V bat gehitzen dute, alegia, deskribatzeko egiazkotasuna[11] (gaztelaniaz Veracidad para describir), industriaren autoritate batzuek zalantzan jartzen duten errebisionismoa dena[12].

Hiru Vak[aldatu | aldatu iturburu kodea]

Hiru Vak, bolumena, abiadura eta aniztasuna (gaztelaniaz Volumen, Velocidad y Variabilidad) Datu handien beste ezaugarri osagarrietara hedatu dira:

  • Ikasketa automatikoa: Datu handiek sarritan ez dute zergatik galdetzen eta ereduak soilik antzematen dituzte[13]
  • Aztarna digitala: Datu handiak sarri interakzio digitalaren kosturik gabeko azpiproduktu bat dira.

Kontzeptuaren heldutasunaren hazkuntzak Datu handien eta adimen enpresarialaren desberdintasuna modu garbiago batean definitzen du:

  • Adimen Enpresarialak estatistika deskribatzaileak erabiltzen ditu dentsitate altuko informazioa duten datuekin gauzak neurtzeko, joerak antzemateko…
  • Datu handiek estatistika induktiboak eta sistema ez linealen[14] identifikazioaren kontzeptuak erabiltzen dituzte dentsitate baxuko informazioa duten datu multzo handietatik legeak inferitzeko, erlazio eta menpekotasunak ezagutarazteko edo ondorio eta jokabideen iragarpenak egiteko.[15]

Aplikazioak[aldatu | aldatu iturburu kodea]

Datu handiak hedabide, enpresen eta gobernuen industrian publikoari zehaztasun handiagoarekin zuzentzeko eta mezuen efizientzia handitzeko erabili izan dira.

Datu handiek informazioaren kudeaketaren adituen eskaria hainbeste handitu dute, non Software AG, Oracle Corporation, IBM, Microsoft, SAP, EMC, HP eta Dell enpresek 15 mila milioi dolar gastatu dituztela datuen kudeaketa eta analisian adituak diren software enpresetan. 2010ean industria honek 100 mila milioi dolar baino gehiago balio zituen eta ia % 10 hazten zen urtero: software negozio orokorra baino bi aldiz azkarrago.[16]

Garatutako ekonomiek gero eta gehiago erabiltzen dituzte teknologia intentsiboak datuetan. Munduan 4600 milioi harpidetza daude telefono mugikorretan eta 1000 eta 2000 milioi pertsona inguruk Interneta erabiltzen dute. 1990etik 2005era arte, munduan mila milioi pertsona baino gehiago erdi mailako klasean sartu ziren, honek, milioika pertsona alfabetatu bihurtu zirela esan nahi du eta, horrekin batera, informazioaren hazkuntza gertatu zen. 1986an telekomunikazio sareen bitartez informazioa trukatzeko munduko ahalmen efektiboa 281 petabytekoa zen, 471 petabyte 1993an, 2.2 exabyte 2000n, 65 exabyte 2007an[17] eta iragarpenek 667 exabyteko kuantifikazioa egin zuten 2014rako Internet zirkulazioari dagokionez. Zenbatespen baten ustez, munduan bildutako informazioaren heren bat testu alfanumeriko eta irudi finko[18] moduan dago, zeina formatu erabilgarriena den Datu handien aplikazio gehienentzat. Hau oraindik erabili ez diren datuen potentzialaren erakusgai da (hau da, bideo eta audio edukiaren moduan).

Hornitzaile askok Datu handientzat soluzio estandarrak eskaintzen dituzten arren, adituek barne-irtenbide pertsonalizatuen garapena gomendatzen dute enpresaren arazoa konpontzeko, gaitasun tekniko nahikoak baldin baditu.[19]

Gobernua[aldatu | aldatu iturburu kodea]

Datu handien erabilerak gobernuko prozesuetan kostu, produktibitate eta berrikuntza terminoetan efizientzia ahalbidetzen du, baina gabeziak ere baditu[20]. Datuen analisiak, askotan, nahi den emaitza lortzeko gobernuko hainbat aldek lankidetzan lan egitea eta prozesu berriak sortzea beharrezkoa du.

Datu masiboak, normalean, prozesu demokratikoan eragiteko erabiltzen dira. Herriaren ordezkariek herritarrek egiten duten guztia ikus dezakete eta herritarrek ordezkarien bizitza publikoa iradoki dezakete txio eta ideiak gizartean hedatzeko beste metodo batzuen bitartez. Obama eta Trump presidenteen kanpainek modu orokortu batean erabili zituzten[21] eta aditu batzuek ohartarazten dute “demokrazia adierazgarria birsortu behar da. Bestela, posible da informazioaren diktadura bihurtzea”.[22]

Nazioarteko garapena[aldatu | aldatu iturburu kodea]

Informazio eta komunikazio teknologien erabilera eraginkorrari buruzko ikerketak, (ICT4D bezala ezagututa) Datu handien teknologiek ekarpen garrantzitsuak egin baina baita nazioarteko garapenarentzat aparteko erronkak aurkeztu ditzatela iradokitzen du[23][24]. Datu handien analisian egindako aurrerapenek medikuntza, enplegu, produktibitate ekonomiko, delinkuentzia, segurtasun eta baliabide eta hondamendi naturalen maneiuko erabaki hartzea hobetzeko aukera onuragarriak eskaintzen dituzte[25]. Gainera, erabiltzaileak sortutako datuek aditu gabeko ahotsa eskaintzeko aukera berriak ematen dituzte. Hala ere, garapenean dauden eskualdeentzako duela askoko erronkak, hala nola, azpiegitura teknologiko desegokia eta giza-baliabide eta baliabide ekonomikoen urritasuna datu handiekin existitzen diren kezkak areagotzen dituzte, pribatutasuna, metodologia inperfektua eta interoperabilitate arazoak adibidez.

Industria[aldatu | aldatu iturburu kodea]

Datu handiek manufaktura-industrian gardentasuna lortzeko azpiegitura bat ematen dute, zeina errendimendu eta sendotasunik gabeko osagaien erabilgarritasuna bezalako ezjakintasunak argitzeko ahalmena den.

Hedabideak[aldatu | aldatu iturburu kodea]

Hedabide eta publizitate profesionalek datu handiei milioika pertsonei buruzko informazio prozesagarri asko bezala ekiten diete. Industria hedabide espezifikoen inguruak erabiltzearen ikuspuntu tradizionaletik urrundu eta, horren ordez, pertsona helburuei momentu eta leku hoberenean heltzen diren teknologiak dituzten kontsumitzaileez baliatzen da. Bukaerako helburua kontsumitzailearen pentsamoldearekin bat egiten duen mezu edo edukia transmititzea da. Adibidez, argitalpenen inguruek mezuak eta edukiak gero eta gehiago egokitzen dituzte datuen erauzketa aktibitateen bitartez bildutako kontsumitzaileak erakartzeko.[26]

Kirolak[aldatu | aldatu iturburu kodea]

Hainbeste diru mugitzen den eremuan oinarriko erabiltzaileek baino lehenago teknologia berriak erabiltzen dira. Profesionalen entrenamenduaren eta entrenatzaileen erabaki hartzearen funtsezko atala da partiduen analisia.

Amisco[28] 2001etik Espainia, Frantzia, Alemania eta Ingalaterrako ligako talde garrantzitsuenek aplikatzen duten sistema bat da. Estadioetan jarritako zortzi kamera eta hainbat ordenagailuz eratuta dago eta jokalarien mugimenduak erregistratzen ditu eta datuen analisi masiboa egiten duten zentral batera bidaltzen dira. Erantzun moduan itzultzen den informazioak bi dimentsiotako partiduaren erreprodukzio, datu tekniko eta estatistikak eta jokalari bakoitzaren datu fisikoen laburpenak biltzen ditu.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Euskaltermen definizioa, 2015
  2.   New Horizons for a Data-Driven Economy Springer doi:10.1007/978-3-319-21569-3 http://link.springer.com/10.1007/978-3-319-21569-3 .
  3.   «Community cleverness required» Nature 455 (7209): 1 2008-9-4 doi:10.1038/455001a http://www.nature.com/nature/journal/v455/n7209/full/455001a.html .
  4.   Hilbert, Martin; López, Priscila «The World's Technological Capacity to Store, Communicate, and Compute Information» Science 332 (6025): 60–65 doi:10.1126/science.1200970 PMID 21310967 http://martinhilbert.net/WorldInfoCapacity.html .
  5.   IBM IBM What is big data? – Bringing big data to the enterprise http://www.ibm.com/big-data/us/en/ .
  6. http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf
  7. Big Data Definition
  8. https://blogs.gartner.com/doug-laney/files/2012/01/ad949-3D-Data-Management-Controlling-Data-Volume-Velocity-and-Variety.pdf
  9. (Ingelesez)  Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data https://www.gartner.com/newsroom/id/1731916. Noiz kontsultatua: 2018-11-27 .
  10. (Ingelesez)  De Mauro, Andrea; Greco, Marco; Grimaldi, Michele (2016-04-04) «A formal definition of Big Data based on its essential features» Library Review (3): 122–135 doi:10.1108/lr-06-2015-0061 ISSN 0024-2535 https://www.emeraldinsight.com/doi/full/10.1108/LR-06-2015-0061. Noiz kontsultatua: 2018-11-27 .
  11.   «https://www.villanovau.com/resources/bi/what-is-big-data/#.W_1MGWj0nIV» www.villanovau.com https://www.villanovau.com/resources/bi/what-is-big-data/#.W_1MGWj0nIV. Noiz kontsultatua: 2018-11-27 .
  12. (Ingelesez)  «Big Data: Avoid 'Wanna V' Confusion - InformationWeek» InformationWeek https://www.informationweek.com/big-data/big-data-analytics/big-data-avoid-wanna-v-confusion/d/d-id/1111077. Noiz kontsultatua: 2018-11-27 .
  13. (Ingelesez)  Mayer-Schönberger, Viktor; Cukier, Kenneth (2013-03-05) Big Data: A Revolution That Will Transform How We Live, Work, and Think Houghton Mifflin Harcourt ISBN 0544002938 https://books.google.com.ar/books?id=HpHcGAkFEjkC&hl=es. Noiz kontsultatua: 2018-11-27 .
  14. (Ingelesez)  Billings, Stephen A. (2013-07-29) Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains John Wiley & Sons ISBN 9781118535554 https://books.google.com.ar/books/about/Nonlinear_System_Identification.html?id=SaQ2AAAAQBAJ&source=kp_cover&redir_esc=y. Noiz kontsultatua: 2018-11-27 .
  15. (Frantsesez)  Echos, Les «Big Data car Low-Density Data ? La faible densité en information comme facteur discriminant» lesechos.fr http://archives.lesechos.fr/archives/cercle/2013/04/03/cercle_69222.htm. Noiz kontsultatua: 2018-11-27 .
  16. (Ingelesez)  «Data, data everywhere» The Economist https://www.economist.com/special-report/2010/02/25/data-data-everywhere. Noiz kontsultatua: 2018-11-27 .
  17. (Ingelesez)  «The World’s Technological Capacity to Store, Communicate, and Compute Information» MartinHilbert.net http://www.martinhilbert.net/WorldInfoCapacity.html/. Noiz kontsultatua: 2018-11-27 .
  18. (Ingelesez)  Hilbert, Martin (2014-03) «What Is the Content of the World's Technologically Mediated Information and Communication Capacity: How Much Text, Image, Audio, and Video?» The Information Society (2): 127–143 doi:10.1080/01972243.2013.873748 ISSN 0197-2243 https://www.tandfonline.com/doi/abs/10.1080/01972243.2013.873748. Noiz kontsultatua: 2018-11-27 .
  19. (Ingelesez)  «Interview: Amy Gershkoff, Director of Customer Analytics & Insights, eBay on How to Design Custom In-House BI Tools» www.kdnuggets.com https://www.kdnuggets.com/2014/07/interview-amy-gershkoff-ebay-in-house-BI-tools.html. Noiz kontsultatua: 2018-11-27 .
  20. (Ingelesez)  Davis, Aaron «The government and big data: Use, problems and potential» Computerworld https://www.computerworld.com/article/2472667/government-it/the-government-and-big-data--use--problems-and-potential.html. Noiz kontsultatua: 2018-11-28 .
  21. http://www.theclinic.cl/2017/01/19/martin-hilbert-experto-redes-digitales-obama-trump-usaron-big-data-lavar-cerebros/
  22. (Ingelesez)  Lissardy, Gerardo (2017-04-06) «Martin Hilbert, gurú del Big Data: "La democracia no está preparada para la era digital y está siendo destruida"» BBC News Mundo https://www.bbc.com/mundo/noticias-internacional-39511606. Noiz kontsultatua: 2018-11-28 .
  23. (Ingelesez)  «White Paper: Big Data for Development: Opportunities & Challenges (2012) | United Nations Global Pulse» www.unglobalpulse.org https://www.unglobalpulse.org/projects/BigDataforDevelopment. Noiz kontsultatua: 2018-11-28 .
  24.   «Big Data, Big Impact: New Possibilities for International Development» World Economic Forum https://www.weforum.org/reports/big-data-big-impact-new-possibilities-international-development. Noiz kontsultatua: 2018-11-28 .
  25. (Ingelesez)  Hilbert, Martin (2013) «Big Data for Development: From Information - to Knowledge Societies» SSRN Electronic Journal doi:10.2139/ssrn.2205145 ISSN 1556-5068 https://papers.ssrn.com/sol3/papers.cfm?abstract_id=2205145. Noiz kontsultatua: 2018-11-28 .
  26. (Ingelesez)  Nick, Couldry,; Joseph, Turow, (2014) «Advertising, big data and the clearance of the public realm: marketers' new approaches to the content subsidy» eprints.lse.ac.uk http://eprints.lse.ac.uk/57944/. Noiz kontsultatua: 2018-11-28 .
  27. (Ingelesez)  «Why Digital Advertising Agencies Suck at Acquisition and are in Dire Need of an AI Assisted Upgrade» Insincerely Yours 2018-04-15 https://ishti.org/2018/04/15/why-digital-advertising-agencies-suck-at-acquisition-and-are-in-dire-need-of-an-ai-assisted-upgrade/. Noiz kontsultatua: 2018-11-28 .
  28. https://web.archive.org/web/20150101224330/http://wata.cc/up/2012/07/files/w-b6c9afb540.pdf#page=209

Ikus, gainera[aldatu | aldatu iturburu kodea]