Datu (informatika)

Wikipedia, Entziklopedia askea

Datua (datuak -pluralean edo masa-substantibo gisa) interpretazio-ekintza espezifikoen bidez esanahia ematen zaien sinbolo bateko edo gehiagoko edozein sekuentzia da. Datuek (edo datuek — datu-unitate bakarra —) informazio bihurtzeko interpretazioa eskatzen dute. Datuak informaziora itzultzeko, hainbat faktore ezagun hartu behar dira kontuan. Tartean sartzen diren faktoreak datuen eta nahi den informazioaren sortzaileak zehazten ditu. Metadatu terminoa erabiltzen da datuei buruzko datuak aipatzeko. Metadatuak inplizituak, zehaztuak edo emanak egon daitezke. Gertaera edo prozesu fisikoekin lotutako datuek ere denbora-osagai bat izango dute. Ia kasu guztietan, denbora-osagai hori inplizitua dago. Hori gertatzen da tenperatura-erregistratzaile baten moduko gailu batek tenperatura-sentsore baten datuak jasotzen dituenean. Tenperatura jasotzen denean, suposatzen da datuek "orain" denborazko erreferentziak dituztela. Orduan, gailuak data, ordua eta tenperatura batera erregistratzen ditu. Datu-erregistratzaileak tenperaturak jakinarazten dituenean, tenperatura bakoitzaren data eta ordua ere jakinarazi behar ditu (metadatuak).

Datu tipoak.png

Datu digitala eta bitarteko zenbaki bitarraren sistema erabiliz irudikatzen den datua da, irudikapen analogikoaz bestelakoa. Ordenagailuen sistema modernoetan, datu guztiak digitalak dira. Ordenagailu baten barruko datuak, kasu gehiagotan, mugimenduak datu paralelo gisa. Ordenagailu bat mugiarazten duen datuak, kasu gehiagotan, serie-datu hori mugitzen du. Ikusi Serial eta komunikazioa Komunikazio paraleloak. Gailu analogiko baten sourced datua, hala nola tenperatura-sentsore batena, muztioa "analogiko" batetik "bihurgailu digital" edo "ADC" (ikus Bihurketa analogiko-digitala) bidez pasatzea datu analogikoa datu digital bihurtzeko.

Ordenagailu batek zer eragiketatan jarduten duen adierazten duen kantitateak, karaktereak edo sinboloak magnetikoan, optikoan edo erregistro mekanikoko komunikabideetan biltegiratuta eta grabatuta daude, eta seinale elektriko digitalen forman transmitituta.

Programa bat datu-multzo bat da, ordenagailu baten edo beste makina baten eragiketa kontrolatzeko software-jarraibideen koded bat daukana. Datu digitala datu-base erlazionaletan biltegiratzen da askotan, hala nola SQLren datu-baseetan edo mahaietan, eta, oro har, balio-pare/gako abstraktu gisa irudika daiteke.

Datuak datu-egitura mota askotan antola daitezke, matrizeak, grafikoak eta objektuak barne. Datu-egiturek mota askotako datuak gorde ditzakete, baita zenbakiak, kateak eta beste datu-egitura batzuk ere. Datuak ordenagailuen barruan eta kanpoan pasatzen dira, gailu periferikoen bidez.

Ordezko erabilera batean, fitxategi bitarrak (gizakiek irakurtzeko modukoak ez direnak) batzuetan "datu" deitzen dira, gizakiek irakurtzeko moduko "testua" ez bezala.3 Datu digitalen guztizko kopurua 2007an 281 mila milioi gigabytekoa (= 281 exabyte) izan zela zenbatetsi zen.5 Datu digitalak hiru egoera hauetan datoz: atsedeneko datuak, igarotze-datuak eta erabiltzen diren datuak.

Ezaugarriak[aldatu | aldatu iturburu kodea]

Funtsean, datu bakar bat kokapen jakin batean biltegiratutako balio bat da.

Funtsean, ordenagailuek datu moduan ematen diren jarraibideen sekuentzia bat jarraitzen dute. Zeregin (edo ataza) jakin bat egiteko jarraibide-multzo bati "programa" esaten zaio. Kasu nominalean, programa, ordenagailuak exekutatzen duen bezala, makina bitarraren kode bat izango da. Programak manipulatutako biltegiratze-elementuak ere, baina PUZk benetan exekutatu ez dituenak, datuak dira. Programaren jarraibideak eta programak manipulatzen dituen datuak modu berean biltegiratzen dira. Beraz, litekeena da ordenagailu-programek beste konputagailu-programa batzuetan jardutea, haien datu programatikoak manipulatuz.

Programaren eta datuen arteko lerroa lausotu egin daiteke. Adibidez, interprete bat programa bat da. Interprete baten sarrerako datuak berez programa bat dira, jatorrizko makina-lengoaian adierazi gabeak. Kasu askotan, interpretatutako programa testu-fitxategi bat izango da, gizakiek irakurtzeko modukoa, eta testua editatzeko programa batekin manipulatzen da (normalean formaturik gabeko testu-datuekin lotzen da). Metaprogramazioak beste programa batzuk, hala nola datuak, manipulatzen dituzten programak dakartza. Konpiladoreak, estekatzaileak, araztegiak, programen eguneratzaileak, birusen eskanerrak eta beste programa batzuk erabiltzen dituzte, besteak beste, haien datuak.

Datu-byteak fitxategi batean gordetzeko, "fitxategi-formatu" batean serializatu behar dira. Normalean, programak fitxategi berezi motetan biltegiratzen dira, beste datu baterako erabiltzen direnak ez bezala. Fitxategi exekutagarriek programak dituzte; beste fitxategi guztiak ere datu-fitxategiak dira. Hala eta guztiz ere, fitxategi exekutagarriek "en-dato" lerroko zer dagoen eraikita programara. Zehazki, fitxategi exekutagarri batzuek datu-segmentu bat dute, eta horrek konstanteak eta hasierako balioak ditu (datu biak).

Adibidez: erabiltzaile batek lehenik eta behin artxibatu baten hitza prozesatzeko programa bat kargatzeko sistema eragilea irakats dezake, eta, ondoren, beste fitxategi batean biltegiratutako dokumentu bat editatu, hitzaren prozesadorearen programarekin. Adibide honetan, dokumentua kontuan hartutako datua izango litzateke. Hitzezko prozesadoreak ere zuzentzaile ortografiko bat badu, orduan zuzentzaile ortografikoarentzako hiztegia (hitz zerrenda) ere kontuan hartutako datua izango litzateke. Algoritmoak zuzentzaile ortografikoak erabili zituen zuzenketak iradokitzeko, hau da, makinaren kodearen edozein datu edo interpretatzeko moduko programazio-lengoaiaren baten testua.

Datuen eta balioen gakoak, egiturak eta iraunkortasuna.[aldatu | aldatu iturburu kodea]

Datu-giltzek balioetarako testuingurua ematen dute. Datuen egituraren kosta ahala kosta, osagai giltzarriko orainaldi bat dago beti. Datu-giltzak datuetan eta datuetan. Egiturak funtsezkoak dira datu-balioei esanahia emateko. Gako bat gabe, hura zuzenean edo zeharka lotzen da balio batekin edo egitura bateko balio-bilduma batekin, balioak zentzurik gabe bihurtzen dira eta datu izateko eten egiten dira. Hau da, gutxienez funtsezko osagai bat izan behar du, balio ordenatuko osagai bati lotu ziona, kontuan hartutako datua izateko. Datua hainbat modutan irudika daiteke ordenagailuetan, honako adibide hauen arabera:

RAM[aldatu | aldatu iturburu kodea]

Ausazko sarbidearen memoriak ordenagailuko prozesadoreek sarbide zuzena duten datuak ditu. Ordenagailu-prozesadore batek (PUZ) bere barruan (prozesadorearen erregistroa) edo memorian baino ezin ditu datuak manipulatu. Hori datuak biltegiratzearen aurkakoa da, prozesadoreek biltegiratze-gailuaren (diskoa, zinta, etab.) eta memoriaren arteko datuak mugitu behar baitituzte. RAM ondoko kokapen lineal baten edo gehiagoren matrize bat da, prozesadore batek irakurri edo idatz dezakeena le eragiketarako helbide bat ematean.

(Ikus, halaber, Memoria kudeatzeko unitatea). RAMean, datu-elementurik txikiena bit bitarra da. RAMean sartzeko gaitasunak eta mugak prozesadoreari dagozkio. Oro har, memoria nagusia edo RAM memoria "pizte-/itzaltze-etengailu elektronikoen multzoen" edo 0 norabidean hasten diren kokapenen (hexadecimal 0) multzo gisa antolatuta dago. Kokaleku bakoitzak 8, 16, 32 edo 64 bit paralelo gorde ditzake, prozesadorearen arkitekturaren arabera (CPU).

Beraz, RAMeko byte batean gordetako edozein baliok bat datorren kokapena du, memoria-matrizeko lehenengo memoria-kokalekutik egindako desplazamendu gisa adierazia, hau da, 0 + n, non n memoriaren kokapen-matrizeko konpentsazioa baita.

Giltzak[aldatu | aldatu iturburu kodea]

Datu-gakoek ez dute izan behar memorian hardware-helbide zuzena. Zeharkako teklen kodeak, abstraktuak eta logikoak balioekin elkartuta gorde daitezke, datu-egitura bat osatzeko. Datu-egiturek aldez aurretik zehaztutako desplazamenduak dituzte (edo estekak edo ibilbideak) egituraren hasieratik, bertan gordetzen baitira datu-balioak. Beraz, datuen gakoa egituraren gakoa gehi egituran desplazamendua (edo loturak edo ibilbideak) da. Egitura hori errepikatzen denean, [datu-balioen eta datu-gakoen] aldaketak egitura errepikakor beraren barruan biltegiratuz, emaitzak taula baten antza duela pentsa daiteke. Taula horretan, egitura errepikakorreko elementu bakoitza zutabe bat da, eta egituraren errepikapen bakoitza taularen errenkada gisa hartzen da. Datu-antolaketa horretan, datu-gakoa zutabeetako bateko (edo batzuetako balioen konbinazioa) balio bat izaten da.

Datu-egitura errepikari antolatuak[aldatu | aldatu iturburu kodea]

Datu-egitura errepikakorren ikuspegi tabularra aukera ugarietako bat baino ez da. Behin eta berriz errepikatzen diren datu-egiturak hierarkikoki antola daitezke, nodoak elkarrekin lotuta egon daitezen aita-seme harremanen ur-jauzi batean. Potentzialki konplexuagoak diren datuen balioak eta egiturak nodoekin lotuta daude. Horrenbestez, hierarkia nodalak ematen du nodoekin lotutako datu-egiturei heltzeko gakoa. Irudikapen hori zuhaitz alderantzikatutzat har daiteke. Adibidez, ordenagailuaren sistema eragilearen fitxategi modernoen sistemak adibide komuna dira; eta XML beste bat da.

Datu ordenatua edo ordenatua[aldatu | aldatu iturburu kodea]

Datuek berezko ezaugarri batzuk dituzte gako batean ordenatzen direnean. Gakoaren azpimultzoetarako balio guztiak batera agertzen dira. Gako bera duten datu-multzoen bidez sekuentzialki pasatzean, edo klabe-aldaketen azpimultzo baten bidez, datuak prozesatzeko zirkuluetan hori etendura edo kontrol-etendura gisa ezagutzen da. Zehazki, gako baten azpimultzoetan datu-balioak gehitzea errazten du.

Biltegiratze periferikoa[aldatu | aldatu iturburu kodea]

USB memoriak bezalako ordenagailu-memoria ez-hegazkorrak iritsi arte, datuen biltegiratze iraunkorra kanpoko blokeko gailuetan datuak idatziz lortzen zen, hala nola zinta magnetikoetan eta disko-unitateetan. Gailu horiek, oro har, ingurune magnetikoan kokatzea bilatzen dute, eta, ondoren, aurrez zehaztutako tamainako datu-blokeak irakurri edo idazten dituzte. Kasu honetan, bilaketa komunikabideetan kokatzea da datuen gakoa, eta blokeak datuen balioak dira. Datu-fitxategien lehen sistemak edo disko-sistema eragileak, datu-fitxategietarako disko-unitatean elkarren ondoan dauden blokeak erreserbatzeko erabiltzen direnak. Sistema horietan, fitxategiak bete egin daitezke, datu guztiak idatzi baino lehen datu-lekurik gabe geratuz. Beraz, erabili gabeko datu-tarte asko modu ez produktiboan gorde zen egoera horretan ez erortzeko. Formaturik gabeko disko gisa ezagutzen zen hori. Ondorengo artxibo-sistemek partizioak sartu zituzten. Diskoko datu-guneen blokeak gorde zituzten partizioetarako, eta modu merkeagoan esleitutako blokeak erabili zituzten, partizio bateko blokeak dinamikoki esleituz fitxategi bati, beharrezkoa den heinean. Hori lortzeko, fitxategi-sistemak datu-fitxategiek katalogo edo fitxategiak esleitzeko taula batean zein bloke erabili zituzten edo ez aztertu behar zuen. Honek diskoaren datu-espazioaren erabilera hobea egin zuen arren, diskoko fitxategien zatiketan eta latentziaren ondoriozko errendimendu-gainkarga konkomitantean suertatu zen. Fitxategi modernoen sistemek dinamikoki zatitutako fitxategiak berrantolatzen dituzte, artxiboetara sartzeko denborak optimizatzeko. Artxibo-sistemetako beste garapen batzuen emaitza disko-unitateen birtualizazioa izan zen, hau da, unitate logiko bat unitate fisiko batzuen partizio gisa defini daiteke.

Indexatutako datuak[aldatu | aldatu iturburu kodea]

Multzo askoz handiago baten datu-azpimultzo txiki bat berreskuratzeak datuak sekuentzialki bilatzea dakar. Hau ez da ekonomikoa. Aurkibideak datu-egiturak fitxategi, taula eta datu-multzoetan kokatzeko gakoak eta helbideak kopiatzeko modu bat dira; ondoren, alderantzizko zuhaitz-egiturak erabiliz antolatzen dira, jatorrizko datuen azpimultzo bat berreskuratzeko behar den denbora murrizteko. Hori egiteko, berreskuratu beharreko datu-azpimultzoaren gakoa berreskuratzeari ekin aurretik ezagutu behar da. Indize ezagunenak B zuhaitza eta hash gakoen indexazio dinamikoaren metodoak dira. Indexazioa da datuak artxibatzeko eta berreskuratzeko beste gainkarga garesti bat. Badira indizeak antolatzeko beste modu batzuk, adibidez, gakoak ordenatzea edo kopuruak zuzentzea (edo gakoa eta datuak batera), eta horietan bilaketa bitar bat erabiltzea.

Abstrakzioa eta norabide eza[aldatu | aldatu iturburu kodea]

Objektuekiko orientazioak oinarrizko bi kontzeptu erabiltzen ditu datuak eta softwarea ulertzeko: 1) Programa-kode moten sailkapen taxonomikoaren egitura, datu-egitura hierarkiko baten adibide bat dena; eta 2) Gauzatze-denboran, datu-egiturei buruzko erreferentzia giltzarriak sortzea klase-liburutegi batetik instantziatu diren objektuen memorian. Instantziak sortu ondoren bakarrik dago mota jakin bateko exekuzio-objektu bat. Objektu baten gako-erreferentzia baliogabetu ondoren, objektu horrek aipatzen dituen datuak datu izateari uzten diote, datu-gakoaren erreferentzia nulua delako; eta, beraz, objektua ere ez da existitzen. Objektuaren datuak biltegiratu ziren memoria-kokapenei zabor esaten zaie, eta berrerabili gabeko memoria gisa birsailkatzen dira.

Datu-basearen datuak[aldatu | aldatu iturburu kodea]

Datu-baseen etorrerak abstrakzio-geruza urrunago bat sartu zuen datu iraunkorra biltegiratzeko. Datu-baseek datu-helmuga erabiltzen dute, eta bezeroaren eta zerbitzari-sistemen artean egituratutako kontsulta-hizkuntzaren protokolo bat, sare baten gainean komunikatuz, bi fase erabiliz logging sistema egiten du transakzional completeness ziurtatzeko, noiz eta datuak irauten duen.

Banatutako datuen prozesatze paraleloa[aldatu | aldatu iturburu kodea]

Datu eskalagarrien/errendimendu handiko datuen iraunkortasunaren teknologia modernoak banda-zabalera handiko sare bateko oinarrizko konputagailu askotan modu masiboki paraleloan banatutako datuen prozesamenduan oinarritzen dira. Baten adibide bat Apache Hadoop da. Sistema horietan, datuak hainbat ordenagailutan banatzen dira, eta, beraz, sistemako edozein ordenagailuk, bereziki, datuen gakoan egon behar du ordezkatuta, zuzenean edo zeharka. Honek bi datu-multzo berdinen arteko bereizketa ahalbidetzen du, bakoitza aldi berean ordenagailu desberdin batean prozesatua.

Ikusi ere bai[aldatu | aldatu iturburu kodea]