Edukira joan

Sekuentzien lerrokatze

Wikipedia, Entziklopedia askea

Sekuentzien lerrokatzea bioinformatikako arloan bi edo gehiago diren DNA, RNA edo egitura proteiko primarioen sekuentziak elkarren artean konparatzeko edo irudikatzeko era bat da. Helburua da sekuentzia hauetan komunak diren zatiak nabarmentzea, erlazio funtzional edo ebolutiboak adieraz dezaketenak. Sekuentzia hauek matrize baten lerroetan irudikatzen dira hizkien bitartez (aminoazidoak edo nukleotidoak irudikatuz). Beharrezkoa bada, zuriuneak gehitzen dira estruktura berdina duten sekuentziak lerroka daitezen.

Nahiz eta DNA eta RNAko oinarri nukleotidokoak elkarrekiko berdintsuagoak izan aminoazidoekin baino, oinarrien parekatzeen mantentzeak rol funtzional edo estruktura berdintsuak adierazi lezake. Sekuentzien lerrokatzeak biologikoak ez diren sekuentziekin erabili daitezke, hala nola hizki-serie eta gizakien hitzen identifikazioan edo datu finantzarioen analisian. Proteinen estruktura primarioak konparatzeko hainbat algoritmo aurki ditzakegu, baina nabarmengarrienak Needleman-Wunch algoritmoa, Smith-Waterman algoritmoa, BLAST eta FASTA dira.

Oso motzak edo oso berdintsuak diren sekuentziak eskuz lerrokatu daitezke. Bestalde, problema interesgarrienak eskuz lerrokatu ezin daitezken sekuentzia oso luze, aldagarriak eta oso ugariak erabiltzera behartzen dute. Gizakien adimena kalitatezko lerrokatzeak sortuko dituzten algoritmoak sortzeko erabiltzen da, eta batzuetan azkeneko emaitza estutzeko, algoritmoetan sartzeko oso zailak diren patroiak errepresentatzeko. Hurbilpen konputazionalak bi kategorietan banatzen dira: lerrokatze globala eta lerrokatze lokala. Lerrokatze globala kalkulatzea, optimizazio global mota bat da, lerrokatzeari sartutako sekuentzien luzera osoa okupatzera behartzen diona. Konparatiboki, lerrokatze lokalak sekuentzia luzeetako sekzio berdintsuak identifikatzen dituzte, sekuentzia hauek askotan dibergenteak dira haien artean. Askotan lerrokatze lokalak gehiago aukeratzen dira, baina zailagoak izan daitezke berdintasun erregio hauen identifikazioa gehitu behar zaielako. Sekuentzien lerrokatzeari hainbat algoritmo konputazional aplikatzen dira, hala nola metodo motelak, baina optimizatzeko erabiliak, programazio dinamikoa eta metodo heuristiko edo probabilistiko eraginkorrak, datu-base handietan bilatzeko pentsatuak daudenak.

Irudikapenak[aldatu | aldatu iturburu kodea]

Lerrokatzeak testuzko eta grafikozko formatuetan irudikatzen dira. Irudikapen gehienetan, sekuentziak lerro batean idazten dira, non lerrokatutako hondakinak ondoz ondoko zutabetan agertzen diren. Testu formatuetan, lerrokatutako zutabeak karaktere berdintsuak dauzkate, mantentze sinbolo sistema baten bidez irudikatuak. Hasierako irudian, izartxoak erabiltzen dira bi zutabeen identitatea adierazteko. Sekuentziak irudikatzeko programa askok koloreztatutako eskemak erabiltzen dituzte, sekuentzia bakoitzaren propietateen informazioa adierazteko(DNA eta RNA sekuentzietan, oinarri bakoitzari kolore bat esleitzean datza). Proteinen lerrokatzean, goiko adibidean bezala, koloreak aminoazidoen propietateak adierazteko erabiltzen dira, aminoazidoen ordezkapenean edo kontserbazioaren karakterizazioan laguntzen. Irudikatzean, gutxi erabiltzen diren sinboloak komak edo puntuak dira. Hainbat sekuentzia sartzen direnean zutabe bakoitzeko azken lerroa, lerrokatzeak definituriko adostasuna irudikatzen du normalki. Adostasun sekuentzia formatu grafikoan ere irudikatu ohi da sekuentzia logotipo baten azpian, nukleotido edo aminoazido bakoitzaren hizkiaren neurria kontserbazio mailarekin proportzionala izanik.[1]

Sekuentzien lerrokatze hauek hainbat testu formatuetan biltegiratu daitezke. Formatu hauek askotan programa bat edo lerrokatze baten inplementazio batekin batera garatuak izan dira. Web erreminta gehienak hainbat sarrera eta irteera formatu onartzen dituzte FASTA edo GenBank. Erreminta espezifikoen erabilera laborategi bakoitzean konplikatu daiteke konpatibilitate baxuaren ondorioz. Konbertsio generikoko programak existitzen dira SEQRETen edo DNA Baseren.

Lerrokatze lokala eta globalak[aldatu | aldatu iturburu kodea]

Sekuentzia guztietako hondakin guztiak zerrendatzen saiatzen diren kalifikazio globalak baliagarrienak dira, ordenako sekuentziak antzekoak eta tamaina berdintsukoak direnean. (Horrek ez du esan nahi lerrokatze globalak ezin direnik hutsetan hasi eta/edo amaitu). Lerrokatze globaleko teknika orokor bat Needleman - Wunsch algoritmoa da, programazio dinamikoan oinarritua dagoena. Tokiko lerrokatzeak baliagarriagoak dira antzeko sekuentzia ezberdinetarako, beren sekuentzia handiagoko testuinguruan antzekotasun edo antzeko sekuentzia eraldatuak dituzten zatiak dituztela susmatzen baita. Smith Waterman algoritmoa tokiko lerrokatze metodo orokor bat da, programazio dinamikoaren eskema berean oinarritua baina edozein tokitan hasi eta amaitzeko aukerekin.[2]

Metodo hibridoak, "Erdi-globala" edo "guruina" bezala ezagutzen direnak (global-tokikoa), bi sekuentzien kalifikazio partzial onena bilatzen dutenak (hau da, bataren edo biaren konbinazioa hasten da eta bat edo bi muturrak aipatzen dira). Hau bereziki baliagarria izan daiteke sekuentzia baten gainbeherak beste sekuentziaren goiko partea gainditzen duenean. Kasu honetan, ez globala ez tokikoa ez da guztiz egokia: kalifikazio global bat, gai-magaleko eremutik harago joatera behartzen saiatuko litzateke, eta, aldiz, tokiko kalifikazio batek ez luke gai-magaleko eskualdea erabat estaliko.[3]  Erdi-globala erabilgarria den beste kasu bat sekuentzia bat laburra denean (adibidez, gene sekuentzia bat) eta bestea oso luzea denean (kromosoma sekuentzia bat, adibidez) izaten da. Kasu horretan, sekuentzia laburra globalki (erabat) esleitu beharko litzateke, baina sekuentzia luzerako kalifikazio lokala (partziala) baino ez da nahi.

Datu genetikoen hedapen azkarrak egungo DNAren sekuentzia algoritmoen abiadurari dagokio. Metodo zehatz eta eraginkor baterako funtsezko beharrizanek DNAren aurkikuntza aldakorrerako hurbilketa berritzaileak eskatzen dituzte, denbora errealean prozesu paraleloak egiteko. Informatika-hurbilketa optikoak, egungo elektrizitaterako alternatiba bezala proposatu dira, hala ere,horien aplikagarritasuna frogatu egin behar da.[1]

Lerrokatze bikoteak[aldatu | aldatu iturburu kodea]

Sekuentzia bikoteen lerrokatze metodoak bi sekuentzia (tokikoak zein globalak) lortzeko erabiltzen dira. Zenbakizko lerrokatzea sekuentzia biren artean bakarrik erabil daitezke aldi bakoitzean, baina kalkuluak egiteko eraginkorrak dira, eta oso zehatzak izan behar ez duten metodoetarako erabiltzen dira askotan (hala nola datu-base baten sekuentzien bilaketak egiteko, zenbaki batekiko antzekotasun handiarekin). Zenbakizko lerrokatzeak sortzeko hiru metodo nagusiak hauek dira: dotazio-matrizeak, programazio dinamikoa eta hitz bidezko metodoak;[4] hala ere, sekuentzia anitzeko lerrokatze-teknikek sekuentzia bikote batzuk ere aurkez ditzakete. Metodo bakoitzak bere alde on eta ahulezia indibidualak dituen arren, hirurek zailtasunak dituzte informazio-eduki baxuko sekuentzia oso errepikakorrekin, batez ere errepikapen kopurua aipatu beharreko bi sekuentzietan ezberdina denean.

Puntu matrizeen metodoak[aldatu | aldatu iturburu kodea]

Puntu matrizea, bere baitan sekuentzia indibidualetarako alojamendu-familia bat sortzen duena, kualitatiboa eta harmonikoa da, nahiz eta eskala handian aztertzeko denbora erabili. Zaratarik ezean, erraza izan daiteke zenbait ezaugarri sekuentzialki identifikatzea (esate baterako, datu-sartzeak, ezabatzeak, errepikatzeak edo errepikatze aldrebesak), puntu-matrize baten bidez. Puntu matrize bat eraikitzeko, bi sekuentziak bi dimentsioko matrize baten goiko lerroan eta zutabe ezkertiarrean daude idatzita, eta puntu bat kokatzen da zutabe egokietako karaktereek bat egiten duten edozein puntutan. Zenbait adierazlek puntuaren tamaina edo intentsitatea aldatzen dute, bi ezaugarrien antzekotasun mailaren arabera, ordezko kontserbatzaileak egokitzeko. Oso erlazionaturik dauden sekuentzien puntuzko konposatuak matrizearen diagonalean zehar lerro bakar bat bezala agertuko dira.

Puntuzko plakekin informazioa erakusteko teknika gisa dituen arazoak honako hauek dira: zarata, argitasun eza, intuizio eza, posizioak ateratzeko zailtasunak bi sekuentziei buruz. Halaber, denbora asko galtzen da, non bakoitzaren datuak diagonalean zehar bere baitan bikoizten diren, eta gelaxka bakoitzaren eremu errealaren zatirik handiena espazio hutsak edo zaratak hartzen duen, eta, azkenik, puntu-plakak bi sekuentziatara mugatzen diren. Muga hauetako bat ere ez zaie aplikatzen Miropeats diagramei, baina akats partikularrak dituzte.

Puntuzko plotak ere erabil daitezke sekuentzia bakar batean errepikapena egiaztatzeko. Sekuentzia bat bere buruaren aurka konpon daiteke eta antzekotasun esanguratsuak dituzten eskualdeak diagonaleko lerro gisa agertuko dira. Efektu hau proteina bat era askotako egiturek osatzen dutenean gerta daiteke.

Programazio dinamikoa[aldatu | aldatu iturburu kodea]

Programazio dinamikoaren teknika Needleman-Wunsch algoritmoaren eta Smith-Waterman algoritmoaren gaineko lerrokatze lokalak sortzeko erabil daiteke. Erabilera tipikoan, proteina lerroek ordezkapen-matrize bat erabiltzen dute karbono-azidozko pospoloei puntuazioak emateko, eta azido amino bat sekuentzia batean eta bestean sartzeko zigor bat. DNAk eta RNAk matrize puntuagarri bat erabil dezakete, baina praktikan, sarritan, puntuazio positiboa, ezezko puntuazioa eta urratze penalizazioak ematen dira. (Programazio estandar dinamikoan, amino azido bakoitzaren puntuazioa bizilagunen identitateekiko independentea da, eta, beraz, ez dira kontuan hartzen ohiko efektuak. Hala ere, gerta liteke efektu horiek azaltzea algoritmoa aldatuta). Tarte linealaren kostu estandarren arteko hedapen komun bat hutsune bat irekitzeko eta hutsune bat luzatzeko bi hutsune ezberdin erabiltzea da. Horrela, kalifikazio bateko hutsuneen kopurua murriztu egiten da eta birziklapenak eta hutsuneak elkarrekin mantentzen dira, eta horrek zentzu biologiko handiagoa ematen du. Gotoh algoritmoak hutsune bat du hiru matrize erabiliz.

Programazio dinamikoa baliagarria izan daiteke proteinen sekuentziei nukleotidoa esleitzeko, konplikatua den zeregin bat, frameshifo mutazioak kontuan hartu behar direlako. Metodo frameszentrikoaren bidez, query nukleoide sekuentzia baten eta proteinen sekuentzia multzo baten arteko kalifikazio global edo lokal bat sortzen da, edo alderantziz. Nukleo kopuru arbitrario batek frameshipeak ebaluatzeko duen gaitasunak metodo baliagarria bihurtzen du indelen kopuru handiak dituzten sekuentzietarako, metodo heuristiko eraginkorragoak aipatzea oso zaila izan baitaiteke. Praktikan, metodoak konputazio-ahalmen handia behar du, edo arkitektura programazio dinamikorako espezializatua duen sistema. Eztandak eta EMBOSSek oinarrizko tresnak ematen dituzte lerrokatze itzulgarriak sortzeko. GeneWise bezalako software irekitik metodo orokor gehiago daude eskuragarri.

Programazio-metodo dinamikoak puntuazio-funtzio jakin bat ematen duen kalifikazio optimoa aurkitzea bermatzen du; hala ere, funtzio eskoratzaile on bat identifikatzea askotan enpirikoa da, ez materia teorikoa.

Hitz motzen metodoa[aldatu | aldatu iturburu kodea]

Hitz bidezko metodoak metodo heuristikoak dira, k-alignazio bidezko soluzio optimoa ez dutenak bermatzen, baina programazio dinamikoa baino eraginkorragoak direnak. Metodo hauek bereziki baliagarriak dira datu-baseetako bilaketetan, non ulertzen den sekuentzia hautakorren proportzio handi batek ez duela, funtsean, kuasi-sekuentzia esanguratsurik izango. Hitz bidezko metodoak ezagunenak dira FASTA datu-baseko bilaketa-tresnetan eta eztanda-familian aplikatzeko.

FASTA metodoan, erabiltzaileak balio bat definitzen du, datu-basea arakatzeko erabiltzen duen luzera hitza bezala erabiltzeko. Metodoa geldoagoa da, baina sentiberagoa K-ren balio baxuagoetan, hauek ere nahiago direlarik bilaketa oso labur bat baino. Bilaketa-metodoen familiak hainbat algoritmo optimizatzen ditu query mota partikularretarako. FASTA-ri bestelako tresna azkarrago bat emateko garatu zen, zehaztasun handirik eskaini gabe; FASTA-k bezala, BLAST luzera bilaketa hitza erabiltzen du, baina hitzik esanguratsuenak baino ez ditu ebaluatzen, FASTA-k berriz hitz guztiak. [4]

Sekuentzia anitzeko lerrokatzeak[aldatu | aldatu iturburu kodea]

Sekuentzien lerrokatze anizkoitza pareen lerrokatzearen hedadura bat da, aldi berean bi sekuentzia baino gehiago dituena. Lerrokatze anizkoitzeko metodoak multzo jakin baten sekuentzia guztiak lerrokatzen saiatzen dira. Lerrokadura anizkoitzak modu xehean erabiltzen dira eboluzioaren arabera erlazionatuta dauden sekuentzia talde batean kontserbatutako eskualdeak identifikatzeko. Kontserbatutako arrazoi horiek egiturarekin eta informazio mekanikoarekin batera erabil daitezke entzimen gune aktibo katalitikoak aurkitzeko. Lerrokadurak zuhaitz filogenetikoak eraikiz erlazio ebolutiboak ezartzen laguntzeko ere erabiltzen dira. Sekuentzien lerrokatze anitzak, konputazionalki, ekoizteko zailak dira, eta arazoaren formulazio gehienek, NP-osoen konbinazio optimizazio arazoetara eramaten dute.[5][6]

Programazio dinamikoa[aldatu | aldatu iturburu kodea]

Programazio dinamikoaren teknika teorikoki erabil daiteke edozein sekuentzia kopurutan, baina, konputazionalki garestia denez, bai denboran bai memorian, gutxitan erabiltzen da bere formarik oinarrizkoenean hiru edo lau sekuentzia baino gehiagorako. Metodo honek bi sekuentziek osatzen duten matrizearen baliokide n-dimentsional bat eraikitzea eskatzen du, non "n" arazo-sekuentzien kopurua den. Programazio dinamiko estandarra, lehenik, arazo-sekuentzien arteko parekatze guztietan erabiltzen da, eta, beraz, "Lerrokatze-espazioa" bitarteko posizioetan egon daitezkeen kointzidentziak edo hutsuneak kontuan hartuta betetzen da, eta, azkenik, funtsean, bi sekuentzien lerrokatze bakoitzaren arteko lerrokadura bat eraikitzen da. Teknika hau konputazionalki garestia den arren, bere soluzio global optimo baten bermea erabilgarria da soilik sekuentzia batzuk zehaztasunez lerrokatu behar diren kasuetan.[7]

Metodo progresiboak[aldatu | aldatu iturburu kodea]

Metodo progresiboek, hierarkikoek edo zuhaitz bidezkoek sekuentzien lerrokatze anizkoitza sortzen dute, lehendabizi sekuentzia antzekoenak lerrokatuz, eta, horrela, elkarren artean lotura txikiagoa duten sekuentziak edo taldeak lerrokatzen dira, arazo multzo osoa soluzioan sartu den arte. Hasierako zuhaitza, sekuentzien ahaidetasuna deskribatzen duena, parekatzeen konparazioetan oinarritzen da. Parekatze heuristikoko metodoak izan litezke. Progresiboki lerrokatzearen emaitzak sekuentzia "erlazionatuenen" aukeraketaren araberakoak dira, eta, beraz, hasierako parekatzeen lerrokatzeetan zehaztasun eza senti dezakete. Sekuentzien lerrokatze anizkoitzeko metodo progresibo gehienek, gainera, sekuentziak beren ahaidetasunaren arabera haztatzen dituzte arazo-multzoan, eta horrek murriztu egiten du hasierako sekuentziak behar bezala aukeratzeko probabilitatea, lerrokatzearen zehaztasuna hobetzeko.

Clustalen ezarpen progresiboaren aldaketa ugari,[8][9][10] sekuentzien lerrokatze anitzetarako, zuhaitz filogenetikoen eraikuntzarako eta proteinen egituraren iragarpenerako sarrera bezala erabiltzen dira. Metodo progresibo mantsoago baina zehatzagoaren aldaera bat "T-Coffee" (Tree-based Consistency Objective Function For alignment Evaluation) bezala ezagutzen da, zeinetatik ClustalW eta T-Coffee[11] sistemetan inplementazioak aurki daitezkeen.

Metodo iteratiboak[aldatu | aldatu iturburu kodea]

Metodo iteratiboak metodo progresiboen ahulgunea hobetzen saiatzen dira: hasierako parekatzeen lerrokatzeen doitasunarekiko mendekotasun handia. Metodo iteratiboek funtzio helburu bat optimizatzen dute, lerrokatze-puntuazioko metodo hautatu batean oinarritua, hasierako lerrokatze global bat esleituz eta, ondoren, sekuentzien azpimultzoak berrelikatuz. Birlerrokatutako azpimultzoak, orduan, euren buruarekin lerrokatuak dira, sekuentzien lerrokatze anizkoitzaren hurrengo iterazioa sortzeko. Sekuentzien azpitaldeak eta funtzio helburua hautatzeko hainbat modu daude aztertzen.[12]

Helburuen bidezko aurkikuntza[aldatu | aldatu iturburu kodea]

Profilak aztertzeko, sekuentzien lerrokatze global anitzak eraikitzen dira, arazo multzoaren sekuentzien artean kontserbatutako sekuentzia motzak lerrokatzen saiatzen direnak. Normalean, lehenik eta behin, sekuentzia globalen lerrokatze anizkoitza egiten da, eta horren ondoren, oso kontserbatuta dauden eskualdeak identifikatu eta profileko matrize multzo bat eraikitzeko erabiltzen dira. Kontserbatutako eskualde bakoitzaren profilaren matrizea puntuazio-matrize gisa ezartzen da, baina posizio bakoitzean aminoazido edo nukleotido bakoitzerako dituen maiztasun-zifrak kontserbatutako eskualdearen karaktereen banaketaren ondorio dira, banaketa enpiriko orokorrago baten ordez. Jatorrizko datu multzoak sekuentzia kopuru txiki bat edo soilik sekuentzia oso erlazionatuak dituen kasuetan, sasikontagailuak gehitzen dira arrazoian irudikatutako karaktere-banaketak normalizatzeko.

Konputazio zientzietan oinarritutako teknikak[aldatu | aldatu iturburu kodea]

Konputazio-zientzietan erabili ohi diren optimizazio-algoritmo orokor ugari sekuentzien lerrokatzearen arazoari ere aplikatu zaizkio. Markoven eredu ezkutuak probabilitate-erregistroak sortzeko erabili dira, problema multzo jakin baten gainean sekuentzia anitzeko lerrokadura posibleak dituen familia batentzat. Eredu hauetan oinarritutako lehen metodoak oso argiak ez ziren arren, ondorengo aplikazioek bereziki eraginkorrak aurkitu dituzte urruneko lotura duten sekuentziak detektatzeko, ordezkapen kontserbatiboen ondorioz sortutako zaratarako aukera gutxiago dutelako. Algoritmo genetikoak eta simulated annealing-a sekuentzien lerrokadura anitzen puntuazioak optimizatzeko erabili dira.[13]

Lerrokatze estrukturala[aldatu | aldatu iturburu kodea]

Egiturazko lerrokadurek, proteinen espezifikoak direnak eta, batzuetan, RNAren sekuentzienak, laguntza gisa RNAren proteinaren edo molekularen bigarren eta hirugarren mailako egiturari buruzko informazioa erabiltzen dute sekuentziak lerrokatzeko. Metodo hauek bi sekuentziatarako edo gehiagotarako erabil daitezke, eta ohiko lerrokadura lokalak sortzen dituzte. Hala ere, egiturazko informazioaren eskuragarritasunaren mende daudenez, dagozkien egiturak ezagutzen dituzten sekuentzietarako baino ezin dira erabili (normalean, x izpien kristalografiaren edo erresonantzia magnetiko nuklearraren espektroskopiaren bidez). Izan ere, bai proteina eta bai RNAren egitura sekuentzia baino eboluzionatuagoa denez,[14] egitura-lerrokadurak fidagarriagoak izan daitezke elkarrengandik oso urrun dauden sekuentzien artean eta hain zabal dibertitu diren sekuentzien artean, non sekuentzien konparazioak ezin duen haien antzekotasuna modu frogagarrian detektatu.

Egiturazko lerrokadurak "urrezko patroi" gisa erabiltzen dira homologian[15] oinarritutako proteinen egituraren aurreikuspenean lerrokadurak ebaluatzeko, esplizituki lerrokatzen baitituzte proteinaren sekuentziako eskualdeak, estrukturalki antzekoak direnak sekuentziatik eratorritako informazioan soilik egon beharrean. Hala ere, egitura-lerrokadurak ezin dira erabili egituraren iragarpenean; izan ere, arazo multzoaren sekuentzia bat, gutxienez, modelatu beharreko helburua da, eta horretarako egitura ez da ezagutzen. Frogatu da, helburu baten eta molde-sekuentzia baten arteko egitura lerrokatuta dagoenez, xede-proteinaren eredu oso zehatzak sor daitezkeela. Homologian oinarritutako egituraren iragarpenean oztopo garrantzitsu bat egiturari dagokionez zehatzak diren lerrokadurak ekoiztea da, sekuentziaren informazioa soilik emanda.[15]

DALI[aldatu | aldatu iturburu kodea]

Dali metodoa (ingelesez Distance matrix ALIgnment, distantzien matrizea lerrokatzea) metodo zatikatzaile bat da segidako sekuentzia arazotsuetan hexapeptidoen arteko antzekotasun patroietan oinarritutako egitura lerrokatzeak eraikitzeko. Parekatze edo lerrokatze anizkoitzak sor ditzake, eta Protein Data Banken (PDB) sekuentzia arazotsu baten egiturazko bizilagunak identifika ditzake.[16] FSSP egitura-lerrokatzeen datu-basea eraikitzeko erabili da (ingelesezko Families of Structurally Similar Proteins, egituraz antzekoak diren proteina-familiak). DALIren web zerbitzari batean sar daiteke DALI datu-basean.

SSAP[aldatu | aldatu iturburu kodea]

SSAP (ingelesezko Sequential Structure Alignment Program, egitura sekuentzialeko lerrokatze programa) egitura-lerrokatze metodo bat da, programazio dinamikoan oinarritua, egituraren espazioan "atomoz atomo" bektoreak erabiltzen dituena konparatu beharreko puntu gisa. Jatorrizko deskribapenetik hedatu da lerrokadura anitzak eta parekatzeak barne hartzeko,[17] eta Cath-aren eraikuntzan erabili da (ingelesezko Class, Architecture, Topology, Homology; klasea, arkitektura, topologia, homologia), proteinen tolesturak sailkatzeko datu-base hierarkikoa.[18] Cath datu-basea Egituren Sailkapenean sar daiteke.

Hedapen konbinatorioa[aldatu | aldatu iturburu kodea]

Egitura lerrokatzeko hedapen konbinatorioko metodoak bikoitien lerrokatze estrukturala sortzen du, geometria lokala erabiliz aztertu beharreko bi proteinen zati laburrak lerrokatzeko eta, orduan, zati horiek lerrokatze handiago batean batzeko.[19] Solido zurrunak, hondakinen arteko distantziak, tokiko bigarren mailako egitura eta inguruko ingurumen-ezaugarriak bezalako proteinen gainjartzearen batez besteko errore koadratikoaren erroa bezalako neurrietan oinarrituta, "Lerrokatutako zati pareak" izeneko tokiko lerrokadurak sortzen dira, antzekotasun-matrize bat eraikitzeko erabiltzen direnak, ahal diren egitura-lerrokadura guztiak aurrez definitutako ebaketa-irizpide baten barruan irudikatuz. Orduan, proteina baten egituraren egoera batetik bestera matrizean zehar ibilbide bat marrazten da, lerrokatze gero eta handiagoa aldi bakoitzean zati bat hedatuz. Ibilbide optimoak luzera konbinatorioaren bidezko lerrokatzea definitzen du. Metodoa inplementatzen duen eta Protein Data Banken egitura-parekatzeen datu-basea ematen duen web zerbitzari bat Combinatorial Extension gunean dago.

Analisi filogenetikoa[aldatu | aldatu iturburu kodea]

Filogenia eta sekuentzien lerrokatzea lotura estua duten eremuak dira, sekuentzien arteko ahaidetasuna ebaluatzeko behar partekatua dutelako. Filogeniak zuhaitz filogenetikoen eraikuntzan eta interpretazioan sekuentzien lerrokatzeen erabilera estentsiboa egiten du, espezie dibergenteen genoman irudikatutako gene homologoen arteko erlazio ebolutiboak sailkatzeko erabiltzen direnak. Arazo multzo baten sekuentziak zein mailatan diren desberdinak, horien arteko distantzia ebolutiboarekin lotuta dago kualitatiboki. Modu sinplifikatuan, sekuentzien identitate altu batek, konparatiboki, arbaso komun berriago bat dutela iradokitzen du, identitate baxu batek, dibergentzia, urrunagokoa dela iradokitzen duen bitartean. Hurbilketa honek, "Erloju molekularraren" hipotesia islatzen du (eboluzio aldaketaren erritmo gutxi gorabehera konstantea hartzen duen hipotesia, bi geneen lehen dibergentziatik igarotako denbora estrapolatzeko erabil daitekeena, edo "koaleszentzia" denbora), mutazioaren eta hautespen naturalaren eraginak sekuentzia leinuen luzeran konstanteak direla onartzen duena. Beraz, ez ditu kontuan hartzen DNA konpontzeko erritmoetan organismo edo espezieen artean egon daitezkeen desberdintasunak, edo sekuentzia batean eskualde espezifikoen kontserbazio funtzionala. (Nukleotidoen sekuentzien kasuan, erloju molekularraren hipotesi oinarrizkoenak alde batera uzten du mutazio isilen (kodoi jakin baten esanahia aldatzen ez dutenak) eta proteinan aminoazido desberdin bat sartzean sortzen diren beste mutazio batzuen arteko onarpen-tasen desberdintasuna). Zehaztasun estatistiko handiagoko metodoek zuhaitz filogenetikoaren adar bakoitzean eboluzio-erritmoa aldatzea ahalbidetzen dute, horrela geneen koaleszentzia-denboren estimazio hobeak eginez.

Lerrokatze anizkoitz progresiboko teknikek zuhaitz filogenetiko bat sortzen dute nahitaez, lerrokatze gero eta handiagoari sekuentziak gehitzen baitizkiote ahaidetasun-ordenaren arabera. Sekuentzia eta zuhaitz filogenetikoen lerrokadura anitzak biltzen dituzten beste teknika batzuk, zuhaitzak puntuatzen eta ordenatzen dituzte lehenik, eta, ondoren, sekuentzien lerrokatze anizkoitza kalkulatzen dute puntuazio handiagoko zuhaitzetik abiatuta. Zuhaitz filogenetikoak eraikitzeko metodo komunak heuristikoak dira nagusiki. Zuhaitz optimoa aukeratzeko arazoa, sekuentzia optimoen lerrokatze anizkoitza aukeratzeko arazoa bezala, NP-konplexuak dira.[20]

Garrantziaren balorazioa[aldatu | aldatu iturburu kodea]

Sekuentzien lerrokatzeak erabilgarriak dira bioinformatikan sekuentzien arteko antzekotasunak identifikatzeko, zuhaitz filogenetikoak sortzeko eta proteinen egituren gaineko homologia ereduak garatzeko. Hala ere, lerrokatzeen garrantzi biologikoa ez da beti argia. Askotan onartzen da lerrokadurek eboluzio-aldaketaren maila islatzen dutela arbaso komun batetik datozen sekuentzien artean; baina formalki posible da konbergentzia ebolutiboa gertatzea, eboluzioaren aldetik lotuta ez dauden baina antzeko funtzioak betetzen dituzten eta antzeko egiturak dituzten proteinen artean itxurazko antzekotasunak sortzeko.

Datu-baseetako bilaketetan, BLASTekin bezala, metodo estatistikoek sekuentzien edo sekuentzia-eskualdeen arteko kasualitatezko lerrokatze partikularraren probabilitatea zehaztu dezakete, datu-basearen tamaina eta osaera kontuan hartuta. Balio horiek nabarmen alda daitezke bilaketa-espazioaren arabera. Zehazki, kasualitatez lerrokadura jakin bat aurkitzeko probabilitatea handitu egiten da baldin eta datu-basea arazo-sekuentziaren organismo beraren sekuentziez bakarrik beteta badago. Datu-baseko edo kontsultako sekuentzia errepikakorrek ere desitxuratu egin ditzakete emaitzen bilaketa eta haien esangura estatistikoaren balorazioa. BLASTek automatikoki iragazten ditu sekuentzia errepikakor horiek kontsultan, estatistika-artefaktuei dagozkien itxurazko arrakastak saihesteko.

Puntuazio-funtzioak[aldatu | aldatu iturburu kodea]

Lerrokadura onak sortzeko, garrantzitsua da sekuentzia ezagunei buruzko behaketa biologikoak edo estatistikak islatzen dituen puntuazio-funtzio bat aukeratzea. Proteinen sekuentziak maiz ordezkapen-matrizeak erabiliz lerrokatzen dira. Matrize horiek karaktereen araberako ordezkapen partikularren probabilitateak islatzen dituzte. Pam matrize izeneko matrize batzuk (ingelesezko Point Accepted Mutationetik, onartutako mutazio puntuala, jatorrian Margaret Dayhoffek zehaztua, eta, beraz, batzuetan Dayhoff matrizeak deitzen direnak), hurbilketa ebolutiboak esplizituki kodetzen dituzte, aminoazidoen mutazio partikularren maiztasun eta probabilitateak kontuan hartuz. Beste puntuazio-matrize arrunt batek, BLOSUM izenaz ezagutzen direnak (ingelesezko Blocks Substitution Matrix, blokeen ordezkapen-matrizea), enpirikoki deribatutako ordezkapen-probabilitateak kodetzen ditu. Bi matrize mota horien aldaerak erabiltzen dira dibergentzia-maila desberdinak dituzten sekuentziak detektatzeko; horrela, BLAST edo FASTAren erabiltzaileei aukera ematen zaie beren bilaketak hurbilago lotutako kointzidentzietara mugatzeko edo hedatzeko sekuentzia dibergenteagoak detektatzeko. Gapen bidezko penalizazioek nukleotidoen eta proteinen sekuentzietan hutsuneak sartzea adierazten dute (eredu ebolutiboan, txertatze edo ezabatze bidezko mutazio bat), eta, beraz, penalizazio-balio horiek mutazio horietatik espero den maiztasunarekiko proportzionalak izan beharko lukete. Sortutako lerrokatzeen kalitatea, beraz, puntuazio-funtzioaren kalitatearen araberakoa da.

Oso baliagarria eta irakasgarria izan daiteke puntuazio-matrizeen eta/edo hutsuneen araberako penalizazio-balioen aukeraketa desberdinekin, lerrokatze berbera saiatzea eta emaitzak alderatzea. Soluzioa oso sendoa ez den edo bakarra ez den eskualdeak sarri identifika daitezke lerrokatze-parametroen aldakuntzekiko sendoak diren lerrokatze-eskualdeak behatuz.

Erabilpen ez biologikoak[aldatu | aldatu iturburu kodea]

Sekuentzia biologikoak lerrokatzeko erabilitako metodoek beste eremu batzuetan ere aurki ditzakete aplikazioak. Oso nabarmena da lengoaia naturalen prozesamenduan. Elementu taldeak sortzen dituzten teknikak, nondik hitzak hautatzeko erabiltzen dituzten lengoaia naturalen prozesamenduaren algoritmoek, sekuentzien lerrokatzeko teknikak eskatu dizkiote bioinformatikari, ordenagailuz egingo diren proba matematikoen bertsio linguistikoak sortzeko.[21] Hizkuntzalaritza historiko eta konparatiboaren arloan, sekuentzien lerrokatzea erabili da hizkuntzalariek lengoaiak berreraikitzeko erabili ohi duten metodo konparatiboa partzialki automatizatzeko.[22] Halaber, sekuentziak lerrokatzeko teknikak aplikatu dira negozioen ikerketan eta marketinean, erosketen aldi baterako serieak aztertuta.[23][24]

Softwarea[aldatu | aldatu iturburu kodea]

Sekuentziak lerrokatzeko zeregin orokorretarako erabiltzen diren software-tresna arruntak ClustalW eta T-coffee dira lerrokatzeko, eta BLAST datu-baseetan bilatzeko. Eskuragarri dagoen softwarearen zerrenda askoz osoagoa da, algoritmo eta lerrokadura motaren arabera kategorizatua dagoena.

Lerrokatze-algoritmoak eta softwarea zuzenean kontrastatu daitezke benchmark multzo estandarizatu bat erabiliz sekuentzia anitzen lerrokaduretarako, BAliBASE[25] izenekoa. Datu-multzoa egitura-lerrokaduretan datza. Lerrokadura horiek estandar gisa har daitezke, eta haren aurka alderatzen dira sekuentzietan oinarritutako metodoak. Lerrokatze arazoetan maiz aurkitutako lerrokatze-metodo komun askoren errendimendu erlatiboa taulatua izan da, eta emaitzarik esanguratsuenak online argitaratu dira BAliBASEn[26]. STRAP proteinen lan bankuan, lerrokatze-tresna ezberdinetarako BAliBASE puntuazio-zerrenda zehatz bat konputatu daiteke.

Erreferentziak[aldatu | aldatu iturburu kodea]

  1. Schneider, T D; Stephens, R M. (1990-10-25). «Sequence logos: a new way to display consensus sequences.» Nucleic Acids Research 18 (20): 6097–6100. ISSN 0305-1048. PMID 2172928. (Noiz kontsultatua: 2021-03-01).
  2. Polyanovsky, Valery O; Roytberg, Mikhail A; Tumanyan, Vladimir G. (2011-10-27). «Comparative analysis of the quality of a global algorithm and a local algorithm for alignment of two sequences» Algorithms for Molecular Biology : AMB 6: 25.  doi:10.1186/1748-7188-6-25. ISSN 1748-7188. PMID 22032267. PMC 3223492. (Noiz kontsultatua: 2021-03-03).
  3. Glocal alignment: finding rearrangements during alignment. , i54–62 or..
  4. a b Mount DM.. (2004). Bioinformatics: Sequence and Genome Analysis. (Bigarrena. argitaraldia) Cold Spring Harbor Laboratory Press: Cold Spring Harbor, NY. ISBN 978-0-87969-608-5..
  5. Wang L; Jiang T.. (1994). On the complexity of multiple sequence alignment. , 337–48 or..
  6. Elias, Isaac. (2006). Settling the intractability of multiple alignment. J Comput Biol, 1323–1339 or..
  7. Lipman DJ, Altschul SF, Kececioglu JD. (1989). A tool for multiple sequence alignment. Proc Natl Acad Sci USA, 4412–5 or..
  8. Higgins DG, Sharp PM. (1988). CLUSTAL: a package for performing multiple sequence alignment on a microcomputer. Gene, 237–44 or..
  9. Thompson JD, Higgins DG, Gibson TJ.. (1994). CLUSTAL W: improving the sensitivity of progressive multiple sequence alignment through sequence weighting, position-specific gap penalties and weight matrix choice. Nucleic Acids Res, 4673–80 or..
  10. Chenna R, Sugawara H, Koike T, Lopez R, Gibson TJ, Higgins DG, Thompson JD.. (2003). Multiple sequence alignment with the Clustal series of programs. Nucleic Acids Res, 3497–500 or..
  11. Notredame, C.; Higgins, D.; Heringa, J.. (2000). «T-Coffee: A novel method for fast and accurate multiple sequence alignment.» Journal of molecular biology  doi:10.1006/JMBI.2000.4042. (Noiz kontsultatua: 2021-03-03).
  12. Hirosawa M, Totoki Y, Hoshida M, Ishikawa M.. (1995). Comprehensive study on iterative algorithms of multiple sequence alignment. Comput Appl Biosci, 13–8 or..
  13. Karplus K, Barrett C, Hughey R.. (1998). Hidden Markov models for detecting remote protein homologies. , 846–856 or..
  14. Chothia, C; Lesk, A M. (1986-04). «The relation between the divergence of sequence and structure in proteins.» The EMBO Journal 5 (4): 823–826. ISSN 0261-4189. PMID 3709526. PMC 1166865. (Noiz kontsultatua: 2021-03-03).
  15. a b (Ingelesez) Zhang, Yang; Skolnick, Jeffrey. (2005-01-25). «The protein structure prediction problem could be solved using the current PDB library» Proceedings of the National Academy of Sciences 102 (4): 1029–1034.  doi:10.1073/pnas.0407152101. ISSN 0027-8424. PMID 15653774. (Noiz kontsultatua: 2021-03-03).
  16. (Ingelesez) Holm, Liisa; Sander, Chris. (1996-08-02). «Mapping the Protein Universe» Science 273 (5275): 595–602.  doi:10.1126/science.273.5275.595. ISSN 0036-8075. PMID 8662544. (Noiz kontsultatua: 2021-03-03).
  17. Taylor WR, Flores TP, Orengo CA.. (1994). «Multiple protein structure alignment» Protein Sci: 1858-70..
  18. Orengo CA, Michie AD, Jones S, Jones DT, Swindells MB, Thornton JM. (1997). «CATH--a hierarchic classification of protein domain structures» Structure: 1093-108..
  19. Shindyalov IN, Bourne PE.. (1998). «Protein structure alignment by incremental combinatorial extension (CE) of the optimal path» Protein Eng: 739-47..
  20. Felsenstein J.. (2004). Inferring Phylogenies. ISBN 0-87893-177-5..
  21. Barzilay R, Lee L.. (2002). «Bootstrapping Lexical Choice via Multiple-Sequence Alignment» Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP): 164–171..
  22. Kondrak, Grzegorz. (2002). Algorithms for Language Reconstruction. University of Toronto, Ontario.
  23. Prinzie A., D. Van den Poel. (2006). «Incorporating sequential information into traditional classification models by using an element/position-sensitive SAM» Decision Support Systems: 508–526..
  24. «Predicting home-appliance acquisition sequences: Márkov/Márkov for Discrimination and survival analysis for modeling sequential information in NPTB models» Decision Support Systems: 28–45..
  25. Thompson JD, Plewniak F, Poch O. (1999). «BAliBASE: a benchmark alignment database for the evaluation of multiple alignment programs» Bioinformatics: 87-8..
  26. Thompson JD, Plewniak F, Poch O.. (1999). «A comprehensive comparison of multiple sequence alignment programs» Nucleic Acids Res: 2682-90..

Kanpo estekak[aldatu | aldatu iturburu kodea]