Sekuentzien lerrokatze: berrikuspenen arteko aldeak

Wikipedia, Entziklopedia askea
Ezabatutako edukia Gehitutako edukia
Savh (eztabaida | ekarpenak)
t AritzD wikilariaren aldaketak ezabatuz, Kirito wikilariaren azken bertsiora itzularazi da.
Etiketak: lehengoratzea Lehengoratua SWViewer [1.4]
Savh (eztabaida | ekarpenak)
t Savh wikilariaren aldaketak ezabatuz, AritzD wikilariaren azken bertsiora itzularazi da.
Etiketa: lehengoratzea
10. lerroa: 10. lerroa:
Sekuentzien lerrokatze hauek hainbat textu formatuetan biltegiratu daitezke. Formatu hauek askotan programa bat edo lerrokatze baten implementazio batekin batera garatuak izan dira. Web herraminta gehienak hainabt sarrera eta irteera formatu onartzen dituzte FASTA edo GenBank. Herraminta espezifikoen erabilera laborategi baloitzean konplikatu daiteke konpatibilitate baxuaren ondorioz. Konbertsio generikoko programak existitzen dira SEQRETen edo DNA Baseren
Sekuentzien lerrokatze hauek hainbat textu formatuetan biltegiratu daitezke. Formatu hauek askotan programa bat edo lerrokatze baten implementazio batekin batera garatuak izan dira. Web herraminta gehienak hainabt sarrera eta irteera formatu onartzen dituzte FASTA edo GenBank. Herraminta espezifikoen erabilera laborategi baloitzean konplikatu daiteke konpatibilitate baxuaren ondorioz. Konbertsio generikoko programak existitzen dira SEQRETen edo DNA Baseren


== Lerrokatze lokala eta globalak ==
== Erreferentziak ==
{{erreferentzia_zerrenda}}


== Bikoteen lerrokatzea ==

=== Puntu matrizeen metodoak ===

=== Programazio dinamikoa ===

=== Hitz motzen metodoa ===

== Sekuentzien lerrokatze multiplea ==

=== Programazio dinamikoa ===

=== Metodo progresiboak ===

=== Metodo iteratiboak ===

=== Helburuen bidezko aurkikuntza ===

=== Konputazio zientzietan oinarritutako teknikak ===

== Lerrokatze estrukturala ==

=== DALI ===

=== SSAP ===

=== Hedapen konbinatorioa ===

== Analisi filogenetikoa ==
Filogenia eta sekuentzien lerrokatzea lotura estua duten eremuak dira, sekuentzien arteko ahaidetasuna ebaluatzeko behar partekatua dutelako. Filogeniak zuhaitz filogenetikoen eraikuntzan eta interpretazioan sekuentzien lerrokatzeen erabilera estentsiboa egiten du, espezie dibergenteen genoman irudikatutako gene homologoen arteko erlazio ebolutiboak sailkatzeko erabiltzen direnak. Arazo multzo baten sekuentziak zein mailatan diren desberdinak, horien arteko distantzia ebolutiboarekin lotuta dago kualitatiboki. Modu sinplifikatuan, sekuentzien identitate altu batek, konparatiboki, arbaso komun berriago bat dutela iradokitzen du, identitate baxu batek, dibergentzia, urrunagokoa dela iradokitzen duen bitartean. Hurbilketa honek, "Erloju molekularraren" hipotesia islatzen du (eboluzio aldaketaren erritmo gutxi gorabehera konstantea hartzen duen hipotesia, bi geneen lehen dibergentziatik igarotako denbora estrapolatzeko erabil daitekeena, edo "koaleszentzia" denbora), mutazioaren eta hautespen naturalaren eraginak sekuentzia leinuen luzeran konstanteak direla onartzen duena. Beraz, ez ditu kontuan hartzen DNA konpontzeko erritmoetan organismo edo espezieen artean egon daitezkeen desberdintasunak, edo sekuentzia batean eskualde espezifikoen kontserbazio funtzionala. (Nukleotidoen sekuentzien kasuan, erloju molekularraren hipotesi oinarrizkoenak alde batera uzten du mutazio isilen (kodoi jakin baten esanahia aldatzen ez dutenak) eta proteinan aminoazido desberdin bat sartzean sortzen diren beste mutazio batzuen arteko onarpen-tasen diferentzia). Zehaztasun estatistiko handiagoko metodoek zuhaitz filogenetikoaren adar bakoitzean eboluzio-erritmoa aldatzea ahalbidetzen dute, horrela geneen koaleszentzia-denboren estimazio hobeak eginez.

Lerrokatze anizkoitz progresiboko teknikek zuhaitz filogenetiko bat sortzen dute nahitaez, lerrokatze gero eta handiagoari sekuentziak gehitzen baitizkiote ahaidetasun-ordenaren arabera. Sekuentzia eta zuhaitz filogenetikoen lerrokadura anitzak biltzen dituzten beste teknika batzuk, zuhaitzak puntuatzen eta ordenatzen dituzte lehenik, eta, ondoren, sekuentzien lerrokatze anizkoitza kalkulatzen dute puntuazio handiagoko zuhaitzetik abiatuta. Zuhaitz filogenetikoak eraikitzeko metodo komunak heuristikoak dira nagusiki. Zuhaitz optimoa aukeratzeko arazoa, sekuentzia optimoen lerrokatze anizkoitza aukeratzeko arazoa bezala, NP-konplexuak dira.

== Garrantziaren balorazioa ==
Sekuentzien lerrokatzeak erabilgarriak dira bioinformatikan sekuentzien arteko antzekotasunak identifikatzeko, zuhaitz filogenetikoak sortzeko eta proteinen egituren gaineko homologia ereduak garatzeko. Hala ere, lerrokatzeen garrantzi biologikoa ez da beti argia. Askotan onartzen da lerrokadurek eboluzio-aldaketaren maila islatzen dutela arbaso komun batetik datozen sekuentzien artean; baina formalki posible da konbergentzia ebolutiboa gertatzea, eboluzioaren aldetik lotuta ez dauden baina antzeko funtzioak betetzen dituzten eta antzeko egiturak dituzten proteinen artean itxurazko antzekotasunak sortzeko.

Datu-baseetako bilaketetan, BLASTekin bezala, metodo estatistikoek sekuentzien edo sekuentzia-eskualdeen arteko kasualitatezko lerrokatze partikularraren probabilitatea zehaztu dezakete, datu-basearen tamaina eta osaera kontuan hartuta. Balio horiek nabarmen alda daitezke bilaketa-espazioaren arabera. Zehazki, kasualitatez lerrokadura jakin bat aurkitzeko probabilitatea handitu egiten da baldin eta datu-basea arazo-sekuentziaren organismo beraren sekuentzietaz bakarrik beteta badago. Datu-baseko edo kontsultako sekuentzia errepikakorrek ere desitxuratu egin ditzakete emaitzen bilaketa eta haien esangura estatistikoaren balorazioa. BLASTek automatikoki iragazten ditu sekuentzia errepikakor horiek kontsultan, estatistika-artefaktuei dagozkien itxurazko arrakastak saihesteko.

=== Puntuazio-funtzioak ===
Lerrokadura onak sortzeko, garrantzitsua da sekuentzia ezagunei buruzko behaketa biologikoak edo estatistikak islatzen dituen puntuazio-funtzio bat aukeratzea. Proteinen sekuentziak maiz ordezkapen-matrizeak erabiliz lerrokatzen dira. Matrize horiek karaktereen araberako ordezkapen partikularren probabilitateak islatzen dituzte. Pam matrize izeneko matrize batzuk (ingelesezko Point Accepted Mutationetik, onartutako mutazio puntuala, jatorrian Margaret Dayhoffek zehaztua, eta, beraz, batzuetan Dayhoff matrizeak deitzen direnak), hurbilketa ebolutiboak esplizituki kodetzen dituzte, aminoazidoen mutazio partikularren maiztasun eta probabilitateak kontuan hartuz. Beste puntuazio-matrize arrunt batek, BLOSUM izenaz ezagutzen direnak (ingelesezko Blocks Substitution Matrix, blokeen ordezkapen-matrizea), enpirikoki deribatutako ordezkapen-probabilitateak kodetzen ditu. Bi matrize mota horien aldaerak erabiltzen dira dibergentzia-maila desberdinak dituzten sekuentziak detektatzeko; horrela, BLAST edo FASTAren erabiltzaileei aukera ematen zaie beren bilaketak hurbilago lotutako kointzidentzietara mugatzeko edo hedatzeko sekuentzia dibergenteagoak detektatzeko. Gapen bidezko penalizazioek nukleotidoen eta proteinen sekuentzietan hutsuneak sartzea adierazten dute (eredu ebolutiboan, txertatze edo ezabatze bidezko mutazio bat), eta, beraz, penalizazio-balio horiek mutazio horietatik espero den maiztasunarekiko proportzionalak izan beharko lukete. Sortutako lerrokatzeen kalitatea, beraz, puntuazio-funtzioaren kalitatearen araberakoa da.

Oso baliagarria eta irakasgarria izan daiteke puntuazio-matrizeen eta/edo hutsuneen araberako penalizazio-balioen aukeraketa desberdinekin, lerrokatze berbera saiatzea eta emaitzak alderatzea. Soluzioa oso sendoa ez den edo bakarra ez den eskualdeak sarri identifika daitezke lerrokatze-parametroen aldakuntzekiko sendoak diren lerrokatze-eskualdeak behatuz.

== Erabilpen ez biologikoak ==
Sekuentzia biologikoak lerrokatzeko erabilitako metodoek beste eremu batzuetan ere aurki ditzakete aplikazioak. Oso nabarmena da lengoaia naturalen prozesamenduan. Elementu taldeak sortzen dituzten teknikak, nondik hitzak hautatzeko erabiltzen dituzten lenguai naturalen algoritmoek, sekuentzien lerrokatzeko teknikak eskatu dituzte bioinformatikari, ordenagailuz egingo diren prueba matematikoen bertsio linguistikoak sortzeko. Hizkuntzalaritza historiko eta konparatiboaren arloan, sekuentzien lerrokatzea erabili da hizkuntzalariek lengoaiak berreraikitzeko erabili ohi duten metodo konparatiboa partzialki automatizatzeko. Halaber, sekuentziak lerrokatzeko teknikak aplikatu dira negozioen ikerketan eta marketinean, erosketen aldi baterako serieak aztertuta.

== Softwarea ==

Sekuentziak lerrokatzeko zeregin orokorretarako erabiltzen diren software-tresna arruntak ClustalW eta T-coffee dira lerrokatzeko, eta BLAST datu-baseetan bilatzeko. Eskuragarri dagoen softwarearen zerrenda askoz osoagoa da, algoritmo eta lerrokadura motaren arabera kategorizatua dagoena.

Lerrokatze algoritmoak eta softwarea zuzenean kontrastatu daitezke benchmark multzo estandarizatu bat erabiliz sekuentzia anitzen lerrokaduretarako, BAliBASE izenekoa. Datu-multzoa egitura-lerrokaduretan datza. Lerrokadura horiek estandar gisa har daitezke, eta haren aurka alderatzen dira sekuentzietan oinarritutako metodoak. Lerrokatze arazoetan maiz aurkitutako lerrokatze metodo komun askoren errendimendu erlatiboa tabulatua izan da, eta emaitzarik esanguratsuenak online argitaratu dira BAliBASEn. STRAP proteinen lan bankuan, lerrokatze tresna ezberdinetarako BAliBASE puntuazio zerrenda zehatz bat konputatu daiteke.

<br />
== Kanpo estekak ==
== Kanpo estekak ==

* [[Bioinformatika]]
* [[Azido desoxirribonukleiko|ADN]]
* [[Azido erribonukleiko|ARN]]
* [[Hizkuntzaren prozesamendu|Hizkuntzaren prozesamendua]]

== Erreferentziak ==
{{erreferentzia_zerrenda}}


{{autoritate kontrola}}
{{autoritate kontrola}}

21:01, 3 martxoa 2021ko berrikusketa

Sekuentzien lerrokatzea bioinformatikako arloan bi edo gehiago diren ADN, ARN edo egitura proteiko primarioen sekuentziak elkarren artean konparatzeko edo irudikatzeko era bat da. Helburua da sekuentzia hauetan komunak diren zatiak nabarmentzea, erlazio funtzional edo ebolutiboak adieraz dezaketenak. Sekuentzia hauek matrize baten lerroetan irudikatzen dira hizkien bitartez (aminoazidoak edo nukleotidoak irudikatuz). Beharrezkoa bada, txuriguneak gehitzen dira estruktura berdina duten sekuentziak lerroka daitezen.

Nahiz eta ADN eta ARNko oinarri nukleotidikoak elkarrekiko berdintsuagoak izan aminoazidoekin baino, oinarrien parekatzeen mantentzeak rol funtzional edo estruktura berdintsuak adierazi lezake. Sekuentzien lerrokatzeak biologikoak ez diren sekuentziekin erabili daitezke, hala nola, hizki serie eta gizakien hitzen identifikazioan edo datu finatzarioen analisian. Proteinen estruktura primarioak konparatzeko hainbat algoritmo aurki ditzazkegu, baina nabarmangarrienak Needleman-Wunch algoritmoa, Smith-Waterman algoritmoa, BLAST eta FASTA dira.

Oso motzak edo oso berdintsuak diren sekuentziak eskuz lerrokatu daitezke. Bestalde, problema interesgarrienak eskuz lerrokatu ezin daitezken sekuentzia oso luze, aldagarriak eta oso ugariak erabiltzera behartzen dute. Gizakien adimena kalitatezko lerrokatzeak sortuko dituzten algoritmoak sortzeko erabiltzen da, eta batzuetan azkeneko emaitza estutzeko, algoritmoetan sartzeko oso zailak diren patroiak errepresentatzeko. Hurbilpen konputazioanlak bi kategorietan banatzen dira: lerrokatze globala eta lerrokatze lokala. Lerrokatze globala kalkulatzea, optimizazio global mota bat da, lerrokatzeari sartutako sekuentzien luzeera osoa okupatzera behartzen diona. Konparatiboki, lerrokatze lokalak sekuentzia luzeeetako sekzio berdintsuak identifikatzen dituzte, sekuentzia hauek askotan dibergenteak dira haien artean. Askotan lerrokatze lokalak gehiago aukeratzen dira, baina zailagoak izan daitezke berdintasun regio hauen identifikazioa gehitu behar zaielako. Sekuentzien lerrokatzeari hainbat algoritmo konputazional aplikatzen dira, hala nola, metodo motelak, baina optimizatzeko erabiliak, programazio dinamikoa eta metodo heuristiko edo probabilistiko eraginkorrak, datu-base handietan bilatzeko pentsatuak daudenak.

Irudikapenak

Lerrokatzeak testuzko eta grafikozko formatuaetan irudikatzen dira. Irudikapen gehienetan, sekuentziak lerro batean idazten dira, non lerrokatutaklo hondakinak ondoz ondoko zutabetan agertzen diren. Textu formatuetan, lerrokatutako zutabeak karaktere berdintsuak dauzkate, mantentze simbolo sistema baten bidez irudikatuak. Hasierako irudian, izartxoak erabiltzen dira bi zutabeen identitatea adierazteko. Sekuentziak irudikatzeko programa askok koloreztatutako eskemak erabiltzen dituzte, sekuentzia bakoitzaren propietateen informazioa adierazteko(ADN eta ARN sekuentzietan, oinarri bakoitzari kolore bat esleitzean datza). Proteinene lerroekatzean, goiko adibidean bezala, koloreak aminoazidoen propietateak adierazteko erabiltzen dira, aminoazidoen ordezkapenean edo kontserbazioaren karazterizazioan laguntzen. Irudikatzean, gutxi erabiltzen diren sinboloak komak(ordezkapen kontserbatioboentzat) edo puntuak(ordezkapen semikontserbatioboentzat) dira. Hainbat sekuentzia sartzen direnean zutabe bakoitzeko azken lerroa, lerrokatzeak definituriko adostasuna errepresentatzen dui normalki. Adostasun sekuentzia formatu grafikoan ere irudikatu ohi da sekuentzia logotipo baten azpian, nukleotido edo aminoazido bakoitzaren hizkiaren neurria kontserbazio mailarekin proportzionala izanik.[1]

Sekuentzien lerrokatze hauek hainbat textu formatuetan biltegiratu daitezke. Formatu hauek askotan programa bat edo lerrokatze baten implementazio batekin batera garatuak izan dira. Web herraminta gehienak hainabt sarrera eta irteera formatu onartzen dituzte FASTA edo GenBank. Herraminta espezifikoen erabilera laborategi baloitzean konplikatu daiteke konpatibilitate baxuaren ondorioz. Konbertsio generikoko programak existitzen dira SEQRETen edo DNA Baseren

Lerrokatze lokala eta globalak

Bikoteen lerrokatzea

Puntu matrizeen metodoak

Programazio dinamikoa

Hitz motzen metodoa

Sekuentzien lerrokatze multiplea

Programazio dinamikoa

Metodo progresiboak

Metodo iteratiboak

Helburuen bidezko aurkikuntza

Konputazio zientzietan oinarritutako teknikak

Lerrokatze estrukturala

DALI

SSAP

Hedapen konbinatorioa

Analisi filogenetikoa

Filogenia eta sekuentzien lerrokatzea lotura estua duten eremuak dira, sekuentzien arteko ahaidetasuna ebaluatzeko behar partekatua dutelako. Filogeniak zuhaitz filogenetikoen eraikuntzan eta interpretazioan sekuentzien lerrokatzeen erabilera estentsiboa egiten du, espezie dibergenteen genoman irudikatutako gene homologoen arteko erlazio ebolutiboak sailkatzeko erabiltzen direnak. Arazo multzo baten sekuentziak zein mailatan diren desberdinak, horien arteko distantzia ebolutiboarekin lotuta dago kualitatiboki. Modu sinplifikatuan, sekuentzien identitate altu batek, konparatiboki, arbaso komun berriago bat dutela iradokitzen du, identitate baxu batek, dibergentzia, urrunagokoa dela iradokitzen duen bitartean. Hurbilketa honek, "Erloju molekularraren" hipotesia islatzen du (eboluzio aldaketaren erritmo gutxi gorabehera konstantea hartzen duen hipotesia, bi geneen lehen dibergentziatik igarotako denbora estrapolatzeko erabil daitekeena, edo "koaleszentzia" denbora), mutazioaren eta hautespen naturalaren eraginak sekuentzia leinuen luzeran konstanteak direla onartzen duena. Beraz, ez ditu kontuan hartzen DNA konpontzeko erritmoetan organismo edo espezieen artean egon daitezkeen desberdintasunak, edo sekuentzia batean eskualde espezifikoen kontserbazio funtzionala. (Nukleotidoen sekuentzien kasuan, erloju molekularraren hipotesi oinarrizkoenak alde batera uzten du mutazio isilen (kodoi jakin baten esanahia aldatzen ez dutenak) eta proteinan aminoazido desberdin bat sartzean sortzen diren beste mutazio batzuen arteko onarpen-tasen diferentzia). Zehaztasun estatistiko handiagoko metodoek zuhaitz filogenetikoaren adar bakoitzean eboluzio-erritmoa aldatzea ahalbidetzen dute, horrela geneen koaleszentzia-denboren estimazio hobeak eginez.

Lerrokatze anizkoitz progresiboko teknikek zuhaitz filogenetiko bat sortzen dute nahitaez, lerrokatze gero eta handiagoari sekuentziak gehitzen baitizkiote ahaidetasun-ordenaren arabera. Sekuentzia eta zuhaitz filogenetikoen lerrokadura anitzak biltzen dituzten beste teknika batzuk, zuhaitzak puntuatzen eta ordenatzen dituzte lehenik, eta, ondoren, sekuentzien lerrokatze anizkoitza kalkulatzen dute puntuazio handiagoko zuhaitzetik abiatuta. Zuhaitz filogenetikoak eraikitzeko metodo komunak heuristikoak dira nagusiki. Zuhaitz optimoa aukeratzeko arazoa, sekuentzia optimoen lerrokatze anizkoitza aukeratzeko arazoa bezala, NP-konplexuak dira.

Garrantziaren balorazioa

Sekuentzien lerrokatzeak erabilgarriak dira bioinformatikan sekuentzien arteko antzekotasunak identifikatzeko, zuhaitz filogenetikoak sortzeko eta proteinen egituren gaineko homologia ereduak garatzeko. Hala ere, lerrokatzeen garrantzi biologikoa ez da beti argia. Askotan onartzen da lerrokadurek eboluzio-aldaketaren maila islatzen dutela arbaso komun batetik datozen sekuentzien artean; baina formalki posible da konbergentzia ebolutiboa gertatzea, eboluzioaren aldetik lotuta ez dauden baina antzeko funtzioak betetzen dituzten eta antzeko egiturak dituzten proteinen artean itxurazko antzekotasunak sortzeko.

Datu-baseetako bilaketetan, BLASTekin bezala, metodo estatistikoek sekuentzien edo sekuentzia-eskualdeen arteko kasualitatezko lerrokatze partikularraren probabilitatea zehaztu dezakete, datu-basearen tamaina eta osaera kontuan hartuta. Balio horiek nabarmen alda daitezke bilaketa-espazioaren arabera. Zehazki, kasualitatez lerrokadura jakin bat aurkitzeko probabilitatea handitu egiten da baldin eta datu-basea arazo-sekuentziaren organismo beraren sekuentzietaz bakarrik beteta badago. Datu-baseko edo kontsultako sekuentzia errepikakorrek ere desitxuratu egin ditzakete emaitzen bilaketa eta haien esangura estatistikoaren balorazioa. BLASTek automatikoki iragazten ditu sekuentzia errepikakor horiek kontsultan, estatistika-artefaktuei dagozkien itxurazko arrakastak saihesteko.

Puntuazio-funtzioak

Lerrokadura onak sortzeko, garrantzitsua da sekuentzia ezagunei buruzko behaketa biologikoak edo estatistikak islatzen dituen puntuazio-funtzio bat aukeratzea. Proteinen sekuentziak maiz ordezkapen-matrizeak erabiliz lerrokatzen dira. Matrize horiek karaktereen araberako ordezkapen partikularren probabilitateak islatzen dituzte. Pam matrize izeneko matrize batzuk (ingelesezko Point Accepted Mutationetik, onartutako mutazio puntuala, jatorrian Margaret Dayhoffek zehaztua, eta, beraz, batzuetan Dayhoff matrizeak deitzen direnak), hurbilketa ebolutiboak esplizituki kodetzen dituzte, aminoazidoen mutazio partikularren maiztasun eta probabilitateak kontuan hartuz. Beste puntuazio-matrize arrunt batek, BLOSUM izenaz ezagutzen direnak (ingelesezko Blocks Substitution Matrix, blokeen ordezkapen-matrizea), enpirikoki deribatutako ordezkapen-probabilitateak kodetzen ditu. Bi matrize mota horien aldaerak erabiltzen dira dibergentzia-maila desberdinak dituzten sekuentziak detektatzeko; horrela, BLAST edo FASTAren erabiltzaileei aukera ematen zaie beren bilaketak hurbilago lotutako kointzidentzietara mugatzeko edo hedatzeko sekuentzia dibergenteagoak detektatzeko. Gapen bidezko penalizazioek nukleotidoen eta proteinen sekuentzietan hutsuneak sartzea adierazten dute (eredu ebolutiboan, txertatze edo ezabatze bidezko mutazio bat), eta, beraz, penalizazio-balio horiek mutazio horietatik espero den maiztasunarekiko proportzionalak izan beharko lukete. Sortutako lerrokatzeen kalitatea, beraz, puntuazio-funtzioaren kalitatearen araberakoa da.

Oso baliagarria eta irakasgarria izan daiteke puntuazio-matrizeen eta/edo hutsuneen araberako penalizazio-balioen aukeraketa desberdinekin, lerrokatze berbera saiatzea eta emaitzak alderatzea. Soluzioa oso sendoa ez den edo bakarra ez den eskualdeak sarri identifika daitezke lerrokatze-parametroen aldakuntzekiko sendoak diren lerrokatze-eskualdeak behatuz.

Erabilpen ez biologikoak

Sekuentzia biologikoak lerrokatzeko erabilitako metodoek beste eremu batzuetan ere aurki ditzakete aplikazioak. Oso nabarmena da lengoaia naturalen prozesamenduan. Elementu taldeak sortzen dituzten teknikak, nondik hitzak hautatzeko erabiltzen dituzten lenguai naturalen algoritmoek, sekuentzien lerrokatzeko teknikak eskatu dituzte bioinformatikari, ordenagailuz egingo diren prueba matematikoen bertsio linguistikoak sortzeko. Hizkuntzalaritza historiko eta konparatiboaren arloan, sekuentzien lerrokatzea erabili da hizkuntzalariek lengoaiak berreraikitzeko erabili ohi duten metodo konparatiboa partzialki automatizatzeko. Halaber, sekuentziak lerrokatzeko teknikak aplikatu dira negozioen ikerketan eta marketinean, erosketen aldi baterako serieak aztertuta.

Softwarea

Sekuentziak lerrokatzeko zeregin orokorretarako erabiltzen diren software-tresna arruntak ClustalW eta T-coffee dira lerrokatzeko, eta BLAST datu-baseetan bilatzeko. Eskuragarri dagoen softwarearen zerrenda askoz osoagoa da, algoritmo eta lerrokadura motaren arabera kategorizatua dagoena.

Lerrokatze algoritmoak eta softwarea zuzenean kontrastatu daitezke benchmark multzo estandarizatu bat erabiliz sekuentzia anitzen lerrokaduretarako, BAliBASE izenekoa. Datu-multzoa egitura-lerrokaduretan datza. Lerrokadura horiek estandar gisa har daitezke, eta haren aurka alderatzen dira sekuentzietan oinarritutako metodoak. Lerrokatze arazoetan maiz aurkitutako lerrokatze metodo komun askoren errendimendu erlatiboa tabulatua izan da, eta emaitzarik esanguratsuenak online argitaratu dira BAliBASEn. STRAP proteinen lan bankuan, lerrokatze tresna ezberdinetarako BAliBASE puntuazio zerrenda zehatz bat konputatu daiteke.


Kanpo estekak

Erreferentziak

  1. Schneider, T D; Stephens, R M. (1990-10-25). «Sequence logos: a new way to display consensus sequences.» Nucleic Acids Research 18 (20): 6097–6100. ISSN 0305-1048. PMID 2172928. (Noiz kontsultatua: 2021-03-01).


Informatika Artikulu hau informatikari buruzko zirriborroa da. Wikipedia lagun dezakezu edukia osatuz.