Exercise: Multiple Alignments

From teachingmaterials

(Redirected from ExMulAlign)
Jump to: navigation, search

Exercise written by: Rasmus Wernersson with an intermezzo by Anders Gorm Pedersen.

Contents

Del 1 - brug af MAFFT

Et af de allermest brugte alignment programmer er "Clustal" pakken, som blev omtalt til forelæsningen. Den findes i to varianter: ClustalW (til kommandolinie brug) og ClustalX (som har et grafisk interface). Typisk vil man bruge ClustalX til interaktivt brug, og ClustalW, hvis man skal kunne automatisere brugen af det - det er præcis den samme algoritme der bliver brugt, og resultatet er det samme.

ClustalW/X er gratis at bruge og findes til stort set alle computersystemer - herunder også Windows og Mac. Hvis du vil installere ClustalX på din egen maskine kan det downloades herfra: http://www.clustal.org/clustal2/. Det kan også bruges i en online version, som ligger under EBI's multiple alignment side: http://www.ebi.ac.uk/Tools/msa/.

Som det også blev nævnt under forelæsningen, er ClustalW/X dog hverken det hurtigste eller mest præcise program. Intet program klarer sig bedst i alle situationer, men et af de bedste og hurtigste hedder MAFFT. Det kan downloades herfra: http://mafft.cbrc.jp/alignment/software/ (NB: kun kommandolinie-interface) eller bruges online herfra: http://mafft.cbrc.jp/alignment/server/. Det kan også bruges online fra EBI's multiple alignment side: http://www.ebi.ac.uk/Tools/msa/.


Trin 1

Til første del af øvelsen skal vi kigge på et sæt af alpha-globin gener fra en række forskellige dyr. Den første opgave er at konstruere et brugbart datasæt. Nedenstående er en liste af GenBank IDs der indeholder de sekvenser vi skal bruge (nogle af dem indeholder flere gener).

GenBank: Nucleotide search

AB001981
X01831
J00923
J00043
J00044
X01086
X07053
AF098919

Åbn en tekst-editor (fx. JEdit) - efterhånden som vi finder de sekvenser vi skal bruge, skal vi gemme dem i en samlet FASTA fil med nogle fornuftige korte navne.


BEMÆRK: Nogle programmer fejler når navnene indeholder mellemrum, brug derfor underscore eller bindestreg i jeres navne hvis i har flere ord. Navnene bør desuden være unikke indenfor de første 15 tegn i titlen, da nogle programmer (f.eks. Jalview) kun ser på de første tegn og fejler hvis navnene er ens.


For eksempel:

>goat_alpha_globin_II
ATGGTGCTGTCTGCCGCCGACAAGTCCAATGTCAAGGCCGCCTGGGGCAAGGTTGGCAGCAACGCTGGAG
CTTATGGCGCAGAGGCTCTGGAGAGGATGTTCCTGAGCTTCCCCACCACCAAGACCTACTTCCCCCACTT
CGACCTGAGCCACGGCTCGGCCCAGGTCAAGGGCCACGGCGAGAAGGTGGCCGCCGCGCTGACCAAAGCG
GTGGGCCACCTGGACGACCTGCCCGGTACTCTGTCTGATCTGAGTGACCTGCACGCCCACAAGCTGCGTG
TGGACCCGGTCAACTTTAAGCTTCTGAGCCACTCCCTGCTGGTGACCCTGGCCTGCCACCACCCCAGTGA
TTTCACCCCCGCGGTCCACGCCTCCCTGGACAAGTTCTTGGCCAACGTGAGCACCGTGCTGACCTCCAAA
TACCGTTAA

For hvert GenBank entry find de gener (CDS'er) der koder for alpha-globin. Vi skal bruge DNA sekvensen for selve CDS'erne - husk at man kan klikke på "CDS" for kun at vise selve CDS'en - man kan derefter skifte til at se sekvensen i FASTA format. Bemærk: der kan godt være mere end et alpha-globin gen i nogle af GenBank entry'erne.

Kopiér DNA sekvenserne ind i jeres tekst-editor efterhånden som I finder dem. Giv dem et beskrivende navn, der fortæller hvilken organisme de kommer fra, og hvilken type af alpha-globin der er tale om. Huske at gemme ofte (!).

SPØRGSMÅL 1:
Indsæt din FASTA fil i rapporten.

Trin 2

Gå til EBI's multiple alignment side: http://www.ebi.ac.uk/Tools/msa/ og vælg programmet MAFFT. Kopiér sekvenserne ind (eller upload hele filen). Vælg "ClustalW" som Output format og fortæl programmet om det er DNA- eller protein-sekvenser. Start programmet. Bemærk følgende i outputtet:

Øverst er der en boks ("Results of search") der giver et overblik over kørslen. Som udgangspunkt giver MAFFT et rent-tekstbaseret output, og alt hvad der er af grafik og tabeller på siden, er lagt på af EBI's webserver. Det "rå" alignment kan ses, hvis man klikker på "Alignment file" link'et.

Sektionen "Alignment" viser der faktiske alignment.

SPØRGSMÅL 2a:
  1. Hvad vil I gætte på, stjernerne ("*") under alignment'et betyder?
  2. Hvor mange områder med perfekt bevaret sekvens (lad os sige på mindst 10 baser) kan I finde?

I sektionen "Guide Tree" vises en grafisk repræsentation af sekvensernes indbyrdes afstand (bemærk: det er ikke et "rigtigt" fylogenetisk træ - det er et estimat baseret på de parvise alignments. Rigtige fylogenetiske træer skal bruge det multiple alignment som input — det kommer vi til i næste uge).

Hvor mange grupper (clusters) samler sekvenserne sig I?

SPØRGSMÅL 2b:
  1. Ligger sekvenserne "naturligt" placeret? Eller blander arterne sig på kryds og tværs?
  2. Ser det ud til at alpha-A og alpha-D ligger tæt eller fjernt sekvensmæssigt?
  3. Hvad med alpha-1 og alpha-2?

Det kan være svært at få det store overblik over DNA sekvenser ved at kigge på den rå tekst. EBI tilbyder en grafisk viewer (der minder en del om ClustalX interfacet), der farver sekvenserne og fremhæver steder hvor sekvensen er konserveret.

Start "JalView" programmet, som findes under fanebladet Result summary (Vær opmærksom på at det kan tage et øjeblik for vinduet at åbne).

Gå på opdagelse langs alignmentet - bemærk farvningen af nucleotiderne og "consensus" linien for neden.

Trin 3

Oversæt nu DNA-sekvenserne til protein-sekvenser og konstruer et nyt alignment. Link: VirtualRibosome

SPØRGSMÅL 3:
  1. Indsæt de oversatte sekvenser i FASTA format i rapporten.
  2. Undersøg igen "Guide tree" sektionen - får I samme resultater som sidst?
  3. Hvor mange perfekt bevarede områder kan I finde nu (lad os sige på mindst 5 aminosyrer)
    • (Kig på alignmentet)

Brug igen "JalView" til at kigge på alignmentet.

  • Bemærk at farvningen nu grupperer amino-syrerne ind i grupper der er beslægtet kemisk.
  • Bemærk at der nu også beregnes en "conservation" og "quality" score for hver position.

Trin 4

Nyt datasæt: Insulin. Nedenstående FASTA fil indeholder genet for insulin for en række forskellige organismer.

>U00659.CDS.1_UTR+spliced
ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
GAGAACTACTGTAACTAG
>AY044828.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242098.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242100.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242101.CDS.2_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>AY242109.CDS.1_UTR+spliced
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCGCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTAGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>V00179.CDS.1_UTR+spliced
ATGGCCCTCTGGATGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCG
CCCACCCGAGCCTTCGTTAACCAGCACCTGTGTGGCTCCCACCTGGTAGAGGCTCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCTAAGGCCCGCAGGGAGGTGGAGGAC
CTGCAGGTGAGGGACGTGGAGCTGGCCGGGGCGCCTGGCGAGGGCGGCCTGCAGCCCCTG
GCCCTGGAGGGGGCCCTGCAGAAGCGAGGCATCGTGGAGCAGTGCTGCACCAGCATCTGC
TCCCTCTACCAGCTGGAGAATTACTGCAACTAG
>J02989.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCACCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCCGAG
CCAGCCCCGGCCTTTGTGAACCAGCACCTGTGCGGCCCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGTTTCTTCTACGCACCCAAGACCCGCCGGGAGGCGGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGTGGGGGCTCTATCACGGGCAGCCTGCCACCCTTG
GAGGGTCCCATGCAGAAGCGTGGCGTCGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGCAGAACTACTGCAACTAG
>AY138590.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>X61092.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCGGTCCCGGCCTTTGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGCTTCTTCTACACGCCCAAGACCCGCCGGGAGGCAGAGGAC
CCGCAGGTGGGGCAGGTAGAGCTGGGCGGGGGCCCTGGCGCAGGCAGCCTGCAGCCCTTG
GCGCTGGAGGGGTCCCTGCAGAAGCGCGGCATCGTGGAGCAGTGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>J00265.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>X61089.CDS.1_UTR+spliced
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGTGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCTCGGCCTTTGTGAACCAACACCTGTGCGGCTCCCACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGTATCGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>K02233.CDS.1_UTR+spliced
ATGGCTCTGTGGATGCATCTCCTCACCGTGCTGGCCCTGCTGGCCCTCTGGGGGCCCAAC
ACTAATCAGGCCTTTGTCAGCCGGCATCTGTGCGGCTCCAACTTAGTGGAGACATTGTAT
TCAGTGTGTCAGGATGATGGCTTCTTCTATATACCCAAGGACCGTCGGGAGCTAGAGGAC
CCACAGGTGGAGCAGACAGAACTGGGCATGGGCCTGGGGGCAGGTGGACTACAGCCCTTG
GCACTGGAGATGGCACTACAGAAGCGTGGCATTGTGGATCAGTGCTGTACTGGCACCTGC
ACACGCCACCAGCTGCAGAGCTACTGCAACTAG
>X04725.CDS.1_UTR+spliced
ATGGCCCTGTTGGTGCACTTCCTACCCCTGCTGGCCCTGCTTGCCCTCTGGGAGCCCAAA
CCCACCCAGGCTTTTGTCAAACAGCATCTTTGTGGTCCCCACCTGGTAGAGGCTCTCTAC
CTGGTGTGTGGGGAGCGTGGCTTCTTCTACACACCCAAGTCCCGCCGTGAAGTGGAGGAC
CCACAAGTGGAACAACTGGAGCTGGGAGGAAGCCCCGGGGACCTTCAGACCTTGGCGTTG
GAGGTGGCCCGGCAGAAGCGTGGCATTGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAA
>AY438372.CDS.1_UTR+spliced
ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGA
ACCAGCTATGCAGCTGCCAACCAGCACCTCTGTGGCTCCCACTTGGTGGAGGCTCTCTAC
CTGGTGTGTGGAGAGCGTGGCTTCTTCTACTCCCCCAAAGCCCGACGGGATGTCGAGCAG
CCCCTAGTGAGCAGTCCCTTGCGTGGCGAGGCAGGAGTGCTGCCTTTCCAGCAGGAGGAA
TACGAGAAAGTCAAGCGAGGGATTGTTGAGCAATGCTGCCATAACACGTGTTCCCTCTAC
CAACTGGAGAACTACTGCAACTAG

Fasta filen er genereret rent automatisk, og er ikke så informativ mht. navne. Din opgave er nu at finde ud af hvilke organismer de kommer fra, ved at slå dem op i GenBank. Konstruer herfra en ny FASTA fil med navne, der fortæller hvor genet kommer fra, og samtidig bibeholder GenBank ID'et.


For eksempel kan det første entry (U00659) rettes til:

>Sheep_U00659
ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
GAGAACTACTGTAACTAG
SPØRGSMÅL 4:
  • Find arts-navnene som beskrevet overfor, og indsæt den rettede version af FASTA filen i rapporten.

Bemærk: Som I sikkert hurtigt lægger mærke til, indeholder filen redundante sekvenser (næsten ens versioner af samme sekvens fra samme organisme). Lad bare alle entries forblive i filen - et multiple alignment er faktisk et godt tjek af hvor tæt sekvenser ligger på hinanden, og er derfor en god rettesnor for at se om visse sekvenser senere kan smides ud med god samvittighed.

Trin 5

Generer et multiple alignment på DNA niveau.

SPØRGSMÅL 5:
  1. Kig alignmentet igennem (rå tekst + JalView) — er der sat gaps ind som ikke er et multiplum af tre (og derfor ikke svarer til hele codons)? Ser alle gaps ud til at følge codon-grænser?
  2. Hvilken sekvens ser ud til at være mest forskellig fra de andre med det blotte øje (ses nemmest med farverne i JalView)? Giver dette mening taxonomisk set? (hint: er alle sekvenserne fra pattedyr?).
  • Ud fra guide træet, hvilke sekvenser kan vi luge ud af vores datasæt (kun dem der er 100% ens - hvilket giver en grenlængde på 0 mellem dem)?

Hold vinduet med DNA alignment åbent - vi skal bruge det igen om lidt.

Trin 6

  • Generer et multiple alignment på peptid niveau.
  • Kig som før alignmentet igennem. Bemærk igen gaps - denne gang er de (naturligvis) i form af hele underliggende codons. Prøv at sammenligne de steder, hvor der blev sat meget korte gaps ind i DNA alignment'et, med protein-alignment'et → når viden om brug af codon ignoreres, bliver der nogle gange indført nogle uheldige optimeringer på DNA-niveau.
SPØRGSMÅL 6:
  1. Undersøg igen guide-træet: Hvilke sekvenser kan vi nu smide ud? Er der flere end før?

Intermezzo - alternativt splejsede proteiner

Trin 7

De alignments, vi hidtil har set på, har haft få ganske korte gaps. Vi skal nu se hvordan tre forskellige alignment-programmer klarer sig når gaps er længere.

SPØRGSMÅL 7:
Følg instruktionerne på denne side og svar på spørgsmålet under punkt 5.

Del 2 - RevTrans

Trin 8

Vi skal som det sidste i denne øvelse kigge på hvordan man kan kombinere viden om DNA og proteiner i et multiple alignment (se RevTrans artiklen - pensum til idag). RevTrans version 2 benytter som default MAFFT til at lave protein-alignmentet. (Man kan også vælge ClustalW, T-Coffee eller Dialign, et lokalt optimerende alignment-program, som ikke er tilgængeligt på EBI's server).

Image:Emblem-important_tiny.png‎ Hvis I ikke har fået kigget på RevTrans artiklen endnu - så skim den hurtigt igennem (den er let læst). Den forklarer hele konceptet med at trække DNA sekvenserne op på peptid-niveau, for derefter at konstruere et DNA alignment ud fra et peptid alignment.

Som datasæt skal vi bruge insulin-sættet fra før — her renset for redundans og med kortere navne:

>Sheep
ATGGCCCTGTGGACACGCCTGGTGCCCCTGCTGGCCCTGCTGGCACTCTGGGCCCCCGCC
CCGGCCCACGCCTTCGTCAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGAGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGCCGGGAGGTGGAGGGC
CCCCAGGTGGGGGCGCTGGAGCTGGCCGGAGGCCCCGGCGCGGGTGGCCTGGAGGGGCCC
CCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCGCCGGCGTCTGCTCTCTCTACCAGCTG
GAGAACTACTGTAACTAG
>Pig
ATGGCCCTGTGGACGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCC
CCGGCCCAGGCCTTCGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAGGCGCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCCAAGGCCCGTCGGGAGGCGGAGAAC
CCTCAGGCAGGTGCCGTGGAGCTGGGCGGAGGCCTGGGCGGCCTGCAGGCCCTGGCGCTG
GAGGGGCCCCCGCAGAAGCGTGGCATCGTGGAGCAGTGCTGCACCAGCATCTGTTCCCTC
TACCAGCTGGAGAACTACTGCAACTAG
>Dog
ATGGCCCTCTGGATGCGCCTCCTGCCCCTGCTGGCCCTGCTGGCCCTCTGGGCGCCCGCG
CCCACCCGAGCCTTCGTTAACCAGCACCTGTGTGGCTCCCACCTGGTAGAGGCTCTGTAC
CTGGTGTGCGGGGAGCGCGGCTTCTTCTACACGCCTAAGGCCCGCAGGGAGGTGGAGGAC
CTGCAGGTGAGGGACGTGGAGCTGGCCGGGGCGCCTGGCGAGGGCGGCCTGCAGCCCCTG
GCCCTGGAGGGGGCCCTGCAGAAGCGAGGCATCGTGGAGCAGTGCTGCACCAGCATCTGC
TCCCTCTACCAGCTGGAGAATTACTGCAACTAG
>OwlMonkey
ATGGCCCTGTGGATGCACCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCCGAG
CCAGCCCCGGCCTTTGTGAACCAGCACCTGTGCGGCCCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGTTTCTTCTACGCACCCAAGACCCGCCGGGAGGCGGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGTGGGGGCTCTATCACGGGCAGCCTGCCACCCTTG
GAGGGTCCCATGCAGAAGCGTGGCGTCGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGCAGAACTACTGCAACTAG
>Human
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCGCAGCCTTTGTGAACCAACACCTGTGCGGCTCACACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGCATTGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>GreenMonkey
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGCGCTGCTGGCCCTCTGGGGACCTGAC
CCGGTCCCGGCCTTTGTGAACCAGCACCTGTGCGGCTCCCACCTGGTGGAAGCCCTCTAC
CTGGTGTGCGGGGAGCGAGGCTTCTTCTACACGCCCAAGACCCGCCGGGAGGCAGAGGAC
CCGCAGGTGGGGCAGGTAGAGCTGGGCGGGGGCCCTGGCGCAGGCAGCCTGCAGCCCTTG
GCGCTGGAGGGGTCCCTGCAGAAGCGCGGCATCGTGGAGCAGTGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>Chimp
ATGGCCCTGTGGATGCGCCTCCTGCCCCTGCTGGTGCTGCTGGCCCTCTGGGGACCTGAC
CCAGCCTCGGCCTTTGTGAACCAACACCTGTGCGGCTCCCACCTGGTGGAAGCTCTCTAC
CTAGTGTGCGGGGAACGAGGCTTCTTCTACACACCCAAGACCCGCCGGGAGGCAGAGGAC
CTGCAGGTGGGGCAGGTGGAGCTGGGCGGGGGCCCTGGTGCAGGCAGCCTGCAGCCCTTG
GCCCTGGAGGGGTCCCTGCAGAAGCGTGGTATCGTGGAACAATGCTGTACCAGCATCTGC
TCCCTCTACCAGCTGGAGAACTACTGCAACTAG
>GuineaPig
ATGGCTCTGTGGATGCATCTCCTCACCGTGCTGGCCCTGCTGGCCCTCTGGGGGCCCAAC
ACTAATCAGGCCTTTGTCAGCCGGCATCTGTGCGGCTCCAACTTAGTGGAGACATTGTAT
TCAGTGTGTCAGGATGATGGCTTCTTCTATATACCCAAGGACCGTCGGGAGCTAGAGGAC
CCACAGGTGGAGCAGACAGAACTGGGCATGGGCCTGGGGGCAGGTGGACTACAGCCCTTG
GCACTGGAGATGGCACTACAGAAGCGTGGCATTGTGGATCAGTGCTGTACTGGCACCTGC
ACACGCCACCAGCTGCAGAGCTACTGCAACTAG
>Mouse
ATGGCCCTGTTGGTGCACTTCCTACCCCTGCTGGCCCTGCTTGCCCTCTGGGAGCCCAAA
CCCACCCAGGCTTTTGTCAAACAGCATCTTTGTGGTCCCCACCTGGTAGAGGCTCTCTAC
CTGGTGTGTGGGGAGCGTGGCTTCTTCTACACACCCAAGTCCCGCCGTGAAGTGGAGGAC
CCACAAGTGGAACAACTGGAGCTGGGAGGAAGCCCCGGGGACCTTCAGACCTTGGCGTTG
GAGGTGGCCCGGCAGAAGCGTGGCATTGTGGATCAGTGCTGCACCAGCATCTGCTCCCTC
TACCAGCTGGAGAACTACTGCAACTAA
>Chicken
ATGGCTCTCTGGATCCGATCACTGCCTCTTCTGGCTCTCCTTGTCTTTTCTGGCCCTGGA
ACCAGCTATGCAGCTGCCAACCAGCACCTCTGTGGCTCCCACTTGGTGGAGGCTCTCTAC
CTGGTGTGTGGAGAGCGTGGCTTCTTCTACTCCCCCAAAGCCCGACGGGATGTCGAGCAG
CCCCTAGTGAGCAGTCCCTTGCGTGGCGAGGCAGGAGTGCTGCCTTTCCAGCAGGAGGAA
TACGAGAAAGTCAAGCGAGGGATTGTTGAGCAATGCTGCCATAACACGTGTTCCCTCTAC
CAACTGGAGAACTACTGCAACTAG

Gå til RevTrans serveren version 2: http://www.cbs.dtu.dk/services/RevTrans-2.0/web/

Bemærk muligheden for at vælge mellem alternative translationsmatricer. Det er ikke noget tilfælde at det til forveksling ligner VirtualRibosome - begge servere bruger samme bagvedliggende programstump til at oversætte fra DNA til protein.

Submit sekvenserne med default settings.

SPØRGSMÅL 8:
  • Kig på alignmentet:
    1. Hvordan er det nu med længden af gaps - går de op i tre?
    2. Vil codons altid være align'et? (altså at 1. positioner står over andre 1. positioner i de enkelte codons osv.).

Bemærk: RevTrans serveren tilbyder (endnu) ikke det store i analysen af alignment'et - men det kan bruges som input til en videre fylogenetisk analyse, og fx. statistisk analyse af mutationer der ikke betyder en ændring i aminosyre ("silent mutations") versus mutationer der fører til ændringer ("non-silent mutation").

Personal tools