ExPairwiseAlignment-Answers

From teachingmaterials

Jump to: navigation, search

Svar til parvis alignment øvelsen

Note: There is also an English version: ExPairwiseAlignment-AnswersEng.

Svar til Parvis Alignment øvelsen
----------------------------------
Af: Rasmus Wernersson & Henrik Nielsen

Q1: 
---
FASTA format.

Q2: 
---
# Length: 361
# Identity:     176/361 (48.8%)
# Similarity:   214/361 (59.3%)
# Gaps:          92/361 (25.5%)
# Score: 860.5

SUBS_BACLE         1 --------------------------------------------------      0
                                                                       
ELYA_BACHD         1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD     50

SUBS_BACLE         1 ------------------------------------------AQSVPWGI      8
                                                               :|:|||||
ELYA_BACHD        51 VDVIHEFEEIPVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGI    100

SUBS_BACLE         9 SRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQD     58
                     |.:....|||||:.|:|.:||||||||::||||.|.|||||:..|||..|
ELYA_BACHD       101 SFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFISSEPSYHD    150

SUBS_BACLE        59 GNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQG    108
                     .|||||||||||||||||||||||||||:|||||||..:||||::|:|||
ELYA_BACHD       151 NNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSGSLASVAQG    200

SUBS_BACLE       109 LEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGS    158
                     :|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|:||:|...
ELYA_BACHD       201 IEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGAAGNTGRQG    250

SUBS_BACLE       159 ISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQSTYPGSTY    208
                     ::|||||:..|||.|.|||..|||||.||..::|.||||||.|||.|:.|
ELYA_BACHD       251 VNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY    300

SUBS_BACLE       209 ASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATSLGSTNLYG    258
                     .||:|||||||||||.|||||.:.||::|.|||..:..|||.|||.:|||
ELYA_BACHD       301 VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYG    350

SUBS_BACLE       259 SGLVNAEAATR    269
                     :|||:|..||:
ELYA_BACHD       351 NGLVHAGRATQ    361


Q3:
---
# Length: 269
# Identity:     176/269 (65.4%)
# Similarity:   214/269 (79.6%)
# Gaps:           0/269 ( 0.0%)
# Score: 916.0

SUBS_BACLE         1 AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFV     50
                     :|:||||||.:....|||||:.|:|.:||||||||::||||.|.|||||:
ELYA_BACHD        93 SQTVPWGISFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFI    142

SUBS_BACLE        51 PGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSG    100
                     ..|||..|.|||||||||||||||||||||||||||:|||||||..:|||
ELYA_BACHD       143 SSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSG    192

SUBS_BACLE       101 SVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAA    150
                     |::|:|||:|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|
ELYA_BACHD       193 SLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGA    242

SUBS_BACLE       151 SGNSGAGSISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQ    200
                     :||:|...::|||||:..|||.|.|||..|||||.||..::|.||||||.
ELYA_BACHD       243 AGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVN    292

SUBS_BACLE       201 STYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATS    250
                     |||.|:.|.||:|||||||||||.|||||.:.||::|.|||..:..|||.
ELYA_BACHD       293 STYTGNRYVSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATY    342

SUBS_BACLE       251 LGSTNLYGSGLVNAEAATR    269
                     |||.:|||:|||:|..||:
ELYA_BACHD       343 LGSPSLYGNGLVHAGRATQ    361

Da de to sekvenser er af forskellig længde (se også svaret på næste spørgsmål), 
giver det umiddelbart mest mening at bruge Smith-Waterman algoritmen ("local alignment"), 
da dette vil give en analyse af forskelle og ligheder for den del af sekvensen 
der faktisk er sammenlignelig.

Bemærk dog at man ved at bruge globalt alignment først nemt kan se at 
sekvenserne er meget ens - bortset fra at den ene mangler et stykke på
ca. 90 aminosyrer i starten. Så i dette tilfælde har vi lært noget ekstra
om sekvenserne ved at foretage et globalt alignment først.

Når to sekvenser ligner hinanden meget, som tilfældet er her, er der generelt ikke
megen forskel på den information man får ud af at bruge lokalt og globalt alignment.


Q4:
---
1)
P29600 - sekvensen er afledt af 3D struktur. 
P41363 - oversat fra DNA + information fra protein-sekventering.

2)
SUBCELLULAR LOCATION: "Secreted protein" (for dem begge).

3)
Svar: P29600 starter direkte med sekvensen af det mature protein. P41363 starter 
med et signal-peptid (pos: 1-24), derefter pro-peptid (25-93), og så først 
derefter kommer det mature protein. Bemærk at både signal-peptid (funktion: 
signal til eksport af proteinet) og pro-peptidet (funktion: hjælper protein med 
at folde korrekt eller sørger for at proteinet ikke er aktivt før proteinet findes
der hvor det faktisk skal fungere - specielt vigtigt for proteaser som ikke skal starte med
at nedbryde sig selv men først aktiveres i f.eks maven hvor det skal klippe andre proteiner
i stykket) klippes af inden protein er "modent".

Forskellen er her at P41363 er (primært) oversat fra DNA og derfor indeholder 
information fra hele den kodende sekvens, mens P29600 er afledt fra 3D struktur, 
som indeholder den mature sekvens. Savinase indeholder faktisk både signal- og 
pro-peptid (kan graves frem i databaserne).

Q5:
---
Taler for: Samme type protease (serin-protease, S8 familie). Thermostabilt (!). 
Minder meget som Savinase på sekvens-niveau.

Mulige problemer: Højt pH optimum - vil evt. kunne optimeres i laboratoriet.

Q6:
---
# Length: 1255
# Identity:     110/1255 ( 8.8%)
# Similarity:   154/1255 (12.3%)
# Gaps:         992/1255 (79.0%)
# Score: -244.0

Bemærk: negativ score!
(alignment ikke vist)

Q7:
---
# Length: 1290
# Identity:      73/1290 ( 5.7%)
# Similarity:   131/1290 (10.2%)
# Gaps:        1062/1290 (82.3%)
# Score: 158.5

(alignment ikke vist)

Q8:
---
# Length: 296
# Identity:      71/296 (24.0%)
# Similarity:   129/296 (43.6%)
# Gaps:          73/296 (24.7%)
# Score: 173.0

SUBS_BACLE        23 GSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGNGHGTHVAGTIAA     72
                     ||.....:|:..::.:.|.|:   .|.|      ..|..|||||| :|||
TPP2_HUMAN       234 GSFGTAEMLNYSVNIYDDGNL---LSIV------TSGGAHGTHVA-SIAA    273

SUBS_BACLE        73 LNNSIGVL-------GVAPSAELYAVKV------LGASGSGSVSSIAQGL    109
                          |..       ||||.|::.::|:      ...:|:|.:.::.:.:
TPP2_HUMAN       274 -----GHFPEEPERNGVAPGAQILSIKIGDTRLSTMETGTGLIRAMIEVI    318

SUBS_BACLE       110 EWAGNNGMHVANLSLGSPS---PSATLEQAVNSAT-SRGVLVVAASGNSG    155
                         |:...:.|.|.|..:   .|..:.:.:|.|. ...::.|:::||:|
TPP2_HUMAN       319 ----NHKCDLVNYSYGEATHWPNSGRICEVINEAVWKHNIIYVSSAGNNG    364

SUBS_BACLE       156 --AGSISYP-ARYANAMAVGATDQNN--------------NRASFSQYGA    188
                       ..::..| ...::.:.|||....:              |:.::|..|.
TPP2_HUMAN       365 PCLSTVGCPGGTTSSVIGVGAYVSPDMMVAEYSLREKLPANQYTWSSRGP    414

SUBS_BACLE       189 GLDIVAPGVNVQSTYPGSTYAS-----------LNGTSMATPHVAGAAAL    227
                     ..| .|.||::.:  ||...||           :|||||::|:..|..||
TPP2_HUMAN       415 SAD-GALGVSISA--PGGAIASVPNWTLRGTQLMNGTSMSSPNACGGIAL    461

SUBS_BACLE       228 V----KQKNPSWSNVQIRNHLKNTATSLGSTNLY--GSGLVNAEAA    267
                     :    |..|..::...:|..|:|||....:..::  |.|::..:.|
TPP2_HUMAN       462 ILSGLKANNIDYTVHSVRRALENTAVKADNIEVFAQGHGIIQVDKA    507

Q9:
---
Det ses tydeligt af det lokale alignment og af det globale alignment UDEN 
end gaps, at den prokaryote protease kun matcher et enkelt område midt
i den humane protease. Det kan man derimod ikke se af det globale alignment 
MED end gaps, som "smører" den korte sekvens ud over hele den lange.

Bemærk at globalt alignment UDEN end gaps kan betragtes som en slags mellemting
mellem globalt og lokalt alignment.

Til fjernt beslægtede sekvenser vil det være bedst at bruge lokalt alignment,
idet man så faktisk får en analyse af den sammenlignelige del af sekvenserne.

Q10:
----
Jeres svar vil naturligvis variere tilfældigt, men generelt skulle I forvente svar 
inden for disse intervaller:

# Length: 100-300 
# Identity:    20%-30%  
# Similarity:  30%-40%  
# Gaps:        25%-40%  
# Score: 40-70 

Dette er altså data fra de lokale alignments man får af at sammenligne ikke-beslægtede
sekvenser med den givne længde og aminosyresammensætning. 

Meningen med at lave Savinase/Shuffled alignments er at få en "nulmodel" der kan 
sammenlignes med det rigtige Savinase/Human peptidase alignment. Hvis I havde gennemført
eksperimentet 100 gange i stedet for 3, kunne I have lavet statistik på resultatet
og udregnet konfidensgrænser og derudfra vurdere graden af signifikans ud fra en given 
alignment score (meget mere om signifikans når vi kommer til BLAST).

Q11:
----
Når vi sammenligner vores Savinase/Human peptidase alignment (score: 173) 
med de "bevidst dårlige" Savinase/Shuffled alignments ser det slet 
ikke så tosset ud længere. Scoren er klart højere end det vi fik med de
blandede sekvenser. Bemærk dog at man er nødt til at se på scoren for at
få en klar forskel - de andre mål overlapper eller afviger ikke nær så konsekvent.

Som vi vil se når vi kommer til BLAST handler der her om at holde sin alignment
score op mod en reference af scores fra ikke-relaterede sekvenser.

Q12:
----
BLOSUM90:
# Length: 279
# Identity:      73/279 (26.2%)
# Similarity:   107/279 (38.4%)
# Gaps:          91/279 (32.6%)
# Score: 147.5
BLOSUM30:
# Length: 326
# Identity:      76/326 (23.3%)
# Similarity:   149/326 (45.7%)
# Gaps:          88/326 (27.0%)
# Score: 342.5
Bemærk hvordan en matrix med et lavere BLOSUM-tal giver et længere lokalt alignment 
med en lavere % identitet.

Q13:
----
# Length: 1255
# Identity:     192/1255 (15.3%)
# Similarity:   228/1255 (18.2%)
# Gaps:        1011/1255 (80.6%)
# Score: 895.576

Bemærk hvorledes sekvenserne bliver strukket ud hver gang aminosyrerne ikke 
lige passer.

Dette giver naturigvis ingen biologisk mening. Hvis gaps er (næsten) gratis
kan ALT align'es og give en høj score.

Q14:
----
Sekvensen i GLB7A_CHITH, som svarer til det 6 positioner lange gap i GLBE_CHITH, er "ALIGNE".

Personal tools