ExPairwiseAlignment-Answers
From teachingmaterials
Svar til parvis alignment øvelsen
Note: There is also an English version: ExPairwiseAlignment-AnswersEng.
Svar til Parvis Alignment øvelsen
----------------------------------
Af: Rasmus Wernersson & Henrik Nielsen
Q1:
---
FASTA format.
Q2:
---
# Length: 361
# Identity: 176/361 (48.8%)
# Similarity: 214/361 (59.3%)
# Gaps: 92/361 (25.5%)
# Score: 860.5
SUBS_BACLE 1 -------------------------------------------------- 0
ELYA_BACHD 1 MRQSLKVMVLSTVALLFMANPAAASEEKKEYLIVVEPEEVSAQSVEESYD 50
SUBS_BACLE 1 ------------------------------------------AQSVPWGI 8
:|:|||||
ELYA_BACHD 51 VDVIHEFEEIPVIHAELTKKELKKLKKDPNVKAIEKNAEVTISQTVPWGI 100
SUBS_BACLE 9 SRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQD 58
|.:....|||||:.|:|.:||||||||::||||.|.|||||:..|||..|
ELYA_BACHD 101 SFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFISSEPSYHD 150
SUBS_BACLE 59 GNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQG 108
.|||||||||||||||||||||||||||:|||||||..:||||::|:|||
ELYA_BACHD 151 NNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSGSLASVAQG 200
SUBS_BACLE 109 LEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAASGNSGAGS 158
:|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|:||:|...
ELYA_BACHD 201 IEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGAAGNTGRQG 250
SUBS_BACLE 159 ISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQSTYPGSTY 208
::|||||:..|||.|.|||..|||||.||..::|.||||||.|||.|:.|
ELYA_BACHD 251 VNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVNSTYTGNRY 300
SUBS_BACLE 209 ASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATSLGSTNLYG 258
.||:|||||||||||.|||||.:.||::|.|||..:..|||.|||.:|||
ELYA_BACHD 301 VSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATYLGSPSLYG 350
SUBS_BACLE 259 SGLVNAEAATR 269
:|||:|..||:
ELYA_BACHD 351 NGLVHAGRATQ 361
Q3:
---
# Length: 269
# Identity: 176/269 (65.4%)
# Similarity: 214/269 (79.6%)
# Gaps: 0/269 ( 0.0%)
# Score: 916.0
SUBS_BACLE 1 AQSVPWGISRVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFV 50
:|:||||||.:....|||||:.|:|.:||||||||::||||.|.|||||:
ELYA_BACHD 93 SQTVPWGISFINTQQAHNRGIFGNGARVAVLDTGIASHPDLRIAGGASFI 142
SUBS_BACLE 51 PGEPSTQDGNGHGTHVAGTIAALNNSIGVLGVAPSAELYAVKVLGASGSG 100
..|||..|.|||||||||||||||||||||||||||:|||||||..:|||
ELYA_BACHD 143 SSEPSYHDNNGHGTHVAGTIAALNNSIGVLGVAPSADLYAVKVLDRNGSG 192
SUBS_BACLE 101 SVSSIAQGLEWAGNNGMHVANLSLGSPSPSATLEQAVNSATSRGVLVVAA 150
|::|:|||:|||.||.||:.|:||||.|.|:|||.|||.|.:.|:|:|.|
ELYA_BACHD 193 SLASVAQGIEWAINNNMHIINMSLGSTSGSSTLELAVNRANNAGILLVGA 242
SUBS_BACLE 151 SGNSGAGSISYPARYANAMAVGATDQNNNRASFSQYGAGLDIVAPGVNVQ 200
:||:|...::|||||:..|||.|.|||..|||||.||..::|.||||||.
ELYA_BACHD 243 AGNTGRQGVNYPARYSGVMAVAAVDQNGQRASFSTYGPEIEISAPGVNVN 292
SUBS_BACLE 201 STYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTATS 250
|||.|:.|.||:|||||||||||.|||||.:.||::|.|||..:..|||.
ELYA_BACHD 293 STYTGNRYVSLSGTSMATPHVAGVAALVKSRYPSYTNNQIRQRINQTATY 342
SUBS_BACLE 251 LGSTNLYGSGLVNAEAATR 269
|||.:|||:|||:|..||:
ELYA_BACHD 343 LGSPSLYGNGLVHAGRATQ 361
Da de to sekvenser er af forskellig længde (se også svaret på næste spørgsmål),
giver det umiddelbart mest mening at bruge Smith-Waterman algoritmen ("local alignment"),
da dette vil give en analyse af forskelle og ligheder for den del af sekvensen
der faktisk er sammenlignelig.
Bemærk dog at man ved at bruge globalt alignment først nemt kan se at
sekvenserne er meget ens - bortset fra at den ene mangler et stykke på
ca. 90 aminosyrer i starten. Så i dette tilfælde har vi lært noget ekstra
om sekvenserne ved at foretage et globalt alignment først.
Når to sekvenser ligner hinanden meget, som tilfældet er her, er der generelt ikke
megen forskel på den information man får ud af at bruge lokalt og globalt alignment.
Q4:
---
1)
P29600 - sekvensen er afledt af 3D struktur.
P41363 - oversat fra DNA + information fra protein-sekventering.
2)
SUBCELLULAR LOCATION: "Secreted protein" (for dem begge).
3)
Svar: P29600 starter direkte med sekvensen af det mature protein. P41363 starter
med et signal-peptid (pos: 1-24), derefter pro-peptid (25-93), og så først
derefter kommer det mature protein. Bemærk at både signal-peptid (funktion:
signal til eksport af proteinet) og pro-peptidet (funktion: hjælper protein med
at folde korrekt eller sørger for at proteinet ikke er aktivt før proteinet findes
der hvor det faktisk skal fungere - specielt vigtigt for proteaser som ikke skal starte med
at nedbryde sig selv men først aktiveres i f.eks maven hvor det skal klippe andre proteiner
i stykket) klippes af inden protein er "modent".
Forskellen er her at P41363 er (primært) oversat fra DNA og derfor indeholder
information fra hele den kodende sekvens, mens P29600 er afledt fra 3D struktur,
som indeholder den mature sekvens. Savinase indeholder faktisk både signal- og
pro-peptid (kan graves frem i databaserne).
Q5:
---
Taler for: Samme type protease (serin-protease, S8 familie). Thermostabilt (!).
Minder meget som Savinase på sekvens-niveau.
Mulige problemer: Højt pH optimum - vil evt. kunne optimeres i laboratoriet.
Q6:
---
# Length: 1255
# Identity: 110/1255 ( 8.8%)
# Similarity: 154/1255 (12.3%)
# Gaps: 992/1255 (79.0%)
# Score: -244.0
Bemærk: negativ score!
(alignment ikke vist)
Q7:
---
# Length: 1290
# Identity: 73/1290 ( 5.7%)
# Similarity: 131/1290 (10.2%)
# Gaps: 1062/1290 (82.3%)
# Score: 158.5
(alignment ikke vist)
Q8:
---
# Length: 296
# Identity: 71/296 (24.0%)
# Similarity: 129/296 (43.6%)
# Gaps: 73/296 (24.7%)
# Score: 173.0
SUBS_BACLE 23 GSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGNGHGTHVAGTIAA 72
||.....:|:..::.:.|.|: .|.| ..|..|||||| :|||
TPP2_HUMAN 234 GSFGTAEMLNYSVNIYDDGNL---LSIV------TSGGAHGTHVA-SIAA 273
SUBS_BACLE 73 LNNSIGVL-------GVAPSAELYAVKV------LGASGSGSVSSIAQGL 109
|.. ||||.|::.::|: ...:|:|.:.::.:.:
TPP2_HUMAN 274 -----GHFPEEPERNGVAPGAQILSIKIGDTRLSTMETGTGLIRAMIEVI 318
SUBS_BACLE 110 EWAGNNGMHVANLSLGSPS---PSATLEQAVNSAT-SRGVLVVAASGNSG 155
|:...:.|.|.|..: .|..:.:.:|.|. ...::.|:::||:|
TPP2_HUMAN 319 ----NHKCDLVNYSYGEATHWPNSGRICEVINEAVWKHNIIYVSSAGNNG 364
SUBS_BACLE 156 --AGSISYP-ARYANAMAVGATDQNN--------------NRASFSQYGA 188
..::..| ...::.:.|||....: |:.::|..|.
TPP2_HUMAN 365 PCLSTVGCPGGTTSSVIGVGAYVSPDMMVAEYSLREKLPANQYTWSSRGP 414
SUBS_BACLE 189 GLDIVAPGVNVQSTYPGSTYAS-----------LNGTSMATPHVAGAAAL 227
..| .|.||::.: ||...|| :|||||::|:..|..||
TPP2_HUMAN 415 SAD-GALGVSISA--PGGAIASVPNWTLRGTQLMNGTSMSSPNACGGIAL 461
SUBS_BACLE 228 V----KQKNPSWSNVQIRNHLKNTATSLGSTNLY--GSGLVNAEAA 267
: |..|..::...:|..|:|||....:..:: |.|::..:.|
TPP2_HUMAN 462 ILSGLKANNIDYTVHSVRRALENTAVKADNIEVFAQGHGIIQVDKA 507
Q9:
---
Det ses tydeligt af det lokale alignment og af det globale alignment UDEN
end gaps, at den prokaryote protease kun matcher et enkelt område midt
i den humane protease. Det kan man derimod ikke se af det globale alignment
MED end gaps, som "smører" den korte sekvens ud over hele den lange.
Bemærk at globalt alignment UDEN end gaps kan betragtes som en slags mellemting
mellem globalt og lokalt alignment.
Til fjernt beslægtede sekvenser vil det være bedst at bruge lokalt alignment,
idet man så faktisk får en analyse af den sammenlignelige del af sekvenserne.
Q10:
----
Jeres svar vil naturligvis variere tilfældigt, men generelt skulle I forvente svar
inden for disse intervaller:
# Length: 100-300
# Identity: 20%-30%
# Similarity: 30%-40%
# Gaps: 25%-40%
# Score: 40-70
Dette er altså data fra de lokale alignments man får af at sammenligne ikke-beslægtede
sekvenser med den givne længde og aminosyresammensætning.
Meningen med at lave Savinase/Shuffled alignments er at få en "nulmodel" der kan
sammenlignes med det rigtige Savinase/Human peptidase alignment. Hvis I havde gennemført
eksperimentet 100 gange i stedet for 3, kunne I have lavet statistik på resultatet
og udregnet konfidensgrænser og derudfra vurdere graden af signifikans ud fra en given
alignment score (meget mere om signifikans når vi kommer til BLAST).
Q11:
----
Når vi sammenligner vores Savinase/Human peptidase alignment (score: 173)
med de "bevidst dårlige" Savinase/Shuffled alignments ser det slet
ikke så tosset ud længere. Scoren er klart højere end det vi fik med de
blandede sekvenser. Bemærk dog at man er nødt til at se på scoren for at
få en klar forskel - de andre mål overlapper eller afviger ikke nær så konsekvent.
Som vi vil se når vi kommer til BLAST handler der her om at holde sin alignment
score op mod en reference af scores fra ikke-relaterede sekvenser.
Q12:
----
BLOSUM90:
# Length: 279
# Identity: 73/279 (26.2%)
# Similarity: 107/279 (38.4%)
# Gaps: 91/279 (32.6%)
# Score: 147.5
BLOSUM30:
# Length: 326
# Identity: 76/326 (23.3%)
# Similarity: 149/326 (45.7%)
# Gaps: 88/326 (27.0%)
# Score: 342.5
Bemærk hvordan en matrix med et lavere BLOSUM-tal giver et længere lokalt alignment
med en lavere % identitet.
Q13:
----
# Length: 1255
# Identity: 192/1255 (15.3%)
# Similarity: 228/1255 (18.2%)
# Gaps: 1011/1255 (80.6%)
# Score: 895.576
Bemærk hvorledes sekvenserne bliver strukket ud hver gang aminosyrerne ikke
lige passer.
Dette giver naturigvis ingen biologisk mening. Hvis gaps er (næsten) gratis
kan ALT align'es og give en høj score.
Q14:
----
Sekvensen i GLB7A_CHITH, som svarer til det 6 positioner lange gap i GLBE_CHITH, er "ALIGNE".
