Opsamlende computerøvelse: Udvikling af malariavaccine

From teachingmaterials

(Redirected from ExMalaria)
Jump to: navigation, search

Øvelse skrevet af: Thomas Salhøj Rask og Henrik Nielsen - med opdateringer af Rasmus Wernersson.


Formålet med denne øvelse er at anvende de ting vi har lært indtil nu på en aktuel problemstilling: At undersøge hvordan en eventuel malaria vaccine kunne se ud, ved at udvælge proteiner eller dele heraf der kunne være egnede som vaccinemål, og som man kunne inkludere i en vaccine. Der vil blive introduceret nye begreber, bl.a. forudsigelse af B-celle epitoper. Vi skal igennem de følgende punkter:

  1. Hvad er malaria?
  2. Bestemmelse af membranproteiner (potentielle vaccinemål)
  3. Analyse af membranprotein domænestruktur
  4. Forudsigelse af B-celle epitoper i et membranprotein
  5. Modellering/visualisering af forudsagte epitoper i membranprotein-domæne

Contents

Hvad er malaria?

Hvilken organisme forårsager malaria? Bakterie, protozo (enkeltcellet eukaryot), orm eller virus? Find organismen i en af de to taxonomi-databaser vi kender.

1a) Find følgende taxonomiske klassifikationer for organismen der forårsager malaria:

  • Genus
  • Phylum
  • (Super)Kingdom

1b) Hvor tæt ligger organismen evolutionært på følgende organismer: (Nævn højeste fælles taxonomiske gruppe. Tip: Som et alternativ til manuelt at sammenligne organismernes taxonomistrenge kan man også bruge NCBI Taxonomy Common Tree funktionen)

  • Homo sapiens
  • Babesia microti    (Overføres i sjældne tilfælde ved flåt-bid. Forårsager sygdommen babesiose, hvor de røde blodceller (erythrocytter) invaderes ligesom i malaria hvilket fører til anæmi (blodmangel). Se evt. billeder af inficerede erythrocytter på ”Tree of life” siden.)

Læs nærmere om malaria her: WHO og se nærmere på den komplicerede livscyklus her: DPD .

1c) Nævn de fire forskellige arter der forårsager human malaria. Brug NCBI taxonomi databasen til at finde ud af om man har sekventeret hele genomer fra nogle af disse 4 arter — nævn i så fald hvilke.

1d) Er malaria forårsaget af en enkeltcellet eller en flercellet organisme?

 

Bestemmelse af membranproteiner (potentielle vaccinemål)

Malaria forårsaget af Plasmodium falciparum (Pf) er langt den mest dødbringende form for malaria. Denne art er ansvarlig for 80-90% af de ~1 million dødsfald malaria forårsager hvert år. Vi vil derfor starte med at lave en vaccine mod denne type malaria.

Da man første gang skulle sekventere Pf genomet engang i 90erne, valgte man at bruge malariaceller isoleret fra blodet fra en hollandsk malariapatient der lige var hjemvendt fra en rejse, uheldigvis glemte man at notere sig hvor patienten havde været henne. Dette isolat kaldes 3D7 og er, på trods af at man ikke ved hvor i verden den oprindeligt kommer fra, den malariastamme vi ved mest om.

Find Pf 3D7 frem med NCBIs taxonomi browser. Nederst på siden ses bl.a. information om Pf genomet. I den mangefarvede tabel til højre i vinduet findes bl.a. et punkt der hedder “Gene”. Entrez Gene databasen indeholder både kuraterede (manuelt verificerede) gener, samt hypotetiske gener forudsagt med bioinformatisk software der er trænet til at finde gener. Entrez Gene giver som default søgeresultat alle gener — inkl. gener som man ikke længere mener er gener (såkaldte discontinued gene records). Hvis man vil nøjes med at se gener man for tiden tror på, skal man klikke på Current Only under Status til venstre i skærmbilledet.

2a) Hvor mange kromosomer har Pf? Hvor mange verificerede gener (dvs. IKKE hypotetiske og Current Only) har Pf 3D7? (Tip: Følg Gene linket og tilføj NOT hypothetical i søgefeltet.)

Der er forskellige stadier af malaria inde i menneske-værten, hvilket har betydning for hvordan en vaccine skal designes. Man kan dele sygdomsforløbet op i 2 faser: lever-stadiet og blod-stadiet. Lever-stadiet består af sporozoitter, injiceret af malariamyggen, som invaderer hepatocytter (leverceller). Blod-stadiet starter efter lever-stadiet og består af merozoitter, udviklet i de inficerede leverceller, som bliver spredt i blodbanen og invaderer erythrocytter. Mange grupper rundt om i verden prøver i øjeblikket at fremstille en malaria vaccine, og de fire mål man hovedsageligt går efter er netop proteiner på overfladen af sporozoitter, merozoitter, erythrocytter og proteiner i og på de inficerede hepatocytter.

UniProt-søgning

Vi skal nu prøve om vi kan bruge annoteringerne i UniProt til at finde potentielle vaccinemål. Når man skal lave en vaccine, er det nødvendigt at have et vaccinemål, som rent faktisk er tilgængeligt for immunsystemets celler. Vores opgave er at finde frem til en liste af proteiner der befinder sig på overfladen af enten sporozoitter, merozoitter eller værtsceller, dvs. inficerede erythrocytter og hepatocytter. I sidste tilfælde leder vi altså efter proteiner der:

  1. secerneres (udskilles) fra parasitcellen til den vakuole det befinder sig i inde i værtscellen,
  2. optages fra vakuolen til værtscellen,
  3. transporteres til overfladen (membranen) af erythrocytten eller hepatocytten.

I første omgang skal vi bare tælle hvor mange hits vi får ved at søge efter disse oplysninger (eller dele af dem) i diverse UniProtKB felter. Til dette vil vi bruge samme søge-interface som i UniProt-øvelsen. Det vil måske være en god ide at åbne et browservindue med øvelsesvejledningen fra dengang, for i dag vil proceduren ikke blive beskrevet i nær så mange detaljer!

Bemærk: Ved besvarelse af nedenstående spørgsmål skal I skrive den søgestreng I bruger i UniProt - det er ikke nok bare at skrive antallet. Når søgestrengen er med i besvarelsen, kan vi se hvad der er grunden til evt. forkerte svar, ellers har vi ingen mulighed for det.


2b) Gå til UniProt. Undersøg hvor mange Plasmodium falciparum proteiner der i alt er i UniProtKB (altså proteiner fra alle Plasmodium falciparum stammer, ikke bare dem fra 3D7). Hvor mange af disse er fra Swiss-Prot og hvor mange fra TrEMBL?

2c) Prøv nu at undersøge hvor mange af proteinerne fra sidste spørgsmål der kommer fra stammen (isolatet) 3D7. Ligner antallet det resultat, I fik i 2a)? Hvor mange af disse er fra Swiss-Prot og hvor mange fra TrEMBL?

Vi skal nu se om vi kan bruge oplysninger om subcellulær lokalisering under General annotation (comments) i UniProt. Vi går tilbage til at beskæftige os med alle stammer af Plasmodium falciparum, ikke bare 3D7.

2d) Undersøg først hvor mange Pf proteiner der overhovedet har kommentartypen (General annotation [CC]) "subcellular location". Hvor mange fra hver del af databasen? (Bemærk: selv om der er mange flere TrEMBL end Swiss-Prot proteiner i alt, er der nu flere hits fra Swiss-Prot end fra TrEMBL — Swiss-Prot entries indeholder simpelthen i gennemsnit mange flere annoteringer end TrEMBL entries).

2e) Hvor mange af disse er secernerede ("secreted")? (Tip: det skal stå i feltet Term, når Topic samtidig er "subcellular location"). Det var sandelig ikke mange!

Vi må altså lede efter andre nøgleord i "subcellular location". Det kunne jo tænkes at "subcellular location" var angivet som "surface" eller "membrane".

2f) Hvor mange er der af hver af disse?

Der er flest med "membrane", så dem skal vi undersøge nærmere. Langt fra alle disse proteiner er er egnede som vaccinationsmål. For at være interessante, skal de sidde i cellemembranen (plasmamembranen) af enten parasitten eller værtscellen, ikke i en indre membran i cellen. For at undersøge, hvor ofte det er tilfældet, skal I prøve endnu en funktion i UniProt's interface: klik på Customize (ved siden af "Results") og tilføj subcellular location til de viste felter (Columns). Sæt samtidig Rows til den størst mulige værdi, så I får alle resultaterne på én gang. Klik på Save og kig nu på resultaterne af søgningen, hvor "subcellular location" indeholdt "membrane".

2g) Se på feltet "Subcellular Locations". Giv nogle eksempler på hits, der måske er brugbare, og hits, der i hvert fald ikke er (mindst to af hver). Hvor mange af dem indeholder udtrykket "cell membrane"?

Vi vil nu koncentrere os om det livsstadium af parasitten, hvor den befinder sig inde i en erythrocyt (et rødt blodlegeme) og dermed om de vaccinationsmål, der findes i værtscellens plasmamembran. Der skulle altså gerne stå noget i retning af "erythrocyte membrane" eller "erythrocytic membrane". Som I nok bemærkede, var der ikke nogen hits fra sidste spørgsmål, der havde lige præcis den betegnelse i "Subcellular Locations".

Vi prøver derfor noget helt andet: hvis det vi leder efter nu slet ikke forekommer i kommentarerne, kunne det jo være det var en del af selve beskrivelsen (proteinnavnet). (Tip: Her får I brug for wildcards ("*"): udtrykket "erythrocyt*" matcher både "erythrocyte" og "erythrocytic"!).

2h) Hvor mange Pf proteiner har "erythrocyt*" i Protein Name [DE] feltet? Hvor mange af disse er fra Swiss-Prot (reviewed)?

2i) Hvor mange af erythrocyt-proteinerne har også "membrane" i navnet?

Som I kan se af resultatsiden, er temmelig mange af de hits I fandt meget korte. Det kunne være fordi der er tale om fragmenter.

2j) Hvor mange komplette sekvenser er der? (Tip: se eventuelt spørgsmål 16 i den gamle UniProt øvelse).

2k) Er der nogen af disse proteiner, der har fået bestemt deres 3D-struktur? Med andre ord: Er der nogen proteiner fra den foregående søgning, der har en krydsreference til databasen PDB? (Tip: I skal have fat i feltet Cross-reference). Hvor mange finder I (det skulle gerne være tre)? Hvad hedder de (hvad er deres accession-koder)?

Som afslutning på denne del af øvelsen skal I gemme alle sekvenser fra den sidste søgning i FASTA format. Det kan gøres lettest ved at klikke på det orange Download felt længst til højre (oven for søgeresultaterne) og vælge FASTA format. I kan enten vælge at downloade dem og så åbne dem i en teksteditor eller åbne dem direkte i browseren. Hvis I vælger sidste mulighed, så lad browservinduet stå åbent — vi skal bruge to af sekvenserne senere i øvelsen.

 

Analyse af membranprotein domænestruktur

PfEMP1 (Plasmodium falciparum Erythrocyte Membrane Protein 1) proteinerne som vi nu har fundet frem til er en gruppe af proteiner som malaria parasitten udtrykker og transporterer til ydermembranen af den invaderede erythrocyt (se figur 1 – de rød-orange pinde er PfEMP1 proteiner).

Funktionen af PfEMP1 proteinerne på overfladen af de inficerede erythrocytter er at mediere binding til receptorer på endothelceller (de celler som danner væggene i blodårer). På denne måde kan malaria parasitten få de inficerede erythrocytter til at hænge fast på væggen af blodårene rundt omkring i kroppen, og dermed kan den undgå at blive transporteret igennem milten, som fjerner syge erythrocytter fra blodet og er en af hovedaktørerne i at generere et immunrespons mod malaria.

Hvis vi med en vaccine kan generere antistoffer der binder til PfEMP1 proteinerne, så de inficerede erythrocytter ikke kan binde til endothelcellerne, vil kroppen hurtigere kunne danne et bredere immunrespons mod Pf. Symptomer så som anæmi vil dermed ikke nå at blive så seriøse.

Vi skal nu undersøge hvordan PfEMP1 proteinerne er opbygget.

Kig nu nærmere (i UniProt) på de to af de entries I fandt i slutningen af afsnit 2 (ignorer det, der er beskrevet som "putative"). Scroll ned til punktet Family and domain databases under Cross-references. Her finder I tre services, der giver mulighed for at søge efter kendte domænetyper i det valgte protein. InterPro er for så vidt den vigtigste, fordi den samler en lang række domænedatabaser (inklusive Pfam) og har derfor det bredeste repertoire af domænetyper. Pfam selv har dog et mere brugervenligt interface, så den vil vi bruge i dag. Følg Pfam linket graphical view.

3a) Hvilken kendt domænetype findes i flere kopier i vores to erythrocytmembran-proteiner? (Tip: PfamA består af kendte verificerede domæner og PfamB af automatisk genererede domæner.) Hvor mange gange forekommer den i hvert af proteinerne?

Klik på et af domænerne i den side I er på nu, eller klik på PFAM-accession-koden i UniProt-entry'et. I kommer nu til PFAMs entry om det pågældende domæne. Til højre ses en 3D struktur af et domæne af samme type, men fra et andet protein. Læs hvad der står om domænet. Bemærk at domænet er medlem af en klan af domæner som kaldes Duffy binding-like domæner, hvilket forkortes til DBL domæner, og de findes i forskellige antal i alle PfEMP1 proteinerne.

3b) Hvor i sekvenserne finder man et transmembrandomæne? Kan I gætte hvilken del af proteinerne, der er intracellulære?

Se også på de PDB krydsreferencer der er under 3D structure databases i UniProt. Sammenlign koordinaterne for strukturerne med koordinaterne for de domæner der er angivet i PFAM.

3c) Hvilke positioner er strukturbestemt i hvert af de to proteiner? Hvilket nummer domæne svarer det til?

Læs nu hvad der står om proteinernes funktion og lokalisering under Gene Ontology (GO) i UniProt, specielt angående det protein, der stammer fra isolate 3D7.

3d) Underbygger disse informationer vores valg af vaccinemål? Begrund svaret med mindst 3 eksempler.

 

Forudsigelse af B-celle epitoper i et membranprotein

Q8I639 kaldes også VAR2CSA, og proteinet er specielt fordi det menes at være ansvarlig for det man kalder graviditets-associeret malaria (Pregnancy associated malaria eller PAM). Gravide kvinder er specielt modtagelige overfor malaria, og af denne grund dør der hvert år 10.000 mødre og 200.000 nyfødte/fostre. En af grundene til at der ikke er blevet udviklet en succesfuld malaria vaccine endnu, er at hver malaria parasit har 60 PfEMP1 proteiner, og man skal have antistoffer mod mange af dem for at være immun. Det interessante ved PAM er at her er der kun ét ansvarligt PfEMP1, og derfor er en PAM vaccine lettere at gå til.

For at have bedst mulighed for at analysere vores resultater, bruger vi det DBL domæne i VAR2CSA der har en 3D-struktur (det vi fandt i spørgsmål 3c).

Når man laver en vaccine er det essentielt at den indeholder nogle epitoper. Epitoper er de dele af sygdomsproteinerne som immunforsvaret genkender, f.eks de dele af malariaproteinet som antistofferne binder til (disse kaldes mere specifikt B-celle epitoper. Der findes også T-celle epitoper, og dem kan du høre meget mere om hvis du tager kurset 27685 - Immunological Bioinformatics).

Vi har på CBS lavet en B-celle epitop forudsiger kaldet BepiPred, og vi vil nu prøve at finde ud af om det domæne vi vil vaccinere med/imod indeholder nogle brugbare epitoper.

BepiPred findes her: http://www.cbs.dtu.dk/services/bepipred/

Til forudsigelsen skal vi bruge aminosyresekvensen for VAR2CSA DBL domænet. Følg linket til BepiPred, indsæt FASTA-sekvensen for Q8I639 og sæt grænseværdien til 0.9, hvilket indikerer en lav sensitivitet og høj specificitet (vi vil kun have de mest lovende epitoper). Tryk “submit”. Vi skal bruge epitoperne i næste del af øvelsen, så hold vinduet åbent, eller noter for det valgte DBL domæne de positioner hvor BepiPred forudsiger potentielle B-celle epitoper (de positioner hvor der står E i kolonnen yderst til højre) der er mindst 5 aminosyrer lange.

4a) Hvor mange epitoper (>=5 aminosyrer) forudsiger BepiPred i VAR2CSA inden for det strukturbestemte DBL domæne? Hvilke positioner omfatter de?

 

Visualisering af forudsagte epitoper i membranprotein-domæne

Vi vil nu gerne finde ud af om de epitoper vi har fundet ligger på overfladen af det domæne vi har valgt. At epitoperne er overfladeeksponerede på det enkelte domæne er dog ikke ensbetydende med at de er tilgængelige for antistoffer på det native PfEMP1, men vi kan i hvert fald lave en grovsortering af de epitoper vi har fundet.

Som I fandt ud af i sektion 2 af øvelsen, findes der PDB-strukturer for de to proteiner I har arbejdet med. Kig i UniProt-entryet for VAR2CSA (Q8I639) og besvar følgende spørgsmål:

5a) Hvad hedder det relevante PDB entry? Er det en krystalstruktur eller en NMR-struktur?

En ting man bør vide om krystalstrukturer er, at det ikke altid er alle atomer i det krystalliserede molekyle, der er synlige i strukturen. Dette kan forekomme, hvis der har været stor variation i 3D-positionerne af nogle atomer - med andre ord, at der har været stor uorden (disorder) i dele af proteinet. Det kan sagtens ske, at adskillige aminosyrer i et protein er så uordnede, at de ikke kan ses i strukturen. Vi skal nu finde ud af, om det er tilfældet i vores PDB entry.

I UniProt-entryet, vælg "RCSB PDB" i menuen under 3D structure databases og åbn PDB linket. I kommer nu til et PDB entry, der gerne skulle ligne noget I har set i sidste uge.

Vælg nu fanen Sequence i toppen af PDB entry'et, og klik derefter på show all chains, og sæt menuen til Show all (2) chains per page. Nu kan I se en oversigt over de to (identiske) kæder som krystallen består af. Sekundærstruktur er vist med grafik over sekvenserne. De synlige aminosyrer er understreget.

5b) Hvilke aminosyrer (dvs. hvilke positionsintervaller) i hver af de to kæder er usynlige (ikke understregede)? Påvirker det nogle af de epitoper, vi fandt i sidste afsnit? I så fald hvilke? Er der nogle epitoper, der bliver helt usynlige?

Åbn nu PyMol som vi brugte i forrige øvelse og hent ovenstående struktur med kommandoen:

fetch entry-navn

Default visningsmåden kan være lidt uoverskuelig, så farv molekylet en neutral gråhvid farve og skift til ”cartoon” visning, ved at skrive følgende kommandoer i kommandolinien (man kan copy-paste alle tre kommandoer på en gang. Man er også velkommen til at udføre disse ting manuelt v.h.a. brugerinterfacet i Viewer vinduet.):

color gray80
hide all
show cartoon

Vi skal nu have farvet epitoperne. Man kan farve en aminosyre på position 1 eller aminosyre intervallet 1-3 med kommandoerne:

color blue, resi 1
color blue, resi 1-3
color blue, resi 1+2+3

eller man kan lave et selection og farve det bagefter:

select epitop1, resi 1-3
color blue, epitop1

Sidstnævnte metode har den fordel at man bagefter kan manipulere med epitop1 via det grafiske interface uden at skulle indtaste dens interval igen.

Bemærk: Koordinaterne i strukturen er de samme som i det komplette protein, så I behøver ikke at tilpasse BepiPred positionerne til strukturpositionerne.

Farv nu hver af de forudsagte epitoper i forskellige farver så man kan adskille dem visuelt. Man kan få en idé om hvilke farver der er tilgængelige ude til højre i Viewer vinduet, ved at trykke på den farvede ”C”-knap. Bemærk: Man kan få vist aminosyre sekvensen ved at trykke på knappen med det lyserøde ”S” nederst til højre i Viewer vinduet.

Bemærk at den struktur I nu har fået frem er en dimer. Der er simpelthen to ens kæder i den enkelte celle i krystallen. Biologisk set er den derimod ikke en dimer, men en del af PfEMP1 proteinet, så vi vil gerne se den ene af kæderne alene:

create ka, chain A

Dette skaber et objekt kaldet "ka", som kun indeholder kæde A. Lav tilsvarende et objekt kaldet "kb", som indeholder kæde B. Nu kan I ved hjælp af det grafiske interface gemme det originale molekyle (klik blot på "2wau" så den bliver deaktiveret), og så kan I skiftevis klikke på "ka" eller "kb" for at vise den ene af kæderne.

Man kan få PyMol til at beregne overfladen af proteinet (eller af den aktive kæde) med kommandoen:

show surface

5c) Hvilken epitop er mest skjult og dermed mest tvivlsom som vaccinemål? Aflever et billede hvor man ser denne epitop! Hvis I afleverer i Word, så indsæt et screenshot af PyMol-vinduet. Hvis I afleverer i plain text (jEdit eller tilsvarende), så gem det aktuelle billede som en PNG fil (menu: File → Save Image As) og aflever den sammen med tekstfilen.



Så mangler vi bare at klone VAR2CSA DBL domænet ind i en ekspressionsvektor, udtrykke det rekombinant og blande det sammen med lidt adjuvant… så har vi vores vaccine mod graviditets associeret malaria! (med en smule held måske… ;o)

Personal tools