ExBlast-Answers

From teachingmaterials

Jump to: navigation, search

Contents

Svar til BLAST øvelsen

Svar af Rasmus Wernersson, marts 2010. Opdateret af Henrik Nielsen, marts 2012, samt af Andreas Porse, marts 2013.


QUESTION 1

Q1: Report the three sequences in FASTA format (give them short UNIQUE names, e.g. "seq1", "seq2", "seq3").
:

>seq_01
CGCCCGACCGTGTAGGAGGTCCGGT 
>seq_02
TTCCAAGTAGGTTATGTTAAAGCCG 
>seq_03
CGGTTAATTCGCTGTCTATATAAGG

(of course your particular sequences will not be identical to these)

QUESTION 2

Q2a: How big (in basepairs) is the database we used for the BLAST search?:

44,780,205,193 letters, dvs 44,7 milliarder basepar.


Q2b:

  • Do you find any sequences that look like your input sequences (paste in a few example alignments in your report).

Svar: Der er flere 100% homologi hits, fx:

 GENE ID: 5438907 BC1G_02961 | hypothetical protein
[Botryotinia fuckeliana B05.10]

 Score = 33.7 bits (36),  Expect = 6.3
 Identities = 18/18 (100%), Gaps = 0/18 (0%)
 Strand=Plus/Minus

Query  1    CGCCCGACCGTGTAGGAG  18
            ||||||||||||||||||
Sbjct  574  CGCCCGACCGTGTAGGAG  557
  • What is the typical length of the hits (the alignment length)?:

Svar: Typisk en 17-19 baser.

  • What is the typical % identity?:

Svar: 90% - 100%

  • In what range is the bit-scores ("max score)?:

Svar: typisk på 31 - 35 bits.

  • What is the range of the E-values?:

Svar: 1.8 - 22 (for denne søgning, ofte kan enkelt-hits ligge helt "oppe" på 0.1 - 1). BEMÆRK: vi valgte at bruge en E-value tærskel på 50.0. Som default ligger den på 10.0 - i mit tilfælde ville der alligevel være en del hits som kunne ses. Se fx summary for seq_01:

Sequences producing significant alignments:                       (Bits)  Value

ref|XM_001558247.1|  Botryotinia fuckeliana B05.10 hypothetica...  33.7    6.3  
gb|AF440781.1|  Streptomyces cinnamonensis polyether antibioti...  33.7    6.3  
emb|AL365194.15|  Human DNA sequence from clone RP4-549F15 on ...  33.7    6.3  
gb|CP001349.1|  Methylobacterium nodulans ORS 2060, complete g...  31.9       22
gb|CP000854.1|  Mycobacterium marinum M, complete genome           31.9       22
gb|DQ665955.1|  Australoplana sp. MR-2006 28S ribosomal RNA ge...  31.9       22
gb|CP000325.1|  Mycobacterium ulcerans Agy99, complete genome      31.9       22
gb|CP000473.1|  Solibacter usitatus Ellin6076, complete genome     31.9       22
gb|CP000248.1|  Novosphingobium aromaticivorans DSM 12444, com...  31.9       22

QUESTION 3

  • What is the biological significance of the hits you found / is there any biological meaning?:

Svar: Dette giver præcis INGEN biologisk mening(!) - hits'ene er rigtige nok, det er faktisk sekvens der findes i databasen. Men vi ved jo at vores sekvenser er helt tilfældige, og derfor ikke har noget slægtskab med dem i databasen. Vi har kun fundet vores hits, fordi databasen er så enormt stor, at vi af rent stokastiske årsager rammer nogle sekvenser der ligner.

E-værdierne fortæller netop dette: Som jeg gennemgik i forelæsningen, vil alignment score ("bit score" i BLAST) følge en ekstremværdi-fordeling for de sekvenser der ikke har noget med vores input-sekvenser at gøre (fordelt omkring en lav bit-score), og de hits der faktisk er relateret fordeler sig omkring en væsentlig højere bit-score.

NB: I skal ikke blive forvirrede over forskellen mellem alignment-score og bit-score; bit-score er blot alignment-score normaliseret med en konstant faktor som giver et resultat der kan udtrykkes i bits.

Ud fra ekstremværdi-fordelingen (som beregnes når BLAST databasen oprettes), er det muligt at estimere hvor mange tilfældige, ikke-relaterede hits, man må forvente ved en given bit-score. Dette udtrykkes som en e-værdi (EXPECT-value) som fortæller, hvor mange ikke-relaterede hits man kan forvente at finde ved en given bit-score (eller højere). Hvis vi fx kigger på vores ovenstående hit med en bit-score på 33.7, giver dette en e-value på 6.3 (i denne database, af 40,3*10^9 baser). Man må altså kunne forvente statistisk set at finde 6.3 hits med en score på 33.7 bits eller højere i denne database - af tilfældige årsager!

QUESTION 4

  • 8,989,978,420 basepar (8,9 milliarder).
  • Bit-scores: 30 - 35
  • 64%-100% homologi
  • Længder: 17-25; flere med gaps.
  • E-values: 0.35 -15

Eksempel:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|NT_005403.17|  Homo sapiens chromosome 2 genomic contig, G...  35.6    0.35 
ref|NW_001838863.1|  Homo sapiens chromosome 2 genomic contig,...  35.6    0.35 
ref|NT_022135.16|  Homo sapiens chromosome 2 genomic contig, G...  33.7    1.2  
ref|NW_001838859.2|  Homo sapiens chromosome 2 genomic contig,...  33.7    1.2  
ref|NT_026437.12|  Homo sapiens chromosome 14 genomic contig, ...  31.9    4.3  
ref|NT_008413.18|  Homo sapiens chromosome 9 genomic contig, G...  31.9    4.3  
ref|NT_008046.16|  Homo sapiens chromosome 8 genomic contig, G...  31.9    4.3  
ref|NW_001838113.2|  Homo sapiens chromosome 14 genomic contig...  31.9    4.3  
ref|NW_001839149.2|  Homo sapiens chromosome 9 genomic contig,...  31.9    4.3  
ref|NW_001839136.1|  Homo sapiens chromosome 8 genomic contig,...  31.9    4.3  
ref|NM_019024.1|  Homo sapiens HEAT repeat containing 5B (HEAT...  30.1       15
ref|NT_025028.14|  Homo sapiens chromosome 18 genomic contig, ...  30.1       15
ref|NT_010859.14|  Homo sapiens chromosome 18 genomic contig, ...  30.1       15
ref|NT_009952.14|  Homo sapiens chromosome 13 genomic contig, ...  30.1       15
ref|NT_008818.16|  Homo sapiens chromosome 10 genomic contig, ...  30.1       15
ref|NT_007933.15|  Homo sapiens chromosome 7 genomic contig, G...  30.1       15
ref|NT_006576.16|  Homo sapiens chromosome 5 genomic contig, G...  30.1       15
ref|NT_006316.16|  Homo sapiens chromosome 4 genomic contig, G...  30.1       15
ref|NT_022517.18|  Homo sapiens chromosome 3 genomic contig, G...  30.1       15
ref|NT_022184.15|  Homo sapiens chromosome 2 genomic contig, G...  30.1       15
ref|NT_167186.1|  Homo sapiens chromosome 1 genomic contig, GR...  30.1       15
ref|NW_001838469.1|  Homo sapiens chromosome 18 genomic contig...  30.1       15
ref|NW_001838464.1|  Homo sapiens chromosome 18 genomic contig...  30.1       15
ref|NW_001838084.2|  Homo sapiens chromosome 13 genomic contig...  30.1       15
ref|NW_001838011.1|  Homo sapiens chromosome 10 genomic contig...  30.1       15
ref|NW_001839071.2|  Homo sapiens chromosome 7 genomic contig,...  30.1       15
ref|NW_001838929.1|  Homo sapiens chromosome 5 genomic contig,...  30.1       15
ref|NW_001838877.2|  Homo sapiens chromosome 3 genomic contig,...  30.1       15
ref|NW_001838769.1|  Homo sapiens chromosome 2 genomic contig,...  30.1       15
ref|NW_001838537.2|  Homo sapiens chromosome 1 genomic contig,...  30.1       15


Eksempel:

 Features in this part of subject sequence:
   calmodulin-binding transcription activator 1


 Score = 33.7 bits (36),  Expect = 1.2
 Identities = 23/25 (92%), Gaps = 2/25 (8%)
 Strand=Plus/Minus

Query  1        CGCCCGACCGTGTAGGAGGTCCGGT  25
                ||||||||||||||||||  |||||
Sbjct  3502635  CGCCCGACCGTGTAGGAG--CCGGT  3502613

QUESTION 5

Using the pre-calculated examples for this question.

Has the alignment score ("max-score") changed? Would you expect it to? :

  • No: The alignment score is identical for both alignments: 33.7 bits (36).
    • Since the alignment score is calculated solely from the pairwise alignment, given the scoring matrix and gap penalties, it will never chnage between BLAST databases (for identical alignments).

Has the E-value changed? Why/Why not?:

  • Yes: The E-value is lower for the human-only database (Expect = 1.2) compared to the large NR database (Expect = 6.3).
    • Conceptually this is easy to understand - getting an alignment with the given score (33.7 bits) is more SIGNIFICANT in the smaller database. In larger database there is a larger chance of randomly picking up matches.

What is the relationship between database size and E-value for hits with identical alignment score?

  • The change in E-value i directly related to the change in database size:
    • Relative difference in size of databases: 30,408,770,429 / 5,860,289,005 = 5.19
    • Relative difference in E-value 6.3 / 1.2 = 5.25 (notice: E-values are rounded to 1 decimal in the BLAST output).
    • Both database size and E-values differ by a factor of 5.2 in this example.
  • In conclusion: Each time the database size doubles, the E-value doubles as well.

QUESTION 6

Q6: Report the sequences in FASTA format (once again use short UNIQUE names):

>seq_01
aymgsplsflshdhncirdakyvvs
>seq_02
danshrsqwnrlgmanwfqhwsewv
>seq_03
vsltdgpdkhesqhirqdkyfddia

QUESTION 7

Q7a:

How big is the database this time?
:

Number of letters 8,171,867,726 Number of sequences 23,781,854

Svar: 8.17 milliarder bogstaver (aminosyrer).

What is the typical length of the alignment and do they contain gaps?:

Svar: Typisk 17-21. Sjældent gaps, men med en del mismatches.

What is the range of E-values?:

Svar: 200 - >900 - se fx oversigtstabellen for Query Sequence 1:

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|YP_902917.1|  malto-oligosyltrehalose synthase [Pelobacter...  27.7      381
gb|ACF09744.1|  tRNA methylase Trm12p [uncultured marine group...  27.7      439
ref|XP_002632423.1|  C. briggsae CBR-SNF-9 protein [Caenorhabd...  26.9      730

Try to inspect a few of the alignments in details ("+" means similar) - do you find any that look plausible, if we for a moment ignore the length/e-value - (you can qoute a few in your report)?


Svar: Ja se fx. følgende alignment - det ser da overbevisende ud (men det er alt, alt for kort til at være signifikant, og E-værdien er alt, alt for høj):

 Score = 27.7 bits (60),  Expect =   381, Method: Composition-based stats.
 Identities = 10/17 (58%), Positives = 12/17 (70%), Gaps = 0/17 (0%)

Query  1   AYMGSPLSFLSHDHNCI  17
           AY GSP  +  HDHNC+
Sbjct  49  AYPGSPHGYDIHDHNCL  65

If we had used the default E-value cutoff of 10 would any hits have been found?:

Svar: NEJ. Hvis vi også havde kørt søgningerne mod DNA databasen med en e-value cut-off på 1000, ville vi har set sidevis af hits for hver sekvens

Q7b:

If we compare the result from BLAST'ing random DNA sequences to random Peptide sequences - what kind if search has the higher risk of returning false positives (results that appear plausible, maybe even significant, but are truly unrelated)?:

Svar: Risikoen for at samle et "falsk" hit op, er større med DNA - bemærk at vi var nødt til at "snyde" temmeligt meget med cut-off for i det hele taget at se nogle hits mod proteinsekvenserne.

Kommentar ang. word-size og proteinsekvenser: (Vi gennemgik også dette i forelæsningen): BLASTP fungerer noget anderledes end BLASTN mht. at finde et sted i sekvenserne med høj-similaritet: i stedet for at kræve et længere stykke der er 100% det samme (det vil ikke give mening for protein-sekvens), prøver algoritmen at finde to sekvens-stumper (af længde "word-size", default =3) med høj similaritet inden for en kort afstand (default: 40 aa). Så snart et sådant sekvenspar er fundet, fylder BLAST ind med almindeligt lokalt alignment.

QUESTION 8

Do we get any significant hits?

Svar: ja, der er 7 hits med en e-value på "0.0" (dvs så lille at den bliver afrundet til nul) - og de næste er også yderst signifikante. Det første hit (S48754) har desuden en coverage på 100% og en identity på 100%.

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|S48754.1|  221 protease=alkaline serine protease [Bacillus ...  2547    0.0   
dbj|D13157.1|BACAK221  Bacillus sp. alkaline protease gene         2538    0.0   
gb|M65086.1|BACALKPR  B.alcalophilus alkaline protease gene, c...  2241    0.0   
gb|FJ940727.1|  Bacillus alcalophilus strain TCCC11004 alkalin...  2091    0.0   
dbj|AP006627.1|  Bacillus clausii KSM-K16 DNA, complete genome     2080    0.0   
gb|M28537.1|BACYAB  Bacillus subtilis (YaB) alkaline elastase ...   677    0.0   
dbj|AB005792.1|  Bacillus sp. DNA for AprN, complete cds            646    0.0   
dbj|D29688.1|BACAPRS  Bacillus sp. G-825-6 aprS gene for subti...   477    8e-131
gb|EU391617.1|  Expression vector pCL311, complete sequence         403    1e-108
gb|EU130686.1|  Bacillus alcalophilus strain PB92 alkaline pro...   255    5e-64 
dbj|D29736.1|BACAPRQ  Bacillus sp. aprQ gene for subtilisin AL...   123    2e-24 
gb|CP001878.1|  Bacillus pseudofirmus OF4, complete genome          120    3e-23 
dbj|BA000004.3|  Bacillus halodurans C-125 DNA, complete genome     118    9e-23 
dbj|D26542.1|BACAPRM  Bacillus sp. gene for serine protease Ap...   118    9e-23 
gb|DQ868543.1|  Bacillus clausii strain XJU-5 thermostable alk...   114    1e-21 
dbj|D13158.2|BACTAP  Bacillus halodurans gene for prepro-therm...   113    4e-21 
gb|AY953434.1|  Bacillus subtilis clone pGXAA2011 subtilisin A...   111    1e-20 

What kind of genes (function) do we find?:

Svar: De er alle basiske ("alkaline") serin-protease fra Bacillus -> vores DNA stammer faktisk fra det første entry ("S48754").

How is the distribution of E-values - a broad spectrum from good to bad, or a sharp division into good/bad scores?:

Svar: Der er en række (næsten) perfekte hits (bit-score: 2100-2700), et par stykker der er signifikante men korte (bit-score: 75-100, e-value: 1e-10 til 1e-18) og en hel masse junk, der består af korte fragmenter med en dårlig e-value. Altså, en rimelig brat overgang fra de gode hits til de virkeligt dårlige.

Som gennemgået i forelæsningen, er DNA alignment-matricen optimeret til at finde hits der matcher godt - bemærk at mismatches straffes hårdt (Bemærk at NCBI også har en 2/-3 matrice - men effekten er basalt set den samme):

    a   c   g   t 
a   1
c  -3   1 
g  -3  -3   1 
t  -3  -3  -3   1

QUESTION 9

BEMÆRK: HUSK at bruger ORF finderen! Eftersom vi ved at det er et fuld-længde transcript, kan vi godt regne med at både START og STOP codon er med. Vi kan derfor vælge "START-codon = strict".

Note: man kan oversætte med både den standard-genetiske kode (tabel 1) eller alternativt med tabel 11 ("The Bacterial and Plant Plastid Code"). Den eneste forskel er at tabel 11 tillader nogle ekstra yderst sjældne START codons, bla. fra bacterielle phager.

Report your translated protein sequence in FASTA format.:

>Unknown_transcript01_rframe2_ORF
MKKPLGKIVASTALLISVAFSSSIASAAEEAKEKYLIGFNEQEAVSEFVEQVEANDEVAI
LSEEEEVEIELLHEFETIPVLSVELSPEDVDALELDPAISYIEEDAEVTTMAQSVPWGIS
RVQAPAAHNRGLTGSGVKVAVLDTGISTHPDLNIRGGASFVPGEPSTQDGNGHGTHVAGT
IAALNNSIGVLGVAPSAELYAVKVLGASGSGSVSSIAQGLEWAGNNGMHVANLSLGSPSP
SATLEQAVNSATSRGVLVVAASGNSGAGSISYPARYANAMAVGATDQNNNRASFSQYGAG
LDIVAPGVNVQSTYPGSTYASLNGTSMATPHVAGAAALVKQKNPSWSNVQIRNHLKNTAT
SLGSTNLYGSGLVNAEAATR

Do we find any conserved protein-domains? (Indicated at the very top of the result page, and during the search).:

Svar: Ja, der findes et "Peptidase S8" domæne. Dette kan se på både "pause-siden" mens der søges, og ved at klikke på "Show conserved domains" øverst på resultat siden.

Conserved protein domains found by the NCBI Blast server

Do we find any significant hits? (E-value?):

Svar: Ja, ganske mange. (Hvis vi fx. kigger på de første 15 ligger E-value fra 0.0 – 2e-147 – bemærk at det per default kun er de første 100 hits der vises).

                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

sp|P41362.1|ELYA_BACCS  RecName: Full=Alkaline protease; Flags...   754    0.0   
sp|P27693.1|ELYA_BACAO  RecName: Full=Alkaline protease; Flags...   753    0.0   
ref|YP_174261.1|  extracellular alkaline serine protease [Baci...   745    0.0   
sp|P20724.1|ELYA_BACYA  RecName: Full=Alkaline elastase YaB; F...   597    1e-168
dbj|BAA25184.1|  AprN [Bacillus sp.]                                595    4e-168
dbj|BAA06157.1|  prepro-subtilisin Sendai [Bacillus sp. G-825-6]    561    4e-158
sp|P29600.1|SUBS_BACLE  RecName: Full=Subtilisin Savinase; Alt...   533    1e-149
pdb|1AH2|A  Chain A, Serine Protease Pb92 From Bacillus Alcalo...   531    3e-149
pdb|1GCI|A  Chain A, The 0.78 Angstroms Structure Of A Serine ...   530    1e-148
pdb|1IAV|A  Chain A, Structure On Native (Asn 87) Subtilisin F...   530    1e-148
pdb|1C9M|A  Chain A, Bacillus Lentus Subtilsin (Ser 87) N76dS1...   528    5e-148
pdb|1WSD|A  Chain A, Alkaline M-Protease Form I Crystal Strcut...   527    7e-148
pdb|1NDU|A  Chain A, Bacillus Lentus Subtilisin Variant S101gV...   526    1e-147
pdb|1C9J|A  Chain A, Bacillus Lentus Subtilisin K27rN87SV104YN...   525    3e-147
sp|P29599.1|SUBB_BACLE  RecName: Full=Subtilisin BL; AltName: ...   525    4e-147


Are all the best hits the same category of enzymes?:

Svar: Proteaser og Peptidaser (hvilket dækker over det samme). Bemærk at man kan klikke på hits'ne og gå direkte til sekvensen, hvor man kan læse yderligere.

Vi kan slå følgende fast:

  1. Det er en serin protease.
  2. Den tilhører S8 familien
  3. Den er basisk
  4. Den kommer fra Bacillus.

How does the distribution of E-values looks compared to the DNA search?:

Svar: Fra fuld-længde hits med en e-value på mindre end 1e-168 og gradvis mod højere værdier (per default ser vi kun de 100 bedste hits).

From what you have seen, what is best for identifying intermediate quality hits - DNA or Protein BLAST?:

Svar: BLASTP

QUESTION 10

Svar: Vi vil i sidste ende gerne bruge BLAST til at søge i de store samlede databaser.

Lad os derfor prøve følgende:

  1. BLASTN
  2. Oversætte til protein (fx. VirtualRibosome).
  3. BLASTP

Både med BLASTN og BLASTP ønsker vi at bruge NR databasen - det er den der giver den største bredde. Der er godt at starte med en stor, bred database - så kan man evt. gå i dybten i en af de mere specifikke, når man har skudt sig ind på hvad for en type sekvens man har.


Til at starte med har jeg konverteret DNA sekvensen til FASTA format (brug de jEdit tricks vi lærte første gang):

>CLONE12
AACGGGCACGGGACGCATGTAGCTGGAACAGTGGCAGCCGTAAATAATAATGGTATCGGA
GTTGCCGGGGTTGCAGGAGGAAACGGCTCTACCAATAGTGGAGCAAGGTTAATGTCCACA
CAAATTTTTAATAGTGATGGGGATTATACAAATAGCGAAACTCTTGTGTACAGAGCCATT
GTTTATGGTGCAGATAACGGAGCTGTGATCTCGCAAAATAGCTGGGGTAGTCAGTCTCTG
ACTATTAAGGAGTTGCAGAAAGCTGCGATCGACTATTTCATTGATTATGCAGGAATGGAC
GAAACAGGAGAAATACAGACAGGCCCTATGAGGGGAGGTATATTTATAGCTGCCGCCGGA
AACGATAACGTTTCCACTCCAAATATGCCTTCAGCTTATGAACGGGTTTTAGCTGTGGCC
TCAATGGGACCAGATTTTACTAAGGCAAGCTATAGCACTTTTGGAACATGGACTGATATT
ACTGCTCCTGGCGGAGATATTGACAAATTTGATTTGTCAGAATACGGAGTTCTCAGCACT
TATGCCGATAATTATTATGCTTATGGAGAGGGAACATCCATGGCTTGTCCACATGTCGCC
GGCGCCGCC


1) BLASTN - når vi prøver at BLAST'e mod NR får vi slet ikke nogen signifikante hits:

Database: All GenBank+EMBL+DDBJ+PDB sequences (but no EST, STS,
GSS,environmental samples or phase 0, 1 or 2 HTGS sequences)
           11,076,294 sequences; 30,408,770,429 total letters
Query=  CLONE12
Length=609


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

gb|CP000159.1|  Salinibacter ruber DSM 13855, complete genome      51.8    0.004
ref|XM_002461822.1|  Sorghum bicolor hypothetical protein, mRNA    50.0    0.016
gb|CP000813.1|  Bacillus pumilus SAFR-032, complete genome         50.0    0.016
ref|XM_002526491.1|  Ricinus communis Cucumisin precursor, put...  48.2    0.054
gb|CP001177.1|  Bacillus cereus AH187, complete genome             48.2    0.054
gb|CP000485.1|  Bacillus thuringiensis str. Al Hakam, complete...  48.2    0.054
gb|CP000001.1|  Bacillus cereus E33L, complete genome              48.2    0.054
dbj|AB085752.1|  Bacillus sp. KSM-LD1 gene for protease, compl...  48.2    0.054
dbj|AK320060.1|  Solanum lycopersicum cDNA, clone: LEFL1004CD0...  44.6    0.66 
gb|BT060461.1|  Zea mays full-length cDNA clone ZM_BFb0002M22 ...  44.6    0.66 
gb|CP000227.1|  Bacillus cereus Q1, complete genome                44.6    0.66 
ref|NM_001152466.1|  Zea mays hypothetical protein LOC10027946...  44.6    0.66 
gb|EU957086.1|  Zea mays clone 1582547 mRNA sequence               44.6    0.66 
ref|XM_001193501.1|  PREDICTED: Strongylocentrotus purpuratus ...  44.6    0.66 
ref|XM_001196149.1|  PREDICTED: Strongylocentrotus purpuratus ...  44.6    0.66 
gb|BT014524.1|  Lycopersicon esculentum clone 133938F, mRNA se...  44.6    0.66 
gb|CP001899.1|  Ferroglobus placidus DSM 10642, complete genome    42.8    2.3  
gb|BT117303.1|  Picea glauca clone GQ03816_N01 mRNA sequence       42.8    2.3  
ref|XM_002274806.1|  PREDICTED: Vitis vinifera hypothetical pr...  42.8    2.3  
ref|XM_002316218.1|  Populus trichocarpa predicted protein, mRNA   42.8    2.3  
ref|XM_002316216.1|  Populus trichocarpa predicted protein, mRNA   42.8    2.3  

(TIP: Man kan få dette tekst-baserede output ved at klikke på "Format/reformat" i toppen af siden, og så vælge "Plain text").

Der er simpelt hen ikke noget i databasen, der er ligner vores input tilstrækkeligt - derfor finder vi kun de tilfældige resultater. En søgning på DNA niveau er kun egnet til at finde de sekvenser, der ligner virkeligt meget.

2) Jeg oversætter med Virtual ribosome.

BEMÆRK: vi ved følgende om sekvensen:

  1. Den er proteinkodende (amplificeret med PCR primere rettet mod en særlig gruppe af enzymer).
  2. Det er et fragment – kun midten af genet var amplificeret – vi kan derfor ikke forvente at STOP og START codon er med.

Resultat fra ORF finderen:


VIRTUAL RIBOSOME
----------------
Translation table: Standard SGC0 

>CLONE12_rframe1_ORF
Reading frame: 1

    N  G  H  G  T  H  V  A  G  T  V  A  A  V  N  N  N  G  I  G  V  A  G  V  A  G  G  N  G  S  
5' AACGGGCACGGGACGCATGTAGCTGGAACAGTGGCAGCCGTAAATAATAATGGTATCGGAGTTGCCGGGGTTGCAGGAGGAAACGGCTCT 90
   .......................................................................................... 

    T  N  S  G  A  R  L  M  S  T  Q  I  F  N  S  D  G  D  Y  T  N  S  E  T  L  V  Y  R  A  I  
5' ACCAATAGTGGAGCAAGGTTAATGTCCACACAAATTTTTAATAGTGATGGGGATTATACAAATAGCGAAACTCTTGTGTACAGAGCCATT 180
   .....................>>>.................................................................. 

    V  Y  G  A  D  N  G  A  V  I  S  Q  N  S  W  G  S  Q  S  L  T  I  K  E  L  Q  K  A  A  I  
5' GTTTATGGTGCAGATAACGGAGCTGTGATCTCGCAAAATAGCTGGGGTAGTCAGTCTCTGACTATTAAGGAGTTGCAGAAAGCTGCGATC 270
   .........................................................)))............)))............... 

    D  Y  F  I  D  Y  A  G  M  D  E  T  G  E  I  Q  T  G  P  M  R  G  G  I  F  I  A  A  A  G  
5' GACTATTTCATTGATTATGCAGGAATGGACGAAACAGGAGAAATACAGACAGGCCCTATGAGGGGAGGTATATTTATAGCTGCCGCCGGA 360
   ........................>>>..............................>>>.............................. 

    N  D  N  V  S  T  P  N  M  P  S  A  Y  E  R  V  L  A  V  A  S  M  G  P  D  F  T  K  A  S  
5' AACGATAACGTTTCCACTCCAAATATGCCTTCAGCTTATGAACGGGTTTTAGCTGTGGCCTCAATGGGACCAGATTTTACTAAGGCAAGC 450
   ........................>>>....................................>>>........................ 

    Y  S  T  F  G  T  W  T  D  I  T  A  P  G  G  D  I  D  K  F  D  L  S  E  Y  G  V  L  S  T  
5' TATAGCACTTTTGGAACATGGACTGATATTACTGCTCCTGGCGGAGATATTGACAAATTTGATTTGTCAGAATACGGAGTTCTCAGCACT 540
   ...............................................................)))........................ 

    Y  A  D  N  Y  Y  A  Y  G  E  G  T  S  M  A  C  P  H  V  A  G  A  A  
5' TATGCCGATAATTATTATGCTTATGGAGAGGGAACATCCATGGCTTGTCCACATGTCGCCGGCGCCGCC 609
   .......................................>>>........................... 

(TIP: Husk at du kan få sekvensen i FASTA format ved at klikke på "FASTA" linket på resultat-siden).:

>CLONE12_rframe1_ORF
NGHGTHVAGTVAAVNNNGIGVAGVAGGNGSTNSGARLMSTQIFNSDGDYTNSETLVYRAI
VYGADNGAVISQNSWGSQSLTIKELQKAAIDYFIDYAGMDETGEIQTGPMRGGIFIAAAG
NDNVSTPNMPSAYERVLAVASMGPDFTKASYSTFGTWTDITAPGGDIDKFDLSEYGVLST
YADNYYAYGEGTSMACPHVAGAA

3) BLASTP

Det første vi ser, er at at der findes et "Peptidase_S8" domæne. Dette er en meget kraftig indikator på funktionen.

Vi får en række signifikante hits. Hvis vi kigger på de bedste, ser at de alle er serin-proteaser (af S8 familien):

Database: All non-redundant GenBank CDS
translations+PDB+SwissProt+PIR+PRF excluding environmental samples
from WGS projects
           10,570,301 sequences; 3,602,205,473 total letters
Query=  CLONE12_rframe1_ORF
Length=203


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|ZP_05857871.1|  subtilase family domain protein [Prevotell...   194    6e-48
ref|ZP_06407789.1|  subtilase family domain protein [Prevotell...   187    6e-46
ref|ZP_04833939.1|  subtilase family domain protein [Prevotell...   187    6e-46
ref|ZP_03300901.1|  hypothetical protein BACDOR_02271 [Bactero...   179    1e-43
ref|ZP_05253523.1|  protease [Bacteroides sp. 4_3_47FAA] >gb|E...   177    7e-43
ref|ZP_06089720.1|  protease [Bacteroides sp. 3_1_33FAA] >gb|E...   177    7e-43
ref|ZP_04555416.1|  protease [Bacteroides sp. D4] >gb|EEO46750...   177    7e-43
ref|ZP_04539947.1|  protease [Bacteroides sp. 9_1_42FAA] >gb|E...   174    4e-42
ref|ZP_05734780.1|  subtilase family domain protein [Prevotell...   171    5e-41
ref|ZP_06251999.1|  subtilase family protein [Prevotella copri...   165    2e-39
ref|ZP_03460514.1|  hypothetical protein BACEGG_03331 [Bactero...   165    3e-39
ref|ZP_05917065.1|  subtilase family domain protein [Prevotell...   164    6e-39
ref|ZP_06422877.1|  subtilase family domain protein [Prevotell...   159    1e-37
ref|ZP_06006082.2|  conserved hypothetical protein [Prevotella...   156    1e-36
ref|ZP_05416921.1|  subtilase family domain protein [Bacteroid...   156    1e-36
ref|NP_809125.1|  protease [Bacteroides thetaiotaomicron VPI-5...   154    6e-36

(BEMÆRK: "Hypotetical" proteiner er ikke nær så stærk evidens som et velbeskrevet protein).


Lad os kigge lidt nærmere på det bedste hit:

>ref|ZP_05857871.1|  subtilase family domain protein [Prevotella veroralis F0319]
 gb|EEX18266.1|  subtilase family domain protein [Prevotella veroralis F0319]
Length=921

 Score =  194 bits (492),  Expect = 6e-48, Method: Compositional matrix adjust.
 Identities = 117/214 (54%), Positives = 138/214 (64%), Gaps = 20/214 (9%)

Query  2    GHGTHVAGTVAAVNNNGIGVAGVAGGNGSTNSGARLMSTQIF---NSDGDYTNSETLVYR  58
            GHGTHVAGTVAA NNNG GVAG+AGGNG+ +SG RLMS QIF   N  GD   +      
Sbjct  283  GHGTHVAGTVAARNNNGKGVAGIAGGNGTADSGVRLMSCQIFRKKNEQGDAAAAIKY---  339

Query  59   AIVYGADNGAVISQNSWGSQSLT----IKELQKAAIDYFIDYAGMDETGEIQT-GPMRGG  113
                 ADNGAVI QNSWG  S T    + +L K A+DYFI  AG D  G+ +   PM+GG
Sbjct  340  ----AADNGAVICQNSWGYSSNTGVTSMPQLLKDAVDYFIKNAGCDANGQQRADSPMKGG  395

Query  114  IFIAAAGNDNVSTPNMPSAYERVLAVASMGPDFTKASYSTFGTWTDITAPGGDIDKFDLS  173
            + I AAGN+N      P+ Y   ++VASM  DFTKASYS +  W  ITAPGGD D+F  +
Sbjct  396  VVIFAAGNENKEFSAYPACYPPAVSVASMAWDFTKASYSNYAKWVTITAPGGDQDRFG-N  454

Query  174  EYGVLSTY----ADNYYAYGEGTSMACPHVAGAA  203
            E GVLST     A + YAY +GTSMACPHV+G A
Sbjct  455  EAGVLSTVPKSKASSGYAYMQGTSMACPHVSGIA  488

Bemærk at selv om det ikke er et perfekt hit (vores input-sekvens findes jo netop ikke i databasen), så ser det ganske fornuftigt ud: alignment'et er langt med en Identity på 54% og en Similarity på 64%.

Sammenholdt med det faktum, at alle de bedste hits er serin-proteaser, har vi en meget stærk indikation på hvilken type af enzym vi har med at gøre.

Konklusion: Sekvensen koder for en serin-protease, fra S8 familien.

QUESTION 11

(HUSK at det er i SGD og ikke GenBank I skal slå det op.)

Svar: HTA2 og HTA1 er næsten ens ("nearly identical").

Protein sekvens (Vælg “ORF translation -> get sequence):

>YBL003C  Chr 2   reverse complement
MSGGKGGKAGSAAKASQSRSAKAGLTFPVGRVHRLLRRGNYAQRIGSGAPVYLTAVLEYL
AAEILELAGNAARDNKKTRIIPRHLQLAIRNDDELNKLLGNVTIAQGGVLPNIHQNLLPK
KSAKTAKASQEL*

QUESTION 12

How many high-confidence hits do we get?:

Svar: 3

Database: Saccharomyces cerevisiae RefSeq protein
           5885 sequences; 2,916,286 total letters
Query=  YBL003C  Chr 2   reverse complement
Length=133


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|NP_009552.1|  Histone H2A, core histone protein required f...   186    8e-49
ref|NP_010511.1|  Histone H2A, core histone protein required f...   183    9e-48
ref|NP_014631.1|  Histone variant H2AZ, exchanged for histone ...  89.7    1e-19

Does the hits make sense, from what you have read about HTA2 at the SGD webpage?:

Svar: Ja - HTA1 og HTA2 er meget ens (kun 2 aminosyrer er forskellige). Som bonus finder vi også "H2AZ" - en anden variant af HTA2 der noget mere divergeret i sekvens.

QUESTION 13

How many high-confidence hits are found?:

Database: Homo sapiens RefSeq protein
           38,716 sequences; 18,793,054 total letters
Query=  YBL003C  Chr 2   reverse complement
Length=133


                                                                   Score     E
Sequences producing significant alignments:                       (Bits)  Value

ref|NP_003503.1|  histone H2A type 1-C [Homo sapiens]               194    1e-50
ref|NP_003507.1|  histone H2A type 2-A [Homo sapiens] >ref|NP_...   194    2e-50
ref|NP_003508.1|  histone H2A type 2-C [Homo sapiens]               194    2e-50
ref|NP_003500.1|  histone H2A type 1 [Homo sapiens] >ref|NP_00...   194    2e-50
ref|NP_734466.1|  histone H2A type 1-A [Homo sapiens]               194    2e-50
ref|NP_542163.1|  histone H2A type 1-H [Homo sapiens]               194    2e-50
ref|NP_254280.1|  histone H2A type 3 [Homo sapiens]                 194    3e-50
ref|NP_808760.1|  histone H2A.J [Homo sapiens]                      193    4e-50
ref|NP_066544.1|  histone cluster 1, H2aj [Homo sapiens]            193    4e-50
ref|NP_066409.1|  histone H2A type 1-D [Homo sapiens]               193    4e-50
ref|NP_066390.1|  histone H2A type 1-B/E [Homo sapiens] >ref|N...   192    5e-50
ref|NP_002096.1|  histone H2A.x [Homo sapiens]                      192    5e-50
ref|NP_778235.1|  histone H2A type 2-B [Homo sapiens]               192    7e-50
ref|NP_061119.1|  core histone macro-H2A.2 [Homo sapiens]           153    3e-38
ref|NP_613075.1|  core histone macro-H2A.1 isoform 1 [Homo sap...   152    7e-38
ref|NP_004884.1|  core histone macro-H2A.1 isoform 2 [Homo sap...   152    8e-38
ref|NP_613258.2|  core histone macro-H2A.1 isoform 3 [Homo sap...   152    8e-38
ref|NP_036544.1|  histone H2A.V isoform 1 [Homo sapiens]            133    4e-32
ref|NP_002097.1|  histone H2A.Z [Homo sapiens]                      132    6e-32
ref|NP_619541.1|  histone H2A.V isoform 2 [Homo sapiens]            114    2e-26
ref|NP_958844.1|  histone H2A.V isoform 3 [Homo sapiens]            112    8e-26
ref|XP_001721252.1|  PREDICTED: similar to hCG1643984 [Homo sa...  91.7    2e-19
ref|NP_542451.1|  histone H2A-Bbd type 2/3 [Homo sapiens] >ref...  89.0    1e-18
ref|NP_001017990.1|  histone H2A-Bbd type 1 [Homo sapiens]         85.9    9e-18
ref|NP_958925.1|  histone H2A.V isoform 5 [Homo sapiens]           75.9    8e-15
ref|NP_958924.1|  histone H2A.V isoform 4 [Homo sapiens]           62.8    7e-11
ref|NP_005624.2|  son of sevenless homolog 1 [Homo sapiens]        49.3    8e-07
ref|NP_001018082.1|  ankyrin repeat and BTB/POZ domain-contain...  43.9    4e-05
ref|NP_665803.1|  ankyrin repeat and BTB/POZ domain-containing...  38.9    0.001

Lad os ligesom før kræve at hits skal have en e-value på 1e-10 eller bedre (mindre) for at vi regner det for pålideligt. Dette passer også fint med, at disse hits er enige om at der er tale om en histon.

Som udgangspunkt er der derfor 26 gode hits. Man kan dog godt argumentere for at man skal passe på hits der kun har en forudsagt funktion ("PREDICTED") - dem har vi en enkelt af. Som det også ses er der en række af hits'ne der dækker over variationer af samme protein (fx alle dem der hedder: histone H2A type-XYZ). Det er ikke altid at alle detaljerne kommer med i den korte form af overskrifter - nogen gange kan det være nødvendigt mauelt at inspicere et hit (klikke på link'et og læse hvad der står af information i det bagvedliggende database entry).

Lad os arbejde videre med alle 26 gode hits i de næste analyser.

These protein originates from a number of genes - but how many UNIQUE genes?:

Svar: Trick'et er her af en del af hits'ne er fra isoformer af det sammen protein. Et protein med to isofomer stammer stadig kun fra en enkelt gen

Lad os fx kigge på følgende hits:

ref|NP_613075.1|  core histone macro-H2A.1 isoform 1 [Homo sap...   152    7e-38
ref|NP_004884.1|  core histone macro-H2A.1 isoform 2 [Homo sap...   152    8e-38

Hvis man gå ind og læser sekvens-entry'et for disse hits kan man faktisk direkte se, at de stammer fra sammen gen (/gene="H2AFY", /gene="H2AFY"). BEMÆRK: Her er vi heldige og alt den information vi har burg for står faktisk i overskrifterne.


En hurtig optælling afslører følgende isoformet i vores set af BLAST hits:

ref|NP_613075.1|  core histone macro-H2A.1 isoform 1 [Homo sap...   152    7e-38
ref|NP_004884.1|  core histone macro-H2A.1 isoform 2 [Homo sap...   152    8e-38
ref|NP_613258.2|  core histone macro-H2A.1 isoform 3 [Homo sap...   152    8e-38
ref|NP_036544.1|  histone H2A.V isoform 1 [Homo sapiens]            133    4e-32
ref|NP_619541.1|  histone H2A.V isoform 2 [Homo sapiens]            114    2e-26
ref|NP_958844.1|  histone H2A.V isoform 3 [Homo sapiens]            112    8e-26
ref|NP_958925.1|  histone H2A.V isoform 5 [Homo sapiens]           75.9    8e-15
ref|NP_958924.1|  histone H2A.V isoform 4 [Homo sapiens]           62.8    7e-11

Dvs at vi i alt har 27 - 2 - 4 = 21 unikke hits til gener.

QUESTION 14

Langt svar: Et lavt komplekst område er et stykke sekvens der ikke indeholder særligt meget information (fx. TTTTAAAA i human – findes milioner af gange i genomet).

BLAST har et indbygget filter der masker disse områder ud i søgningen.

Ud over at kunne slå det til og fra – har NCBI valgt et tredie mulighed (som default) – slå det fra men at vise hvor områderne er (små bogstaver):

>ref|NP_003503.1|  histone H2A type 1-C [Homo sapiens]
Length=130

 GENE ID: 8334 HIST1H2AC | histone cluster 1, H2ac [Homo sapiens]
(Over 10 PubMed links)

 Score =  194 bits (494),  Expect = 1e-50, Method: Compositional matrix adjust.
 Identities = 96/125 (76%), Positives = 108/125 (86%), Gaps = 0/125 (0%)

Query  4    gkggkagsaakasqsrsakagLTFPVGRVHRLLRRGNYAQRIGSGAPVYLTavleylaae  63
            G+G + G A   ++SRS++AGL FPVGRVHRLLR+GNYA+R+G+GAPVYL AVLEYL AE
Sbjct  3    GRGKQGGKARAKAKSRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAE  62

Query  64   ilelaGNAARDNKKTRIIPRHLQLAIRNDDELNKLLGNVTIAQGGVLPNIHQNLLPKKSA  123
            ILELAGNAARDNKKTRIIPRHLQLAIRND+ELNKLLG VTIAQGGVLPNI   LLPKK+ 
Sbjct  63   ILELAGNAARDNKKTRIIPRHLQLAIRNDEELNKLLGRVTIAQGGVLPNIQAVLLPKKTE  122

Query  124  KTAKA  128
               KA
Sbjct  123  SHHKA  127

Hvis man gentager søgningen med filteret slået til giver det følgende (jeg har også valgt at viser X’er i det filtrerede område – hvilket NORMALT er standard i BLAST):

>ref|NP_003503.1|  histone H2A type 1-C [Homo sapiens]
Length=130

 GENE ID: 8334 HIST1H2AC | histone cluster 1, H2ac [Homo sapiens]
(Over 10 PubMed links)

 Score =  147 bits (372),  Expect = 2e-36, Method: Compositional matrix adjust.
 Identities = 87/104 (83%), Positives = 93/104 (89%), Gaps = 0/104 (0%)

Query  25   LTFPVGRVHRLLRRGNYAQRIGSGAPVYLTXXXXXXXXXXXXXXGNAARDNKKTRIIPRH  84
            L FPVGRVHRLLR+GNYA+R+G+GAPVYL AVLEYL AEILELAGNAARDNKKTRIIPRH
Sbjct  24   LQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAEILELAGNAARDNKKTRIIPRH  83

Query  85   LQLAIRNDDELNKLLGNVTIAQGGVLPNIHQNLLPKKSAKTAKA  128
            LQLAIRND+ELNKLLG VTIAQGGVLPNI   LLPKK+    KA
Sbjct  84   LQLAIRNDEELNKLLGRVTIAQGGVLPNIQAVLLPKKTESHHKA  127

Bemærk det kortere alignment og den ændrede E-værdi.

Hvis man eksplicit slår filteret fra, ser resultatet således ud:

>ref|NP_003503.1|  histone H2A type 1-C [Homo sapiens]
Length=130

 GENE ID: 8334 HIST1H2AC | histone cluster 1, H2ac [Homo sapiens]
(Over 10 PubMed links)

 Score =  194 bits (494),  Expect = 1e-50, Method: Compositional matrix adjust.
 Identities = 96/125 (76%), Positives = 108/125 (86%), Gaps = 0/125 (0%)

Query  4    GKGGKAGSAAKASQSRSAKAGLTFPVGRVHRLLRRGNYAQRIGSGAPVYLTAVLEYLAAE  63
            G+G + G A   ++SRS++AGL FPVGRVHRLLR+GNYA+R+G+GAPVYL AVLEYL AE
Sbjct  3    GRGKQGGKARAKAKSRSSRAGLQFPVGRVHRLLRKGNYAERVGAGAPVYLAAVLEYLTAE  62

Query  64   ILELAGNAARDNKKTRIIPRHLQLAIRNDDELNKLLGNVTIAQGGVLPNIHQNLLPKKSA  123
            ILELAGNAARDNKKTRIIPRHLQLAIRND+ELNKLLG VTIAQGGVLPNI   LLPKK+ 
Sbjct  63   ILELAGNAARDNKKTRIIPRHLQLAIRNDEELNKLLGRVTIAQGGVLPNIQAVLLPKKTE  122

Query  124  KTAKA  128
               KA
Sbjct  123  SHHKA  127

Præcis samme længde, e-værdi mm. som i det første alignment.

Kort svar: Ja, alignmentet bliver kortere når low-complexity filteret er slået til.

Personal tools