Bio::DB::TFBS namespace has been moved to its own distribution named after itself
[bioperl-live.git] / t / data / test.gcgfasta
blob4adbcaf4ff49bebc41045c4c5df4a72f6e190108
1 !!SEQUENCE_LIST 1.0
4 (Peptide) FASTA of: test.gcg  from: 1 to: 146  August 25, 2003 13:25
6  REFORMAT of: b124_sp.pep  check: -1  from: 1  to: 146  January 28, 1999 16:22
7  (No documentation)
9  TO: PIR:*  Sequences:    283,308  Symbols:    96,168,669  Word Size: 2
11  Databases searched:
12    NBRF, Release 76.0, Released on 31Mar2003, Formatted on 7Apr2003
14  Scoring matrix: GenRunData:blosum50.cmp
15  Variable pamfactor used
16  Gap creation penalty: 12  Gap extension penalty: 2
20 Histogram Key:
21  Each histogram symbol represents 474 search set sequences
22  Each inset symbol represents 4 search set sequences
23  z-scores computed from opt scores
25 z-score obs    exp
26         (=)    (*)
28 < 20    789      0:==
29   22      0      0:
30   24      4      0:=
31   26      8      6:*
32   28      9     64:*
33   30    101    390:*
34   32    407   1509:=  *
35   34   2185   4092:=====   *
36   36   7555   8404:================ *
37   38  16600  13889:=============================*======
38   40  25000  19373:========================================*============
39   42  27813  23681:=================================================*=========
40   44  28394  26123:=======================================================*====
41   46  26152  26607:========================================================*
42   48  23191  25473:=================================================    *
43   50  20419  23244:============================================     *
44   52  18108  20435:=======================================    *
45   54  15701  17455:==================================  *
46   56  13874  14581:==============================*
47   58  11026  11970:======================== *
48   60   9392   9697:====================*
49   62   7678   7774:================*
50   64   6295   6183:=============*
51   66   4986   4887:==========*
52   68   3909   3844:========*
53   70   3131   3012:======*
54   72   2497   2354:====*=
55   74   1858   1835:===*
56   76   1469   1428:===*
57   78   1160   1110:==*
58   80    845    862:=*
59   82    665    659:=*
60   84    515    522:=*
61   86    376    404:*
62   88    261    313:*
63   90    225    242:*
64   92    157    187:*         :=======================================*
65   94    132    145:*         :=================================   *
66   96     93    112:*         :========================   *
67   98     63     87:*         :================     *
68  100     73     67:*         :================*==
69  102     44     52:*         :=========== *
70  104     32     40:*         :======== *
71  106     27     31:*         :=======*
72  108     18     24:*         :=====*
73  110     18     19:*         :====*
74  112     11     14:*         :===*
75  114     11     11:*         :==*
76  116     10      9:*         :==*
77  118      8      7:*         :=*
78 >120     13      5:*         :=*==
80 Joining threshold: 36, opt. threshold: 24, opt. width:  16, reg.-scaled
83 The best scores are:                    init1 initn   opt    z-sc E(283250)..
85 PIR2:S44629    Begin: 342  End: 470
86 ! F22B7.10 protein - Caenorhabditis e...  108   143   241   304.1  1.1e-09
87 PIR1:WMBELM    Begin: 307  End: 385
88 ! membrane protein LMP-2A - human her...   59    91    99   130.6     5.1
89 PIR2:AG0762    Begin: 63  End: 144
90 ! probable membrane protein STY2265 [...   65    65    96   128.9     6.4
91 PIR2:B83179    Begin: 9  End: 86
92 ! hypothetical protein PA3730 [import...   40    40    92   127.0     8.2
93 \\End of List
96 test.gcg
97 PIR2:S44629
99 P1;S44629 - F22B7.10 protein - Caenorhabditis elegans
100 C;Species: Caenorhabditis elegans
101 C;Date: 20-Feb-1995 #sequence_revision 20-Feb-1995 #text_change 04-Mar-2000
102 C;Accession: S44629
103 R;Anderson, K.
104 submitted to the EMBL Data Library, March 1993 . . . 
107 SCORES   Init1: 108   Initn: 143   Opt: 241   z-score: 304.1 E(): 1.1e-09
108 >>PIR2:S44629                                             (628 aa)
109  initn: 143 init1: 108 opt: 241 Z-score: 304.1 expect(): 1.1e-09
110 Smith-Waterman score: 241;    32.6% identity in 135 aa overlap
111  (3-135:342-470)
113                                                  10        20        30  
114 test.gcg                                 VXCAAEFDFMEKETPLRYTKTLLLPVVLVVFV
115                                            |:|||||::  |  :   |||:|::|: :|
116 S44629       GLGIEDDAHIFDILRSKFTSFANFHTRLYTCSAEFDFIQYSTIEKLCGTLLIPLALISLV
117                    320       330       340       350       360       370 
119                    40        50        60        70        80        90  
120 test.gcg     AIVRKIISDMWGVLAKQQTHVRKHQFDHGELVYHALQLLAYTALGILIMRLKLFLTPYMC
121              ::| :::::  ::| ::: ::     ::||::|:::||   |::::||||||||:||::|
122 S44629       TFVFNFVKNT-NLLWRNSEEIG----ENGEILYNVVQLCCSTVMAFLIMRLKLFMTPHLC
123                    380        390           400       410       420      
125                   100         110       120       130       140          
126 test.gcg     VMASLICSRQLFG--WLFCKVHPGAIVFVILAAMSIQGSANLQTQWKSTASLALET    
127              ::|:|: : :|:|   :   :: :|:| || | :  :|  |:: |               
128 S44629       IVAALFANSKLLGGDRISKTIRVSALVGVI-AILFYRGIPNIRQQLNVKGEYSNPDQEML
129               430       440       450        460       470       480     
131 S44629       FDWIQHNTKQDAVFAGTMPVMANVKLTTLRPIVNHPHYEHVGIRERTLKVYSMFSKKPIA
132                490       500       510       520       530       540     
135 test.gcg
136 PIR1:WMBELM
138 P1;WMBELM - membrane protein LMP-2A - human herpesvirus 4
139 N;Contains: membrane protein LMP-2B
140 C;Species: human herpesvirus 4, Epstein-Barr virus
141 A;Note: host Homo sapiens (man)
142 C;Date: 31-Dec-1989 #sequence_revision 31-Dec-1989 #text_change 16-Jul-1999
143 C;Accession: A30178; B30178; S00392 . . . 
146 SCORES   Init1: 59    Initn: 91    Opt: 99    z-score: 130.6 E(): 5.1   
147 >>PIR1:WMBELM                                             (497 aa)
148  initn:  91 init1:  59 opt:  99 Z-score: 130.6 expect():  5.1
149 Smith-Waterman score: 99;    32.9% identity in 79 aa overlap
150  (67-141:307-385)
152                40        50        60        70        80        90      
153 test.gcg     KIISDMWGVLAKQQTHVRKHQFDHGELVYHALQLLAYTALGILIMRLKLFLTPYMCVMAS
154                                            || |||   || | :   ::|     ::: 
155 WMBELM       MTLLLLAFVLWLSSPGGLGTLGAALLTLAAALALLASLILGTLNLTTMFLLMLLWTLVVL
156               280       290       300       310       320       330      
158               100           110       120       130       140            
159 test.gcg     LICSR----QLFGWLFCKVHPGAIVFVILAAMSIQGSANLQTQWKSTASLALET      
160              ||||      |   |: ::   |:::::||:  | |:: |||::|| :|           
161 WMBELM       LICSSCSSCPLSKILLARLFLYALALLLLASALIAGGSILQTNFKSLSSTEFIPNLFCML
162               340       350       360       370       380       390      
164 WMBELM       LLIVAGILFILAILTEWGSGNRTYGPVFMCLGGLLTMVAGAVWLTVMSNTLLSAWILTAG
165               400       410       420       430       440       450      
168 test.gcg
169 PIR2:AG0762
171 P1;AG0762 - probable membrane protein STY2265 [imported] - Salmonella enterica 
172  subsp. enterica serovar Typhi (strain CT18)
173 C;Species: Salmonella enterica subsp. enterica serovar Typhi
174 A;Note: this species has also been called Salmonella typhi
175 C;Date: 09-Nov-2001 #sequence_revision 09-Nov-2001 #text_change 18-Nov-2002
176 C;Accession: AG0762
177 R;Parkhill, J.; Dougan, G.; James, K.D.; Thomson, N.R.; Pickard, D.; Wain, J.; 
178  Churcher, C.; Mungall, K.L.; Bentley, S.D.; Holden, M.T.G.; Sebaihia, M.; 
179  Baker, S.; Basham, D.; Brooks, K.; Chillingworth, T.; Connerton, P.; Cronin, 
180  A.; Davis, P.; Davies, R.M.; Dowd, L.; White, N.; Farrar, J.; Feltwell, T.; 
181  Hamlin, N.; Haque, A.; Hien, T.T.; Holroyd, S.; Jagels, K.; Krogh, A.; Larsen, 
182  T.S.; Leather, S.; Moule, S.; O'Gaora, P
185 SCORES   Init1: 65    Initn: 65    Opt: 96    z-score: 128.9 E(): 6.4   
186 >>PIR2:AG0762                                             (352 aa)
187  initn:  65 init1:  65 opt:  96 Z-score: 128.9 expect():  6.4
188 Smith-Waterman score: 96;    27.6% identity in 87 aa overlap
189  (61-137:63-144)
191                      40        50        60        70            80      
192 test.gcg     FVAIVRKIISDMWGVLAKQQTHVRKHQFDHGELVYHALQLLAYT----ALGILIMRLKLF
193                                            |::| :|:: :: |    |||:: :||:||
194 AG0762       TFLLVRLFSIPEGTWPLITLVVIMGPISFWGNVVPRAFERIGGTILGAALGLVALRLELF
195                    40        50        60        70        80        90  
197                90          100       110         120       130        140
198 test.gcg     LTPYM---CVMASLICSRQLFGWLFCKVHP--GAIVFVILAAMSIQGSANLQTQ-WKSTA
199                | |   |::| ::|     |||    :|  : :: : ||::    :::::|  |::  
200 AG0762       SLPLMLVWCAIAMFLC-----GWLALGKKPYQALLIGITLAVVVGAPAGDMNTALWRGGD
201                   100            110       120       130       140       
203                                                                          
204 test.gcg     SLALET                                                      
205                                                                          
206 AG0762       VILGALLAMLFTGIWPQRAFLHWRIQLAHCVTAYNRVYQAALSPNLLERPRLDKYLQRLL
207              150       160       170       180       190       200       
210 test.gcg
211 PIR2:B83179
213 P1;B83179 - hypothetical protein PA3730 [imported] - Pseudomonas aeruginosa 
214  (strain PAO1)
215 C;Species: Pseudomonas aeruginosa
216 C;Date: 15-Sep-2000 #sequence_revision 15-Sep-2000 #text_change 31-Dec-2000
217 C;Accession: B83179
218 R;Stover, C.K.; Pham, X.Q.; Erwin, A.L.; Mizoguchi, S.D.; Warrener, P.; Hickey, 
219  M.J.; Brinkman, F.S.L.; Hufnagle, W.O.; Kowalik, D.J.; Lagrou, M.; Garber, 
220  R.L.; Goltry, L.; Tolentino, E.; Westbrook-Wadman, S.; Yuan, Y.; Brody, L.L.; 
221  Coulter, S.N.; Folger, K.R.; Kas, A.; Larbig, K.; Lim, R.M.; Smith, K.A.; 
222  Spencer, D.H.; Wong, G.K.S.; Wu, Z.; Paulsen, I.T.; Reizer, J.; Saier, M.H.; 
223  Hancock, R.E.W.; Lory, S.; Olson, M.V.
224 Nature 406, 959-964, 2000 . . . 
227 SCORES   Init1: 40    Initn: 40    Opt: 92    z-score: 127.0 E(): 8.2   
228 >>PIR2:B83179                                             (213 aa)
229  initn:  40 init1:  40 opt:  92 Z-score: 127.0 expect():  8.2
230 Smith-Waterman score: 92;    28.4% identity in 88 aa overlap
231  (22-109:9-86)
233                      10        20        30        40        50        60
234 test.gcg     VXCAAEFDFMEKETPLRYTKTLLLPVVLVVFVAIVRKIISDMWGVLAKQQTHVRKHQFDH
235                                   | :|:||  |: |:  |   :||::|  ::::   ::| 
236 B83179                    MEGFLQTALSFPTVLFSFLLILAII---YWGIVALGMVEIDVLDLDA
237                                   10        20           30        40    
239                      70        80        90       100       110       120
240 test.gcg     GELVYHALQLLAYTALGILIMRLKLFLTPYMCVMASLICSRQLFGWLFCKVHPGAIVFVI
241                :|  | |     :|: |: :|||  :|   |:: |    ::|:|::|           
242 B83179       ESVVDGAGQA---EGLAALLAKLKLNGVPVTLVLTLL----SFFAWFLCYFVQLWLLSAL
243                  50           60        70            80        90       
245                     130       140                                        
246 test.gcg     LAAMSIQGSANLQTQWKSTASLALET                                  
247                                                                          
248 B83179       PLGWLRYPLGAVVAVGALFLAAPLAATLCRPLRPLFRKLESTSSKSVLGQVAVVRSGRVT
249              100       110       120       130       140       150       
253 ! Distributed over 1 thread.
254 !      Start time: Mon Aug 25 13:23:54 2003
255 ! Completion time: Mon Aug 25 13:25:12 2003
257 ! CPU time used:
258 !        Database scan:  0:01:34.1
259 ! Post-scan processing:  0:00:00.6
260 !       Total CPU time:  0:01:34.7
261 ! Output File: test.fasta