t/data/test.embl2sq

   1 ID   SC10H5 standard; DNA; PRO; 4870 BP.
   2 XX
   3 AC   AL031232;
   4 XX
   5 DE   Streptomyces coelicolor cosmid 10H5.
   6 XX
   7 KW   integral membrane protein.
   8 XX
   9 OS   Streptomyces coelicolor
  10 OC   Eubacteria; Firmicutes; Actinomycetes; Streptomycetes;
  11 OC   Streptomycetaceae; Streptomyces.
  12 XX
  13 RN   [1]
  14 RP   1-4870
  15 RA   Oliver K., Harris D.;
  16 RT   ;
  17 RL   Unpublished.
  18 XX
  19 RN   [2]
  20 RP   1-4870
  21 RA   Parkhill J., Barrell B.G., Rajandream M.A.;
  22 RT   ;
  23 RL   Submitted (10-AUG-1998) to the EMBL/GenBank/DDBJ databases.
  24 RL   Streptomyces coelicolor sequencing project,
  25 RL   Sanger Centre, Wellcome Trust Genome Campus, Hinxton, Cambridge CB10 1SA
  26 RL   E-mail: barrell@sanger.ac.uk
  27 RL   Cosmids supplied by Prof. David A. Hopwood, [3]
  28 RL   John Innes Centre, Norwich Research Park, Colney,
  29 RL   Norwich, Norfolk NR4 7UH, UK.
  30 XX
  31 RN   [3]
  32 RP   1-4870
  33 RA   Redenbach M., Kieser H.M., Denapaite D., Eichner A.,
  34 RA   Cullum J., Kinashi H., Hopwood D.A.;
  35 RT   "A set of ordered cosmids and a detailed genetic and physical
  36 RT   map for the 8 Mb Streptomyces coelicolor A3(2) chromosome.";
  37 RL   Mol. Microbiol. 21(1):77-96(1996).
  38 XX
  39 CC   Notes:
  40 CC
  41 CC   Streptomyces coelicolor sequencing at The Sanger Centre is funded
  42 CC   by the BBSRC.
  43 CC
  44 CC   Details of S. coelicolor sequencing at the Sanger Centre
  45 CC   are available on the World Wide Web.
  46 CC   (URL; http://www.sanger.ac.uk/Projects/S_coelicolor/)
  47 CC
  48 CC   CDS are numbered using the following system eg SC7B7.01c.
  49 CC   SC (S. coelicolor), 7B7 (cosmid name), .01 (first CDS),
  50 CC   c (complementary strand).
  51 CC
  52 CC   The more significant matches with motifs in the PROSITE
  53 CC   database are also included but some of these may be fortuitous.
  54 CC
  55 CC   The length in codons is given for each CDS.
  56 CC
  57 CC   Usually the highest scoring match found by fasta -o is given for
  58 CC   CDS which show significant similarity to other CDS in the database.
  59 CC   The position of possible ribosome binding site sequences are
  60 CC   given where these have been used to deduce the initiation codon.
  61 CC
  62 CC   Gene prediction is based on positional base preference in codons
  63 CC   using a specially developed Hidden Markov Model (Krogh et al.,
  64 CC   Nucleic Acids Research, 22(22):4768-4778(1994)) and the FramePlot
  65 CC   program of Bibb et al., Gene 30:157-66(1984) as implemented at
  66 CC   http://www.nih.go.jp/~jun/cgi-bin/frameplot.pl. CAUTION:  We may
  67 CC   not have predicted the correct initiation codon.  Where possible
  68 CC   we choose an initiation codon (atg, gtg, ttg or (att)) which is
  69 CC   preceded by an upstream ribosome binding site sequence (optimally
  70 CC   5-13bp before the initiation codon).  If this cannot be identified
  71 CC   we choose the most upstream initiation codon.
  72 CC
  73 CC   IMPORTANT: This sequence MAY NOT be the entire insert of
  74 CC   the sequenced clone.  It may be shorter because we only
  75 CC   sequence overlapping sections once, or longer, because we
  76 CC   arrange for a small overlap between neighbouring submissions.
  77 CC
  78 CC   Cosmid 10H5 lies to the right of 3A7 on the AseI-B genomic restriction
  79 CC   fragment.
  80 XX
  81 FH   Key             Location/Qualifiers
  82 FH
  83 FT   source          1..4870
  84 FT                   /organism="Streptomyces coelicolor"
  85 FT                   /strain="A3(2)"
  86 FT                   /clone="cosmid 10H5"
  87 FT   CDS             complement(<1..327)
  88 FT                   /note="SC10H5.01c, unknown, partial CDS, len >109 aa;
  89 FT                   possible integral membrane protein"
  90 FT                   /gene="SC10H5.01c"
  91 FT                   /product="hypothetical protein SC10H5.01c"
  92 FT   CDS             complement(350..805)
  93 FT                   /note="SC10H5.02c, probable integral membrane protein, len:
  94 FT                   151 aa; similar to S. coelicolor hypothetical protein
  95 FT                   TR:O54194 (EMBL:AL021411) SC7H1.35 (155 aa), fasta scores;
  96 FT                   opt: 431 z-score: 749.8 E(): 0, 53.5% identity in 114 aa
  97 FT                   overlap."
  98 FT                   /product="putative integral membrane protein"
  99 FT                   /gene="SC10H5.02c"
 100 FT   RBS             complement(812..815)
 101 FT                   /note="possible RBS upstream of SC10H5.02c"
 102 FT   CDS             complement(837..1301)
 103 FT                   /note="SC10H5.03c, probable integral membrane protein, len:
 104 FT                   154 aa"
 105 FT                   /product="putative integral membrane protein"
 106 FT                   /gene="SC10H5.03c"
 107 FT   RBS             complement(1308..1312)
 108 FT                   /note="possible RBS upstream of SC10H5.03c"
 109 FT   CDS             complement(1427..1735)
 110 FT                   /note="SC10H5.04c, unknown, len: 103 aa; possible membrane"
 111 FT                   /gene="SC10H5.04c"
 112 FT                   /product="hypothetical protein SC10H5.04c"
 113 FT   RBS             complement(1738..1741)
 114 FT                   /note="possible RBS upstream of SC10H5.05c"
 115 FT   misc_feature    1800^1801
 116 FT                   /note="Zero-length feature added to test Bioperl parsing"
 117 FT   CDS             1933..2022
 118 FT                   /note="SC10H5.05, questionable ORF, len: 29 aa"
 119 FT                   /gene="SC10H5.05"
 120 FT                   /product="hypothetical protein SC10H5.05"
 121 FT   CDS             2019..2642
 122 FT                   /note="SC10H5.06, probable membrane protein, len: 207 aa;
 123 FT                   similar to S. coelicolor TR:O54192 SC7H1.33c (191 aa),
 124 FT                   fasta scores; opt: 312 z-score: 355.2 E(): 1.6e-12, 36.8%
 125 FT                   identity in 182 aa overlap"
 126 FT                   /product="putative membrane protein"
 127 FT                   /gene="SC10H5.06"
 128 FT   RBS             2627..2631
 129 FT                   /note="possible RBS upstream of SC10H5.07"
 130 FT   CDS             2639..4048
 131 FT                   /note="SC10H5.07, unknown, len: 469 aa"
 132 FT                   /gene="SC10H5.07"
 133 FT                   /product="hypothetical protein SC10H5.07"
 134 FT   CDS             complement(4100..4297)
 135 FT                   /note="SC10H5.08c, unknown, len: 65 aa"
 136 FT                   /gene="SC10H5.08c"
 137 FT                   /product="hypothetical protein SC10H5.08c"
 138 FT   RBS             complement(4314..4319)
 139 FT                   /note="possible RBS upstream of SC10H5.08c"
 140 FT   CDS             complement(4439..>4870)
 141 FT                   /note="SC10H5.09c, probable integral membrane protein,
 142 FT                   partial CDS len: >143 aa; some similarity in C-terminus to
 143 FT                   S. coelicolor hypothetical protein TR:O54106
 144 FT                   (EMBL:AL021529) SC10A5.15 (114 aa), fasta scores; opt: 145
 145 FT                   z-score: 233.8 E(): 9.2e-06, 33.3% identity in 81 aa
 146 FT                   overlap. Overlaps and extends SC3A7.01c"
 147 FT                   /product="putative integral membrane protein"
 148 FT                   /gene="SC10H5.09c"
 149 FT   misc_feature    4769..4870
 150 FT                   /note="overlap with cosmid 3A7 from 1 to 102"
 151 XX
 152 SQ   Sequence 4870 BP; 769 A; 1717 C; 1693 G; 691 T; 0
 153 SQ   other;
 154      gatcagtaga cccagcgaca gcagggcggg gcccagcagg ccggccgtgg cgtagagcgc        60
 155      gaggacggcg accggcgtgg ccaccgacag gatggctgcg gcgacgcgga cgacaccgga       120
 156      gtgtgccagg gcccaccaca cgccgatggc cgcgagcgcg agtcccgcgc tgccgaacag       180
 157      ggcccacagc acactgcgca gaccggcggc cacgagtggc gccaggacgg tgcccagcag       240
 158      gagcagcagg gtgacgtggg cgcgcgctgc actgtggccg ccccgtccgc ccgacgcgcg       300
 159      cggctcgtca tctcgcggtc ccaccaccgg tcggccccat tactcgtcct caaccctgtg       360
 160      gcgactgacg ttccccggac aggtcgtacc gattgccgcc acgccccacc acgcacaggg       420
 161      cccagacgac gaagcctgac atggtgatca tgacgacgga ccacaccggg tagtacggca       480
 162      gcgagaggaa gttggcgatg atcaccagcc cggcgatggc gaccccggtg acacgtgccc       540
 163      acatcgccgt tttgagcagc ccggcgctga cgaccatggc gagcgcgccg agcgcgagat       600
 164      ggatccaccc ccacccggtg agatcgaact ggaaaacgta gttgggcgtg gtgacgaaga       660
 165      cgtcgtcctc ggcgatggcc atgatgcccc ggaagaggct gagcagcccg gcgaggaaga       720
 166      gcatcaccgc cgcgaaggcg gtaaggcccg tcgcccattc ctgcctcgcg gtgtgtgccg       780
 167      ggtggtgggt atgtgacgtg gtcatctcgg acctcgtttc gtggaatgcg gatgcttcag       840
 168      cgagcggagg cgccggtgcc cgccgcgccc gtgtgccctg ccgggccgtg accggacagg       900
 169      accaattcct tcgccttgcg gaactcctcg tccgtgatgg caccccggtc tcggatctcg       960
 170      gagagccggg ccagctcgtc gacgctgctg gacccgccgc ccacggtctt cctgatgtag      1020
 171      gcgtcgaact cctcctgctg agcccgtgcc cgcgttgtct cccggctgcc catgttcttg      1080
 172      ccgcgagcga tcacgtagac gaaaacgccc aggaagggca ggaggatgca gaacaccaac      1140
 173      cagccggcct tcgcccagcc actcagtccg tcgtcccgga agatgtcggt gacgacgcgg      1200
 174      aagagcagga cgaaccacat gatccacagg aagatcatca gcatcgtcca gaaggcaccc      1260
 175      agcagtgggt agtcgtacgc caggtaggtc tgtgcactca tgtccgtcct ccgtcctccg      1320
 176      gggcgcggcc cggcggccct cgttccgtac tgacatcagg gtggtcacgg gtcccaccgg      1380
 177      tcggcatcac ccggcacggg tgagtggggc gccgaggccg tcgtggtcag gcccgggaca      1440
 178      ccggtgtgac cctggtggaa ggacgcgtcc cgtggggcac gcaccgccgg ccgagggcga      1500
 179      ccaccgcctc ggtcagtccg agcaggccca gccacaggcc gagaagtcgg gtcagggcac      1560
 180      gggccgactc ggcgggcagc gcgaggacga cgattccggc gacgtcgacg gccagcgggt      1620
 181      tgcgcaggcc cagcactccg gccggggcgc ccggcaccag cgtggcgagg gccgatgcca      1680
 182      tgagccaggt ccaggaaccc ccaagcctgg cgaggacgtg cgccggatcg ctcaatgctc      1740
 183      cggtgaccgc cccgcccgac ccgtctccct tgtcggcagg ttccgccgca tcacgcggaa      1800
 184      cggagatggc tcccctgtgg atcgggcggc cgctgcgggg ccgcccggtt ggtcggtcgg      1860
 185      tgagcgccgg actccccctt cagctcttcc agggtcgggg tcgacaccga ggtcctggat      1920
 186      cacccgtcag gggtgatccg ggcatgccgt cgtggcggtg aggtgggata cgggaacgat      1980
 187      cggcccacgg gggaccggac gagacgaaga gacgtgagat gagcgatacg aactcgggcg      2040
 188      gcgggcgcca ggccgcttcc ggaccggccc cacgtggccg actccctttc cgccggcgcg      2100
 189      tggccctggt cgctgtcgca cgtcccctga tcgtcacggt cggtctcgtc accgcctact      2160
 190      acctgcttcc cctggacgag agactcagcg ccggcaccct ggtgtcgctg gtgtgcggac      2220
 191      tgctcgcagt ccttctggtg ttctgctggg aggtgcgggc catcacgcgc tccccgcatc      2280
 192      cgcgtctgag agcgatcgag ggcctggccg ccacgctggt gctgttcctg gtcctcttcg      2340
 193      ccggctccta ctacctgctg ggtcgctccg cgcccggctc cttcagcgag ccgctgaaca      2400
 194      ggacggacgc gctgtacttc actctgacca cgttcgccac cgtcggcttc ggggacatca      2460
 195      ccgcacgctc cgagaccggg cggatcctca cgatggcgca gatgacggga gggctactgc      2520
 196      tcgtcggagt cgccgcccgg gtgctggcga gcgcagtgca ggcggggctg caccgacagg      2580
 197      gccggggacc ggcggcatcg ccacgctccg gtgctgcgga ggagccggag gccggaccat      2640
 198      gaccgtaccc ggtggcttca ccgcctccct gccgccggcc gagcgagccg cgtacggcag      2700
 199      gaaggcccgt aaaagggcct cacgttcgtg ccacggctgg tacgagccgg ggcagcggcg      2760
 200      gcctgacccc gtcgacctgc tggagcgcca gtccggcgag cgtgtcccgg cactcgtgcc      2820
 201      catccgctac ggtcgcatgc tggagtcgcc gttccgcttc taccgcggtg cggcagcgat      2880
 202      catggcggcg gacctggcac ccctgcccag cagcggactc caggtgcaat tgtgcgggga      2940
 203      cgcgcacccg ttgaacttcc ggctcctggc ctcaccggag cgccggctgg tcttcgacat      3000
 204      caacgacttc gacgagacgc tgcccggccc cttcgagtgg gacgtcaaac ggctggcggc      3060
 205      cggattcgtg atcgcggccc ggtcgaacgg cttctcgtcc aaggaacaga accgcaccgt      3120
 206      tcgggcctgt gtgcgggcct accgggagcg catgagggag ttcgccgtca tgccgaccct      3180
 207      ggacatctgg tacgcccagg acgacgccga ccacgtacgg caactgctgg ctacggaggc      3240
 208      cagaggagaa gctgagcagc ggctcaggga cgcggctgcg aaggcccgca cacgcaccca      3300
 209      catgagggcg ttcgcgaagc tcacccgcgt cacggccgag ggccggcgca tcacccccga      3360
 210      cccgccgctg atcaccccac tcggcgatct gctcaccgac ccggccgaag ccggccggga      3420
 211      ggaggaactg cggtccgtcg tgaacggcta cgcacggtcc ctgccgcccg agcgccggca      3480
 212      cctgctgcgt cactaccggc ttgtggacat ggcgcgcaag gtggtcggcg tcggcagtgt      3540
 213      cggcacccgc tgctgggtac tgcttctgct cggcagggac gacgacgatc ctctgctgct      3600
 214      ccaggccaag gaagcctcgg aatcggtgct ggcggcccac acgggcggcg aacgctacga      3660
 215      ccatcagggc cgcagggtcg tggccggcca gcgtctgatc cagaccaccg gtgacatctt      3720
 216      tctcggctgg gcgcgcgtca ccggcttcga cggaaaggcc cgggacttct acgtgcgtca      3780
 217      actgtgggac tggaagggcg tcgcgcggcc ggaaaccatg gggcccgacc tgctctccct      3840
 218      cttcgcccgg ctgtgcggtg cctgcctggc gagggcccac gcccgttccg gtgaccccgt      3900
 219      cgcgctcgcc gcgtacctgg gcggcagcga ccgcttcgac ggcgcgctca ccgagttcgc      3960
 220      ccagtcctac gccgatcaga atgaacgcga ccacgaagct ctgctggcgg cctgccgctc      4020
 221      cggcagggtc acggccgccc gtttgtgagg ccgacccggg aacggccggc gggctggcac      4080
 222      acaccgccgc cggtcggcgt cattccggaa gctgccgcat ctccaggacg cgcaggccca      4140
 223      gcgactggca gcgggtgagc aacccgtaca gatgggcctc gtcgatcacc gtgccgaaca      4200
 224      gcacggtctg gccggacatg acgacgtgct ccagctccgg gaacgcgttg gccagcgtcc      4260
 225      gtgacaggtg tccctcgacg cggatctcgt agcgcacgag cggtcctttc accgtaggag      4320
 226      ctcgggacac cgcccggggc tccgggtcgg acggtgctct tggtgacgag cctgcgcctc      4380
 227      gtcgccctcc ggtgccctca cccagcacag gtgactccaa ccgcagtgtc agtgcctttc      4440
 228      agtgcgtcac tgtgatcttg acgacgacga tcaccaggcc gagcagtacg ttgaccgtcg      4500
 229      cggtgacggc caccagtcgt cgcgaggcgc ccgcgcggtg cgccgcggcg acggaccagc      4560
 230      ccacctgacc ggcgacggcg acggacagcg ccagccacag ggtgcccggg acgtccagcc      4620
 231      ccagtacggg gctgacggcg atggccgcgg ccggaggcac ggcggccttg acgatcggcc      4680
 232      actcctcgcg gcacacacgc agaatcaccc gccggtccgg agtgtgccgc gcgagacgcg      4740
 233      ctccgaacag ttcggcgtgg acgtgagcga tccagaacac caagctggtg agcaacagca      4800
 234      gaagaaccag ttcggcgcgg gggaacgagc ccagggtgcc ggcgccgatc acgacggagg      4860
 235      ctgcgagcat                                                             4870
 236 //
 237