add smid dump script.
[SMMID.git] / root / src / about.tt2
blobf9bc998f8dfed86c23a8f26047f736e726afde20
1 \r<div id="content1">\r\r\r\r\r<h1>SMIDs: Unique identifiers for biogenic small molecules in <i>C. elegans</i>. </h1>\r</div>\r<div id="content3">\r<h2>1. The issue </h2>\rSmall molecules/secondary metabolites are referred to by a plethora of names and abbreviations. Some compounds are referred to by more than 10 different names, \rand in certain cases different compounds are referred to by the same name. Significantly, there is no established system for naming newly identified metabolites that would permit <b><i>database\r searching for small molecule metabolites in the same manner as for genes.</b></i> <b> <br/><br/>\r\rExample I</b> highlights the large number of acceptable names for a signaling molecule recently identified from <i>C. elegans</i>.\r\r </div> <div id="content2"> <br/><br/>\r\r<img src="/static/images/about_EXAMPLEI.png" /> <br/><br/>\r</div> <div id="content3">\r\r<b>Example II</b> highlights a case where two different compounds are referred to by overlapping sets of names. In this example, structure <b>A</b> \rshows "phenylpyruvic acid", frequently and somewhat \rmisleadingly referred to as "phenyl pyruvate", which based on IUPAC nomenclature would \rdenote compound <b>B</b>. However, referring to the sodium salt of <b>A</b> as "sodium phenylpyruvate"\rwould be considered correct: "phenylpyruvate" denotes a salt or ester of phenylpyruvic acid, \rwhereas "phenyl pyruvate" would refer to the phenyl ester of pyruvic acid. \r\r </div> <div id="content2"> <br/><br/>\r\r<img src="/static/images/about_EXAMPLEII.png" /> <br/><br/>\r</div> <div id="content3">\r\r\r<p>\rAmbiguities and parallel usage have prevented the development of effective text mining tools for small molecules. \rAs a result, effective sharing of small-molecule data in chemical biology and metabolomics is virtually impossible. \rEven experienced researchers familiar with the chemical nomenclature often have difficulty locating references \rfor a specific substance. Researchers that are less knowledgeable with chemical nomenclature face even greater \rdifficulties when trying to locate a specific substance or reference.\r \r</p>\r<h2>2. Existing naming schemes do not offer a viable solution</h2>\r<p>\r<u><b>CAS</b></u>: The Chemical Abstracting Service (CAS) assigns every new compound presented in the literature a unique Chemical Abstracts registry number (CAS#). \rFor example, using the CAS system the compounds shown above in <b>Example I</b> and <b>II</b> are referred to as 946524-24-9 (<b>Example I</b>) \r156-06-9 (<b>Example II, Structure A</b>), and 2149-49-7 (<b>Example II, Structure B</b>). Although the CAS system is useful for archiving the chemical literature, \rCAS numbers are cumbersome to use in scientific writing as they have no recognition value. Importantly, many biological journals are not indexed by CAS.  </p> \r<p><u><b>IUPAC</b></u>: The IUPAC nomenclature system is highly sophisticated. As a result, derivation and interpretation of IUPAC names requires extensive chemical knowledge. \rNon-chemists are frequently unable to determine whether two IUPAC names refer to the same compound or not.  In addition, IUPAC names are often exceedingly long and complicated\r and thus unsuitable for use in scientific writing. </p>\r<p><u><b>SMILES</b></u>: SMILES are useful as technical, unambiguous descriptors of chemical structures, but unsuitable as in-text identifiers.</p>\r\r\r<h2>3. A new proposal for naming biogenic small molecules/secondary metabolites in <i>C. elegans</i>: <u>SMIDs</u></h2>\r\r<p>\r<b>I.</b><i> Small molecules newly identified from the nematode <i>C. elegans</i> are assigned a \runique biogenic <u><b>S</b></u>mall <b><u>M</u></b>olecule <b><u>Id</b></u>entifier </i>(<b>SMID</b>)<i> consisting of <b>four lower case non-\ritalicized letters</b> that refer to the general structural class of the compound, <b>followed by a \rpound sign and a number.</b></i> This scheme is comparable to that used for genes and proteins: <a href="//www.wormbase.org/db/gene/gene?name=WBGene00013284;class=Gene/"<b><i>daf-22</b></i></a> \r(three letters, italicized, lower case) or <b>DAF-22</b> (non-italicized, upper case).\r</p>\r\r<u>Examples</u>:<br /><br/>\r\rMany pheromones in <i>C. elegans</i> belong to a class of glycosides known as <b><i>ascarosides</b></i>. Therefore, <b>ascr</b> was chosen as the four-letter SMID for this \rclass of compounds. \r\r<ul></div><div id="content1"><ul>\r\r<li><a href="//www.smmid.org/detail/ascr%231/"<b>ascr#1</b></a>:"daumone" or "C7" or "(6R-(tetrahydro-3'R,5'R-dihydroxy-6'S-methyl-2Hpyran-2'R-yloxy)-heptanoic acid" </li>\r\r </p></div> </ul><div id="content2"> <br/>\r\r<img src="/static/structures/ascr%231.png" /> <br/>\r</div> <div id="content1"><ul>\r\r<li><a href="//www.smmid.org/detail/ascr%234/"<b>ascr#4</b></a>:"nematone-1" or "5R-(3'-O-beta-D-glucosyl-tetrahydro-3'R,5'R-dihydroxy-6'Smethyl-2H-pyran-2'R-yloxy)-2-hexanone" </li>\r\r </div> </ul><div id="content2"> <br/>\r\r<img src="/static/structures/ascr%234.png" /> <br/>\r</div> <div id="content3">\r\r<br/>Similarly, steroids called <b><i>dafachronic acids</b></i> that regulate <i>C. elegans</i> development have been assigned the four-letter SMID "<b>dafa</b>":<br/>\r</div><div id="content1"><ul>\r<li><a href="//www.smmid.org/detail/dafa%231/"<b>dafa#1</b></a>:("delta4-dafachronic acid" or "3-keto-4-cholestenoic acid") </li>\r\r </div> </ul><div id="content2"> <br/>\r\r<img src="/static/structures/dafa%231.png" /> <br/>\r</div> <div id="content1"><ul>\r\r<li><a href="//www.smmid.org/detail/dafa%232/"<b>dafa#2</b></a>:("delta7-dafachronic acid" or "3-keto-7,(5a)-cholestenoic acid") </li>\r\r </div></ul> <div id="content2"> <br/>\r\r<img src="/static/structures/dafa%232.png" /> <br/>\r</div> <div id="content3">\r\r\r</ul>\r\r<p>\r<b>II.</b><i> Stereoisomers are distinguished by the addition of a second numeral.</i> The first discovered stereoisomer of any compound will be named with the ending .1, i.e. xxxx#x.1.\rFor example, in the case of ascr#6, (-)-5R-(3'R,5'R-dihydroxy-6'S-methyl-(2H)-tetrahydropyran-2'-yloxy)-2R-hexanol would be <a href="//www.smmid.org/detail/ascr%236.1/"<b>ascr#6.1</b></a>, and (-)-5R-(3'R,5'R-dihydroxy-6'S-methyl\r-(2H)-tetrahydropyran-2'-yloxy)-2S-hexanol would be <a href="//www.smmid.org/detail/ascr%232/"<b>ascr#6.2</b></a>.\r\r<p>\r<b>III.</b> <i>The SMID database is maintained by <b>Lukas Mueller</b> (METACYC SGN databases, Boyce Thompson Institute and Cornell University) and <b>Joshua Judkins</b> (Boyce Thompson Institute and Cornell University) in collaboration with <a href="//www.wormbase.org/"<b>Wormbase</b></a>. For each C. elegans metabolite, <a href="//www.smid-db.org/"<b>SMID-DB.org</b></a> provides:</i>: </p>\r<ul><p>      \r<li>Structure (structural drawing, SMILES)</p>\r<p>\r<li>Compound ID (common names, CAS, Beilstein, IUPAC)</p>\r<p>\r<li>Original reference(s)</p>\r<p>\r<li>List of references that mention the compound</p>\r<p>\r<li>Genes in associated pathways (e.g. receptors, biosynthetic enzymes)</p></ul>\r<p>\r<br/>\rAll gene entries at <a href="//www.smid-db.org/"<b>SMID-DB.org</b></a> are linked to <a href="//www.wormbase.org/"<b>Wormbase.org</b></a>.  <br/>\r\r<br/>\rFor questions and comments or to submit new compounds, please contact <b>smid-db@cornell.edu</b>.\r<br /> <br /><br/><br/>\r</div>\r\r\r\r