Merge pull request #5114 from solgenomics/topic/solgs/kinship-result-load
[sgn.git] / docs / 03_managing_breeding_data / 03_21.md
blob27ba93fab68ce0bd95f65d1201601154f7340d35
1 ---
2 title: "3.21 Managing Sequence Metadata"
3 layout: doc_page
4 ---
6 <!-- TOC-START -->
7 * TOC
8 {:toc}
9 <!-- TOC-END -->
11 ![]({{"assets/images/sequence_metadata_manage.png" | relative_url }})
13 ---
15 ### 3.21.1 What is Sequence Metadata?
17 Sequence Metadata is a feature that allows for the efficient storage and retrieval of sequence annotations for a specific region along a reference genome.  The annotation data can contain a primary "score" value and any number of secondary key/value attribute data.  For example, Sequence Metatadata can store MNase open chromatin scores for every 10 basepairs along the reference genome as well as genome-wide association study (GWAS) statistics, including the trait information associated with the result.  This data can then be filtered by position and/or scores/attribute values and even cross-referenced with markers stored in the database.
20 ### 3.21.2 Loading Sequence Metadata
22 Sequence Metadata can be loaded into the database using a gff3-formatted file.  The following columns are used to load the data:
24 - **#1 / seqid:** The name of the database feature (ie chromosome) the metadata is associated with (The feature name must already exist as a feature in the database)
25 - **#4 / start:** The metadata's start position
26 - **#5 / end:** The metadata's end position
27 - **#6 / score:** (optional) The primary score attribute of the metadata
28 - **#9 / attributes:** (optional) Secondary key//value attributes to be saved with the score.  These should be formatted using the gff3 standard (key1=value1;key2=value2).  The attribute key cannot be either <em>score</em>, <em>start</em>, or <em>end</em>.
30 To upload the gff3 file:
32 1. Go to the **Manage &gt; Sequence Metadata** page
33 2. Click the **Upload Sequence Metadata** button
34 3. On Step 2 of the Wizard, select the Type of data to be uploaded
35     - This groups similar datasets together in the same Data Type category
36 4. On Step 3 of the Wizard, select an existing Protocol or create a new one
37     - The Protocol is used to describe how the data was generated and define the score value and any secondary attributes.  Adding the attributes (and their descriptions) to the Protocol will allow the Sequence Metadata queries to filter the data based on the value of one or more of these attributes.  Attributes not defined in the Protocol will still be stored and displayed on retrieval, but will not be able to be used in a search filter.
38 5. Finally, select and upload your gff3 file to the database.  The database will verify the format of the file before its contents are stored.
41 ### 3.21.2 Searching Sequence Metadata
43 To retrieve stored Sequence Metadata, go to the **Search &gt; Sequence Metadata** page.
46 #### Basic Search 
48 The basic Sequence Metadata search options include selecting the reference genome and species, the chromosome, and (optionally) the start and/or end position(s) along the reference genome.  In addition, one or more specific protocols can be selected to limit the results.
50 ![]({{"assets/images/sequence_metadata_search_basic.png" | relative_url }})
52 The Sequence Metadata search results are returned as a table, including the chromosome and start/stop positions of the annotation, along with the primary score value and any additional key/value attributes.  The markers column will include a list of marker names of any stored markers that are found within the start/stop positions of the Sequence Metadata.  The data can be downloaded as a table in an Excel or CSV file or a machine-readable (code-friendly) JSON file.  If the Sequence Metadata JBrowse configuration is set, the filtered results can be displayed as a dynamic JBrowse track.
54 ![]({{"assets/images/sequence_metadata_search_results.png" | relative_url }})
56 #### Advanced Search
58 Any number of advanced search filters can be applied to the query.  The advanced filters can limit the search results by the value of the primary score and/or any of the secondary attribute values.
60 ![]({{"assets/images/sequence_metadata_search_advanced.png" | relative_url }})
63 ### 3.21.3 Marker Integration
65 A table of Sequence Metadata annotations are embedded on the Marker/Variant detail page.  The table will include any annotations that span the poisiton of the marker (for data of the same reference genome and species).
67 ### 3.21.4 Sequence Metadata API
69 A publicly accessible RESTful API (Application Programming Interface) is available to query the database for Sequence Metadata directly from your programming environment (R, python, etc) to be used in analysis.  The data is returned in a JSON format.  Documentation for the API can be found on the **Manage &gt; Sequence Metadata** page