modified: makefile
[GalaxyCodeBases.git] / c_cpp / etc / jellyfish / doc / jellyfish.man
blob8b2ffe6f425b752af00fba350466bd03b6e44698
1 '\" t
2 .\" Manual page created with latex2man on Sat Apr 23 05:39:15 EDT 2011
3 .\" NOTE: This file is generated, DO NOT EDIT.
4 .de Vb
5 .ft CW
6 .nf
7 ..
8 .de Ve
9 .ft R
11 .fi
13 .TH "JELLYFISH" "1" "2010/10/1" "k\-mer counter " "k\-mer counter "
14 .SH NAME
16 .PP
17 Jellyfish
18 is a software to count k\-mers in DNA sequences. 
19 .PP
20 .SH SYNOPSIS
22 jellyfish count
23 [\fB\-o\fP\fIprefix\fP]
24 [\fB\-m\fP\fImerlength\fP]
25 [\fB\-t\fP\fIthreads\fP]
26 [\fB\-s\fP\fIhashsize\fP]
27 [\fB--both\-strands\fP]
28 \fIfasta\fP
29 [\fIfasta \&...
30 \fP]
31 .br
32 jellyfish merge
33 \fIhash1\fP
34 \fIhash2\fP
35 \&...
36 .br
37 jellyfish dump
38 \fIhash\fP
39 .br
40 jellyfish stats
41 \fIhash\fP
42 .br
43 jellyfish histo
44 [\fB\-h\fP\fIhigh\fP]
45 [\fB\-l\fP\fIlow\fP]
46 [\fB\-i\fP\fIincrement\fP]
47 \fIhash\fP
48 .br
49 jellyfish query
50 \fIhash\fP
51 .PP
52 .SH DESCRIPTION
54 .PP
55 Jellyfish
56 is a k\-mer counter based on a multi\-threaded hash 
57 table implementation. 
58 .PP
59 To count k\-mers, use a command like: 
60 .PP
61 .Vb
62 jellyfish count \-m 22 \-o output \-c 3 \-s 10000000 \-t 32 input.fasta
63 .Ve
64 .PP
65 This will count the the 22\-mers in species.fasta with 32 threads. The 
66 counter field in the hash uses only 3 bits and the hash has at least 
67 10 million entries. Let the size of the table be s=2^l and the max 
68 reprobe value is less than 2^r, then the memory usage per entry in 
69 the hash is (in bits, not bytes) 2k\-l+r+1\&. 
70 .PP
71 To save space, the hash table supports variable length counter, i.e. a 
72 k\-mer occurring only a few times will use a small counter, a k\-mer 
73 occurring many times will used multiple entries in the hash. The 
74 \fB\-c\fP
75 specify the length of the small counter. The tradeoff is: a 
76 low value will save space per entry in the hash but will increase the 
77 number of entries used, hence maybe requiring a larger hash. In 
78 practice, use a value for \fB\-c\fP
79 so that most of you k\-mers 
80 require only 1 entry. For example, to count k\-mers in a genome, 
81 where most of the sequence is unique, use \fB\-c\fP\fI1\fP
82 or 
83 \fB\-c\fP\fI2\fP\&.
84 For sequencing reads, use a value for 
85 \fB\-c\fP
86 large enough to counts up to twice the coverage. 
87 .PP
88 When the orientation of the sequences in the input fasta file is not 
89 known, e.g. in sequencing reads, using \fB--both\-strands\fP
90 (\fB\-C\fP)
91 makes the most sense. 
92 .PP
93 The following subcommand are used to look at the result: histo, dump, stats. 
94 .PP
95 .SH OPTIONS
97 .SS COUNT
98 .PP
99 Count k\-mers or qmers in fasta or fastq files 
101 Usage: jellyfish count [OPTIONS]... [file.f[aq]]... 
104 \fB\-h\fP,\fB--help\fP
105  Print help and exit 
107 \fB--full\-help\fP
108  Print help, including hidden options, and exit 
110 \fB\-V\fP,\fB--version\fP
111  Print version and exit 
113 \fB\-m\fP,
114 \fB--mer\-len\fP\fI=INT\fP
115  Length of mer (mandatory) 
117 \fB\-s\fP,
118 \fB--size\fP\fI=LONG\fP
119  Hash size (mandatory) 
121 \fB\-t\fP,
122 \fB--threads\fP\fI=INT\fP
123  Number of threads (default=1) 
125 \fB\-o\fP,
126 \fB--output\fP\fI=STRING\fP
127  Output prefix (default=mer_counts) 
129 \fB\-c\fP,
130 \fB--counter\-len\fP\fI=Length\fP
131  in bits 
132 Length of counting field (default=7) 
134 \fB--out\-counter\-len\fP\fI=Length\fP
135  in bytes 
136 Length of counter field in output 
137 (default=4) 
139 \fB\-C\fP,\fB--both\-strands\fP
140  Count both strand, canonical representation 
141 (default=off) 
143 \fB\-p\fP,
144 \fB--reprobes\fP\fI=INT\fP
145  Maximum number of reprobes (default=62) 
147 \fB\-r\fP,\fB--raw\fP
148  Write raw database (default=off) 
150 \fB\-q\fP,\fB--quake\fP
151  Quake compatibility mode (default=off) 
153 \fB--quality\-start\fP\fI=INT\fP
154  Starting ASCII for quality values 
155 (default=64) 
157 \fB--min\-quality\fP\fI=INT\fP
158  Minimum quality. A base with lesser quality 
159 becomes an N (default=0) 
161 \fB\-L\fP,
162 \fB--lower\-count\fP\fI=LONG\fP
163  Don\&'t output k\-mer with count < lower\-count 
165 \fB\-U\fP,
166 \fB--upper\-count\fP\fI=LONG\fP
167  Don\&'t output k\-mer with count > upper\-count 
169 \fB--matrix\fP\fI=Matrix\fP
170  file Hash function binary matrix 
172 \fB--timing\fP\fI=Timing\fP
173  file Print timing information 
175 .SS HISTO
177 Create an histogram of k\-mer occurrences 
179 Usage: jellyfish histo [OPTIONS]... [database.jf]... 
182 \fB--help\fP
183  Print help and exit 
185 \fB\-V\fP,\fB--version\fP
186  Print version and exit 
188 \fB\-s\fP,
189 \fB--buffer\-size\fP\fI=Buffer\fP
190  length 
191 Length in bytes of input buffer 
192 (default=10000000) 
194 \fB\-l\fP,
195 \fB--low\fP\fI=LONG\fP
196  Low count value of histogram (default=1) 
198 \fB\-h\fP,
199 \fB--high\fP\fI=LONG\fP
200  High count value of histogram 
201 (default=10000) 
203 \fB\-i\fP,
204 \fB--increment\fP\fI=LONG\fP
205  Increment value for buckets (default=1) 
207 \fB\-t\fP,
208 \fB--threads\fP\fI=INT\fP
209  Number of threads (default=1) 
211 \fB\-o\fP,
212 \fB--output\fP\fI=STRING\fP
213  Output file (default=/dev/fd/1) 
215 .SS DUMP
217 Dump k\-mer counts 
219 Usage: jellyfish stats [OPTIONS]... [database.jf]... 
222 \fB\-h\fP,\fB--help\fP
223  Print help and exit 
225 \fB\-V\fP,\fB--version\fP
226  Print version and exit 
228 \fB\-c\fP,\fB--column\fP
229  Column format (default=off) 
231 \fB\-t\fP,\fB--tab\fP
232  Tab separator (default=off) 
234 \fB\-L\fP,
235 \fB--lower\-count\fP\fI=LONG\fP
236  Don\&'t output k\-mer with count < lower\-count 
238 \fB\-U\fP,
239 \fB--upper\-count\fP\fI=LONG\fP
240  Don\&'t output k\-mer with count > upper\-count 
242 \fB\-o\fP,
243 \fB--output\fP\fI=STRING\fP
244  Output file (default=/dev/fd/1) 
246 .SS STATS
248 Statistics 
250 Usage: jellyfish stats [OPTIONS]... [database.jf]... 
253 \fB\-h\fP,\fB--help\fP
254  Print help and exit 
256 \fB--full\-help\fP
257  Print help, including hidden options, and exit 
259 \fB\-V\fP,\fB--version\fP
260  Print version and exit 
262 \fB\-L\fP,
263 \fB--lower\-count\fP\fI=LONG\fP
264  Don\&'t output k\-mer with count < lower\-count 
266 \fB\-U\fP,
267 \fB--upper\-count\fP\fI=LONG\fP
268  Don\&'t output k\-mer with count > upper\-count 
270 \fB\-v\fP,\fB--verbose\fP
271  Verbose (default=off) 
273 \fB\-o\fP,
274 \fB--output\fP\fI=STRING\fP
275  Output file (default=/dev/fd/1) 
277 .SS MERGE
279 Merge jellyfish databases 
281 Usage: jellyfish merge [OPTIONS]... [database.jf]... 
284 \fB\-h\fP,\fB--help\fP
285  Print help and exit 
287 \fB\-V\fP,\fB--version\fP
288  Print version and exit 
290 \fB\-s\fP,
291 \fB--buffer\-size\fP\fI=Buffer\fP
292  length 
293 Length in bytes of input buffer 
294 (default=10000000) 
296 \fB\-o\fP,
297 \fB--output\fP\fI=STRING\fP
298  Output file (default=mer_counts_merged.jf) 
300 \fB--out\-counter\-len\fP\fI=INT\fP
301  Length (in bytes) of counting field in output 
302 (default=4) 
304 \fB--out\-buffer\-size\fP\fI=LONG\fP
305  Size of output buffer per thread 
306 (default=10000000) 
308 \fB\-v\fP,\fB--verbose\fP
309  Be verbose (default=off) 
311 .SS CITE
313 How to cite Jellyfish\&'s paper 
315 Usage: jellyfish cite [OPTIONS]... 
318 \fB\-h\fP,\fB--help\fP
319  Print help and exit 
321 \fB\-V\fP,\fB--version\fP
322  Print version and exit 
324 \fB\-b\fP,\fB--bibtex\fP
325  Bibtex format (default=off) 
327 \fB\-o\fP,
328 \fB--output\fP\fI=STRING\fP
329  Output file (default=/dev/fd/1) 
331 .SH VERSION
334 Version: 1.1 of 2010/10/1
336 .SH BUGS
340 .B *
341 jellyfish merge has not been parallelized and is very
342 slow. 
344 .SH COPYRIGHT & LICENSE
347 Copyright 
348 (C)2010, Guillaume Marcais \fBguillaume@marcais.net\fP
349 and Carl Kingsford \fBcarlk@umiacs.umd.edu\fP\&.
352 License 
353 This program is free software: you can redistribute it 
354 and/or modify it under the terms of the GNU General Public License 
355 as published by the Free Software Foundation, either version 3 of 
356 the License, or (at your option) any later version. 
358 This program is distributed in the hope that it will be useful, but 
359 WITHOUT ANY WARRANTY; without even the implied warranty of 
360 MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU 
361 General Public License for more details. 
363 You should have received a copy of the GNU General Public License 
364 along with this program. If not, see 
365 <\fBhttp://www.gnu.org/licenses/\fP>.
367 .SH AUTHORS
369 Guillaume Marcais 
371 University of Maryland 
373 \fBgmarcais@umd.edu\fP
375 Carl Kingsford 
377 University of Maryland 
379 \fBcarlk@umiacs.umd.edu\fP
381 .\" NOTE: This file is generated, DO NOT EDIT.