Fix a potential crash in html parsing code. How come it was never reported ?
[beagle.git] / doc / TODO
blob025bd4aa098f9b069584e24d4f8941d809573a03
2 Filters
3 =======
5 We need filters:
7    - MS Word/Powerpoint/Excel (clahey has bindings in Mono cvs for
8      libgsf)
9    - RTF
10    - mp3, ogg (and any other audio format that can carry metadata)
11    - pdf, postscript
12    - png, jpeg (and any other image format that can carry metadata)
13    - dvi (and maybe .tex -- we could just strip out the markup)
14    - Man pages
15    - Texinfo
16    - XML documentation format used by MonoDoc
17    - Code (throw away the code, extract comments and maybe strings)
18    - Abiword
19    - Gnumeric
21 - The OpenOffice filter should notice when files are encrypted and fail
22   gracefully.
25 Indexing
26 ========
28 Filesystem
29 ----------
31 * It would be cool if the crawler could descend into
32   compressed/tarred/zipped files.  Perhaps it could use the GNOME VFS
33   methods for this?
36 Misc
37 ----
39 * beagled is badly behaved!  It redirects stdout/stderr to /dev/null.
40   It should also do more initialization before forking.
42 * Backends should be able to publish information to be returned by "ping".
44 * We need better configure-time checks for missing dependencies.
46 * A relatively easy project for someone would be to write a little
47   viewer for IM Logs that could be launched by clicking on an IM Log
48   tile.  There is code in Util/ImLog.cs for parsing gaim logs.
50 Mail
51 ----
53 * It would be cool if the mail crawler could index MIME attachments
54   on mails in an mbox.  The mail indexer today just indexes the
55   text/plain parts of a mail; at the very least it could index the
56   HTML parts of a mail message.
58 Configuration
59 -------------
61 beagle-config GUI (fredrik?)
62 Hardening FSQ against breakage (root-inside-root, etc)