add test case for RSS url munging
[ikiwiki.git] / doc / todo / Google_Sitemap_protocol.mdwn
blobea8ee7f031eb5cc9f9aa8cb1e13c04b7a98f1af6
1 It would be useful if ikiwiki was able to create [google sitemap][1] files to allow easy indexing. 
3 [1]: https://www.google.com/webmasters/tools/docs/en/protocol.html
5 > Sitemaps are particularly beneficial when users can't reach all areas of a
6 > website through a browseable interface. (Generally, this is when users are
7 > unable to reach certain pages or regions of a site by following links). For
8 > example, any site where certain pages are only accessible via a search form
9 > would benefit from creating a Sitemap and submitting it to search engines.
11 What I don't get is exactly how ikiwiki, as a static wiki that's quite
12 deeply hyperlinked, benefits from a sitemap. The orphans plugin can
13 produce a map of pages that other pages do not link to, if you're worried
14 about having such pages not found by web spiders.
16 --[[Joey]]
18 While pages are very interlinked, most people use ikiwiki for blogging. Blogging produces pages at random intervals and google apparently optimizes their crawls to fit the frequency of changes. For me it's not so often that the contents of my blog changes, so google indexes it quite infrequently. Sitemaps are polled more often than other content (if one exists) so it's lighter for the site and for search engines (yes, google) to frequently poll it instead. So it's not that pages can't be found, but it's lighter for the site to keep an up to date index.
20 -- Sami
22 > I've written a sitemaps plugin for my own use.  With a little tweaking it
23 > should be usable for others.  See [my git
24 repo](http://localhost/git/?p=website.git;a=blob;f=plugins/googlesitemap.pm)
25 for an example.  You will probably need to strip out the metadata variables I
26 > gather, and tweak to generate proper priorities.  The code is pretty simple
27 > though and self-explanatory.
29 > -- CharlesMauch
31 >> presumably you really mean [xtermin.us rather than localhost](http://xtermin.us/git/?p=website.git;a=blob;f=plugins/googlesitemap.pm)
32 >> -- [[KarlMW]]
34 >>>[xtermin.us rather than localhost](http://xtermin.us/git/?p=website.git;a=blob;f=plugins/googlesitemap.pm) is 404 now.
35 >>> -- weakish
38 Although it is not able to read the meta-data from files, using google-sitemapgen [works well for me](http://bzed.de/posts/2010/06/creating_a_google_sitemap_for_ikiwiki/) to create a sitemap for my ikiwiki installation. -- [[bzed|BerndZeimetz]]
40 There is a [sitemap XML standard](http://www.sitemaps.org/protocol.php) that ikiwiki needs to generate for. 
42 # Google Webmaster tools and RSS
44 On [Google Webmaster tools](https://www.google.com/webmasters/tools) you can substitute an RSS feed as a sitemap. Do not use Atom as if you have malformed XHTML it will fail to parse and you will get a ERROR message like so:
46         We were unable to read your Sitemap. It may contain an entry we are unable to recognize. Please validate your Sitemap before resubmitting.
48 [Google should grok feeds as sitemaps.](http://www.google.com/support/webmasters/bin/answer.py?answer=34654) Or rather [[plugins/inline]] should be improved to support the [sitemap protocol](http://sitemaps.org/protocol.php) natively.
50 -- [[Hendry]]
53 Took me a minute to figure this out so I figured I'd share the steps I took:
55 * Added rss=>1 and allowrss=>1 to my setup file
56 * Created a new page where the RSS would be created with this content, replacing "first_page" with the page in my wiki with the earliest date:
58 <pre>
59 \[[!inline  pages="* and !*/Discussion and created_after(first_page)" archive="yes" rss="yes" ]]
60 </pre>