allow for deselecting records while keeping it in the set under consideration. used...
[zcc.git] / ztargets / irspy-short.rb
blob410e0bb82e19b6e93c6ea6f892119a05c1c43b66
1 ## Jason Ronallo\r
2 # May 2007\r
3 \r
4 require 'rubygems'\r
5 require 'hpricot'\r
6 require 'open-uri'\r
7 require "rexml/document"\r
8 require "rexml/xpath"\r
9 #couldn't do m = 340\r
11 #Hpricot.buffer_size = 262144\r
12 m = 0\r
14 all_lines = []\r
15 i = 0\r
17 puts "And we begin!"\r
18 while m < 4000\r
19   puts "m = #{m}"\r
20   puts "This is going to take a while...."\r
22   #STDIN.gets\r
23   doc = open("http://irspy.indexdata.com/find.html?cql.anywhere=&dc.title=&zeerex.country=&net.protocol=z39.50&net.host=&net.port=&net.path=&zeerex.libType=&dc.description=&dc.creator=&_sort=&_search=Search&_count=20&_skip=#{m-20}"){\r
24     |f| Hpricot(f) }\r
26     #fields = doc.search(/"//a[@title='Raw XML record']")\r
27     #fields = doc.search("//a")\r
28     #puts fields.inspect\r
30     all_xml = []\r
31     #puts doc\r
32     (doc/"//a[@title='Raw XML record']").each do |link|\r
33       xml_address = "http://irspy.indexdata.com" + link.attributes['href']\r
34       puts xml_address\r
35       file = Net::HTTP.get(URI.parse(xml_address))\r
36       all_xml << file\r
37     end\r
39     full_xml = "<root>" + all_xml.join("\n") + "</root>"\r
41     #puts full_xml\r
43     ######xml_doc = REXML::Document.new full_xml\r
44     #puts xml_doc\r
46     \r
47     File.open("irspy#{i}.xml", "w") do |f|\r
48       f.puts full_xml\r
49       puts "written to file: #{i}"\r
50     end\r
51  \r
52     i += 1\r
53     m += 20\r
54     #sleep 10\r
55 end\r