Merge branch 'master' of ssh://blastura@repo.or.cz/srv/git/ailab3
[ailab3.git] / rapport.tex
blobc8b82fa41e57ada0a92b488433e48bc891942530
1 \documentclass[a4paper, 12pt]{article}
2 \usepackage[swedish]{babel}
3 \usepackage[utf8]{inputenc}
4 \usepackage{verbatim}
5 \usepackage{fancyhdr}
6 \usepackage{graphicx}
7 \usepackage{parskip}
8 % Include pdf with multiple pages ex \includepdf[pages=-, nup=2x2]{filename.pdf}
9 \usepackage[final]{pdfpages}
10 % Place figures where they should be
11 \usepackage{float}
13 % vars
14 \def\title{Projekt}
15 \def\preTitle{Laboration 3: Information Retrieval \& Extraction}
16 \def\kurs{Artificiell Intelligens med inriktning mot kognition och
17 design B, ht 2008}
19 \def\namn{Anton Johansson}
20 \def\mail{dit06ajn@cs.umu.se}
21 \def\namnett{Victor Zamanian}
22 \def\mailett{dit06vzy@cs.umu.se}
24 \def\handledareEtt{Dennis Olsson, denniso@cs.umu.se}
25 \def\inst{datavetenskap}
26 \def\dokumentTyp{Laborationsrapport}
28 \begin{document}
29 \begin{titlepage}
30 \thispagestyle{empty}
31 \begin{small}
32 \begin{tabular}{@{}p{\textwidth}@{}}
33 UMEÅ UNIVERSITET \hfill \today \\
34 Institutionen för \inst \\
35 \dokumentTyp \\
36 \end{tabular}
37 \end{small}
38 \vspace{10mm}
39 \begin{center}
40 \LARGE{\preTitle} \\
41 \huge{\textbf{\kurs}} \\
42 \vspace{10mm}
43 \LARGE{\title} \\
44 \vspace{15mm}
45 \begin{large}
46 \namn, \mail \\
47 \namnett, \mailett
48 \end{large}
49 \vfill
50 \large{\textbf{Handledare}}\\
51 \mbox{\large{\handledareEtt}}
52 \end{center}
53 \end{titlepage}
55 \pagestyle{fancy}
56 \rhead{\footnotesize{\today}}
57 \lhead{\footnotesize{\namn, \mail \\ \namnett, \mailett}}
58 \chead{}
59 \lfoot{}
60 \cfoot{}
61 \rfoot{}
63 \section*{Sammanfattning}
64 Denna rapport går igenom olika verktyg för ''Data-mining''. Regexp,
65 XPath ...?
67 Labbspecifikation finns att läsa på:\\
68 \verb!http://www.cs.umu.se/kurser/5DV063/HT08/lab3.html!
70 \newpage
71 \tableofcontents
72 \newpage
74 \rfoot{\thepage}
75 \pagenumbering{arabic}
77 \section{Introduktion}
78 % till ämnet.
79 Reguljära uttryck är uttryck som innehåller olika syntax för att
80 identifiera specifika textsträngar ur en större mängd text. Enligt
81 \cite{speech} härstammar Reguljära uttryck från Allan Turings (1936)
82 modell för aritmetisk beräkning, även kallad Turingmaskin. Denna
83 maskin var abstrakt, ett tanke experiment, för att utföra beräkningar.
84 % TODO Church-Turings hypotes säger att varje tänkbar process kan
85 % utföras av en Turingmaskin, och alltså finns det rent principiellt
86 % inte någon mer kraftfull beräkningsmekanism. Enligt wikipedia
87 % http://sv.wikipedia.org/wiki/Turingmaskin
89 Inspirerad av Turings arbete skapade sedan Warren McCulloch och Walter
90 Pitts (1943) en förenklad modell för neuronen, se \cite{norvig}
91 kapitel 18.
93 Stephen Cole Kleene definierade sedan (1951 och 1956) Ändlig
94 automation, Reguljära uttryck och bevisade dess likhet.
96 Både Reguljära uttryck och Ändlig automation är en del av det en
97 språktyp som brukar kallas Reguljära språk, (''Regular Language'').
99 I boken \cite{speech} ger man ett exempel på hur Ändlig automation och
100 Reguljära uttryck förhåller sig till varandra. Säg att man ska
101 definiera ett naturligt språk, för enkelhets skull försöker vi
102 definiera vad som är ''ko-språk''. Vi kan säga att korrekt
103 ''ko-språk'' definieras av kombinationerna:
105 \begin{verbatim}
106 Muu!
107 Muuu!
108 Muuuu!
110 \end{verbatim}
112 Detta skulle kunna beskrivas med en modell för Finite-state automation
113 enligt figur nedan.
115 \begin{figure}[H]
116 \begin{center}
117 \includegraphics[width=110mm]{images/state.pdf}
118 \caption{Ändlig automation för ''ko-språk''}
119 \label{state.pdf}
120 \end{center}
121 \end{figure}
123 Tillstånden \verb!q0-q4! är de giltiga tillstånd som finns, q1 är
124 starttillståndet och q4 representerar sluttillstånd. Pilarna i figuren
125 markerar möjliga förflyttningar mellan tillstånden.
127 Det korresponderande reguljära uttrycket skulle vara
128 \verb?/Muu+!/?. Det Reguljära uttrycket är allt som står inom
129 \verb!/!-tecknen. Man läser det som man läser det ungefär som man
130 läser vanlig text. \verb!M! är tillåtet starttillstånd, följt av ett
131 \verb!u!, sedan markerar operatorn \verb!u+! att en eller flera
132 \verb!u! är tillåtna. Meningen avslutas med \verb?!?, vilket markerar
133 sluttillståndet. % Se sektion TODO för mer info om regexp syntax.
135 \section{Syfte}
136 % med uppgiften, beskrivet med egna ord.
137 Syftet med rapporten är att fördjupa sig inom ett smalt ämne inom
138 området Artificiell Intelligens och presentera teori för det valda
139 ämnet på ett vetenskapligt sätt.
141 \section{Metodbeskrivning}
142 %: beskrivning av metod, material, design och procedur
144 \section{Litteraturstudie}
145 %, teoretisk fördjupning
147 \section{Resultat}
148 % innehållande sammanställning/analys av eventuell testdata,
149 % implementering av algoritmer osv.
151 \section{Diskussion}
152 % av resultatet, koppling till tidigare studier.
154 \section{Slutsats}
157 %. Använd minst två referenser utöver kursboken.
158 \bibliographystyle{alpha}
159 \bibliography{books}
161 \end{document}