1 \documentclass[titlepage, twoside,
a4paper,
12pt
]{article
}
2 \usepackage[swedish
]{babel
}
3 \usepackage[utf8
]{inputenc}
8 % Include pdf with multiple pages ex \includepdf[pages=-, nup=2x2]{filename.pdf}
9 \usepackage[final
]{pdfpages
}
10 % Place figures where they should be
15 \def\preTitle{Laboration
3: Information Retrieval \& Extraction
}
16 \def\kurs{Artificiell Intelligens med inriktning mot kognition och
19 \def\namn{Anton Johansson
}
20 \def\mail{dit06ajn@cs.umu.se
}
21 \def\namnett{Victor Zamanian
}
22 \def\mailett{dit06vzy@cs.umu.se
}
24 \def\handledareEtt{Dennis Olsson, denniso@cs.umu.se
}
25 \def\inst{datavetenskap
}
26 \def\dokumentTyp{Laborationsrapport
}
32 \begin{tabular
}{@
{}p
{\textwidth}@
{}}
33 UMEÅ UNIVERSITET
\hfill \today \\
34 Institutionen för
\inst \\
41 \huge{\textbf{\kurs}} \\
50 \large{\textbf{Handledare
}}\\
51 \mbox{\large{\handledareEtt}}
59 \rhead{\footnotesize{\today}}
60 \lhead{\footnotesize{\namn,
\mail \\
\namnett,
\mailett}}
65 \fancyfoot[LE,RO
]{\thepage}
69 Reguljära uttryck (Regular Expressions) är uttryck som innehåller
70 olika syntax för att identifiera, eller ''matcha'', specifika
71 textsträngar ur en större mängd text. Det finns många olika
72 användningsområden för reguljära uttryck inom området Artificiell
73 Intelligens, till exempel att hämta data från dokument på Internet och
74 tolka det utifrån någon preferens; ''Sök (och ersätt)''-funktioner i
75 ordbehandlare och textredigerare; och tolkning och validering av data,
76 till exempel datum-, telefon-, och personnummerinmatning i
90 \pagenumbering{arabic
}
92 % TODO @anton - Problem-solving as search, basic to AI, Norvig.
94 \section{Introduktion
}
96 Denna rapport går igenom användandet av Reguljära uttryck (Regular
97 Expressions på engelska, även förkortat som ''regexp'' eller bara
98 ''regex'') med avseende på informationshämtning inom området
99 Artificiell Intelligens.
101 Rapporten är formulerad och utförd enligt specifikation på sidan:\\
103 \verb!http://www.cs.umu.se/kurser/
5DV063/HT08/assignments/lab3-spes-ht08.html!
107 % med uppgiften, beskrivet med egna ord.
108 %% Syftet med rapporten är att fördjupa sig inom ett smalt ämne inom
109 %% området Artificiell Intelligens och presentera teori för det valda
110 %% ämnet på ett vetenskapligt sätt.
112 Syftet med rapporten är att undersöka hur reguljära uttryck fungerar,
113 och hur kan de kan användas inom ämnet Artificiell Intelligens.
115 \section{Metodbeskrivning
}
116 %: beskrivning av metod, material, design och procedur
117 Denna rapport är sammanställd främst genom en litteratur\-studie inom
118 om\-rådet Artificiell Intelligens i förhållande till Reguljära uttryck.
119 Information och tankar är samlade från böcker och internetsidor, för
120 att försöka få en överblick över de Reguljära uttryckens betydelse och
121 användande inom om\-rådet.
124 %, teoretisk fördjupning, f d Litteraturstudie
125 Enligt Jurafski
\emph{et al.
} \cite{speech
} härstammar Reguljära
126 uttryck från Alan Turings modell (
1936) för aritmetisk beräkning, även
127 kallad Turingmaskin. Denna maskin var abstrakt, ett tankeexperiment,
128 för att utföra beräkningar.
129 % TODO Church-Turings hypotes säger att varje tänkbar process kan
130 % utföras av en Turingmaskin, och alltså finns det rent principiellt
131 % inte någon mer kraftfull beräkningsmekanism. Enligt wikipedia
132 % http://sv.wikipedia.org/wiki/Turingmaskin
133 Inspirerad av Turings arbete skapade sedan Warren McCulloch och Walter
134 Pitts (
1943) en förenklad modell för neuronen, se
\cite{norvig
}
135 kapitel
18. Stephen Cole Kleene definierade sedan (
1951 och
1956) ändlig
136 automation (Finite Automation) och reguljära uttryck och påvisade deras
137 likhet. Både reguljära uttryck och Finite Automation är en del av den språktyp
138 som brukar kallas
\emph{reguljära språk
}, (Regular Language).
140 I
\cite{speech
} av Jurafski
\emph{et al.
} ger man ett exempel på hur
141 Finite automation och Reguljära uttryck förhåller sig till
142 varandra. Säg att man ska definiera ett naturligt språk, för enkelhets
143 skull försöker vi definiera vad som är ''ko-språk''. Vi kan säga att
144 korrekt ''ko-språk'' definieras av kombinationerna:
153 Detta skulle kunna beskrivas med en modell för
\emph{Finite-state
154 automation
} (ändlig automat) enligt Figur~
\ref{fig:finauto
}.
158 \includegraphics[width=
110mm
]{images/state.pdf
}
159 \caption{Ändlig automat för ''ko-språk''
}
164 Tillstånden
\verb!q0-q4! är de giltiga tillstånd som finns,
\verb!q1!
165 är start\-tillståndet och
\verb!q4! representerar sluttillstånd. Pilarna
166 i figuren markerar möjliga för\-flyttningar mellan till\-stånden.
168 Denna information går även att representera som en
169 \emph{State-transition-tabell
}, som i Tabell~
\ref{tab:statetranstable
}.
173 \begin{tabular
}{|c|l|l|l|
}
175 &
\multicolumn{3}{|c|
}{Indata
} \\
177 Tillstånd & M & u & ! \\
186 \caption{State-transition-tabell för ''ko-språk''.
}
187 \label{tab:statetranstable
}
190 State-transistion-tabeller läses uppifrån och ner. Starttillståndet
0
191 har en giltig förflyttning till tillstånd
1, detta gäller
192 enbart för indata M, för alla andra indata finns inga giltiga
193 förflyttningar, detta markeras med
0.
195 Det korresponderande
\textbf{Reguljära uttrycket
} för att beskriva
196 ''ko-språk'' skulle vara:
202 Man läser det ungefär som man läser vanlig text.
\verb!M! är tillåtet
203 starttillstånd, följt av ett
\verb!u!, sedan markerar operatorn
204 \verb!u+! att en eller flera
\verb!u! är tillåtna. Meningen avslutas
205 med
\verb?!?, vilket leder till sluttillståndet i exemplet.
206 % Se sektion TODO för mer info om regexp syntax.
209 % Står på sidan 848 i Norvig.
211 Ett reguljärt uttryck består enkelt nog av text som ska matchas. Om
212 man vill matcha texten ''hej'' i en textsträng ''hoppsanhejsan'' så
213 blir det reguljära uttrycket helt enkelt bara ''hej'' och ''hej'':et i
214 ''hoppsanhejsan'' matchas. Däremot är det mer sällan man använder
215 reguljära uttryck för sådana enkla matchningar. Man vill i stället
216 använda dem till att matcha
\textbf{generella mönster
}. Ett exempel på
217 ett mönster skulle kunna vara en e-postadress på formen
218 \verb!<användarnamn>@<subdomän>.<domän>!, där
\verb!<användarnamn>!
219 kan innehålla (i detta exempel) alla siffror, alla små och stora
220 bokstäver (från A till Z), understreck, punkt, procenttecken,
221 bindestreck och plus.
223 I stället för att behöva skriva ett textmönster för varje e-postadress
224 som är möjlig att konstruera (i praktiken oräkneligt antal
225 variationer) kan man använda sig av speciella ''texthändelser'' för
226 att beskriva till exempel början
\slash slutet av ett ord och
227 början
\slash slutet av en hel sträng. Man kan också definiera
228 teckenklasser som man vill inkludera i sitt uttryck, till exempel alla
229 stora bokstäver, alla små bokstäver, siffror, eller till och med
230 vilken godtycklig kombination av tecken som helst. I
231 Tabell~
\ref{tab:texthandelser
} visas en kort tabell med några
232 texthändelser och deras motsvarande reguljära uttryck.
237 \begin{tabular
}{|c|p
{4cm
}|l|l|l|
}
239 \textbf{regex-uttryck
} &
\textbf{Texthändelse
} &
\textbf{Exempel
} &
\textbf{Matchar
} \\
\hline
241 \verb!
\b! & Början eller slutet på ett ord &
\verb!
\b!text
\verb!
\b! & ''ord1
\textbf{text
} ord3'' \\
\hline
243 \verb!^! & Början av en textsträng &
\verb!^!text & ''
\textbf{text
} i början'' \\
\hline
245 \verb!$! & Slutet av en textsträng &
\verb!lutet$! & ''text i s
\textbf{lutet
}'' \\
\hline
247 \verb!
[A-Za-z0-
9]! & Definierar klass med tecknen A till Z, a
248 till z och
0 till
9. &
\verb!
[abc0-
9]! & ''
\textbf{b
}r
\textbf{a
} text med
\textbf{23} te
\textbf{c
}ken'' \\
252 \verb!.! (punkt) & Står för vilket tecken som helst. &
\verb!^.! & ''
\textbf{t
}ext'' \\
\hline
255 \caption{Texthändelser och deras motsvarande reguljära uttryck.
}
256 \label{tab:texthandelser
}
259 Om man vill matcha en e-postadress i löpande text skulle man alltså
260 vilja använda sig av
\verb!
\b! runt uttrycket för att markera att det
261 som finns runt omkring adressen måste vara ordavgränsare av något
262 slag, dvs. någon typ av blanktecken. Vill man däremot kontrollera
263 indata från till exempel ett formulärfält där det är meningen att en
264 användare ska ange enbart en e-postadress är det däremot önskvärt att
265 omsluta uttrycket med
\verb!^! i början och
\verb!$! i slutet för att
266 markera att hela strängen måste
\textbf{börja och sluta med
} adressen.
268 Låt oss definiera en teckenklass med alla siffror, dvs
269 ''
\verb!
[0-
9]!'' och använda det i ett reguljärt uttryck, till exempel
270 ''
\verb!
\b\$
[0-
9]!''. Om vi sedan försöker matcha strängen ''\$
10000''
271 med det mönstret kommer vi endast matcha följande (fet stil)
272 ''
\textbf{\$
1}0000''. Detta beror på att teckenklassen vi definierat
273 matchar bara
\textit{det första
} tecknet som platsar i
274 klassen. Självklart skulle vi vilja kunna matcha flera tecken i en och
275 samma teckenklass utan att behöva definiera en likadan klass för hela
276 det antalet tecken vi vill matcha. Därför har man definierat något som
277 kallas kvantifierare som gör att man kan bestämma hur många gånger man
278 vill matcha en specifik klass, ett mönster eller bara ett tecken (så
279 kallade ''tokens''). Tabell
\ref{tab:kvantifs
} beskriver olika
285 \begin{tabular
}{|c|p
{4cm
}|l|p
{4cm
}|
}
287 \textbf{kvantifierare
} &
\textbf{Beskrivning
} &
\textbf{Exempel
} &
\textbf{Matchar
} \\
\hline
289 \verb!?! & Matchar föregående uttryck noll eller en gång. &
290 colou
\verb!?!r & ''
\textbf{colour
}'' och ''
\textbf{color}'' \\
\hline
292 \verb!+! & Matchar föregående uttryck en eller fler gånger. &
293 Mu
\verb:+:! & ''
\textbf{Mu!
}'', ''
\textbf{Muu!
}'',
294 ''
\textbf{Muuu!
}'',
\ldots \\
\hline
296 \verb!*! & Matchar föregående uttryck noll eller flera gånger &
297 10\verb!*! & ''
\textbf{1}'', ''
\textbf{10}'', ''
\textbf{100}'',
300 \verb!
{!$n$
\verb!,!$m$
\verb!
}! & Matchar föregående uttryck
301 minst $n$ gånger och som mest $m$ gånger. &
302 \verb!^!
1\verb!
[!
0\verb!
]{!
1,
5\verb!
}! & ''
\textbf{10}'',
303 ''
\textbf{100}'', ''
\textbf{1000}'', ''
\textbf{10000}'' och
304 ''
\textbf{100000}'' men inte ''
1'' och inte ''
1000000'' (
6
305 nollor eller mer).\\
\hline
308 \caption{Reguljära kvantifierare, deras funktion och exempel på vad som matchas.
}
312 Nu kan vi beskriva många olika variationer av mönster genom olika
313 text\-händelser och kvantifierare, men vad händer om man vill inkludera
314 till exempel ett frågetecken i sitt mönster? Då måste man ''komma
315 runt'' (escape) frågetecknets regexp-betydelse för att komma åt dess
316 textuella värde. Detta görs vanligtvis med bakåtvänt snedstreck
317 (
\textbackslash). Till exempel måste vi i vårt e-post\-adress\-mönster
318 matcha en punkt (i domännamnet), som vi måste uttrycka som
321 Nu har vi tillräckligt stor kunskap för att uttrycka ett reguljärt
322 uttryck som matchar en generell e-post\-adress. Vi börjar med att
323 beskriva segmentet
\linebreak\verb!<användarnamn>!. Användar\-namnet
324 kunde som sagt var innehålla små och stora bokstäver (från A till Z),
325 siffror, punkt, under\-streck, procent\-tecken, plus\-tecken och
326 binde\-streck. Vi uttrycker detta som
332 där det sista plustecknet som sagt innebär att alla de tecken som den
333 definierade tecken\-klassen innefattar måste matchas minst en
334 gång. Plustecknet inom tecken\-klass\-definitionen tolkas som ett
335 ''textplus'' och inte som ett ''regex-plus''. Vi lägger också till
336 ordavgränsare som gör att uttrycket bara matchar användarnamnet i
337 början av ett nytt ord (dvs. själva e-post\-adressen) och inte matchar
338 ett användarnamn när det kommer direkt efter ett icke tillåtet
339 användarnamnstecken. Hade vi glömt ordavgränsaren hade följade
340 användarnamn matchats:
341 \\ ''
\copyright\&
\texttrademark\textexclamdown\textbf{sven.svensson
}@host.doman''
342 vilket vi inte vill eftersom de icke tillåtna tecknen inte bör finnas
345 Vi uttrycker sedan domännamnet som
348 [A-Za-z0-
9.-
]+\.
[A-Za-z
]{2,
4}\b
351 där plustecknet betyder precis samma sak som i uttrycket för
352 användar\-namnet och ''
\verb!\.!'' står för punktens textuella
353 värde. Sedan finns det ett krav på det som står efter punkten i
354 domännamnet, nämligen att denna ''token'' måste bestå av minst
2 och
355 som mest
4 tecken, därav kvantifieraren
\verb!
{!
2\verb!,!
4\verb!
}!.
356 \verb!
\b! i slutet av uttrycket innebär att det måste finnas en
357 ordavgränsare efter domännamnet.
359 Sätter vi nu samman dessa uttryck med ett snabel-a i mitten får vi ett
360 uttryck för en generell e-post\-adress
\textbf{i löptext
}. Vill vi
361 definiera ett uttryck för att undersöka om totala textmängden består
362 av endast en e-post\-adress kan vi ersätta
\verb!
\b! i början med
363 \verb!^! och i slutet med
\verb!$! (till exempel om vi vill
364 kontrollera ett formulärfält på en webbsida)
365 \cite{regexinfo:website
}. De två olika uttrycken ser ut som följer:
368 \b[A-Za-z0-
9._
%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b
374 ^
[A-Za-z0-
9._
%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}$
377 % Olika sätt att matcha e-mail adresser.
378 % \b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}\b
379 % ^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,4}$
380 % http://www.regular-expressions.info/email.html
383 % innehållande sammanställning/analys av eventuell testdata,
384 % implementering av algoritmer osv.
386 % TODO - resultat, användningsområden kopplade till AI.
387 Följande avsnitt berör olika applikationer av reguljära uttryck inom
388 ämnet Artificiell intelligens.
390 \subsubsection{ELIZA
}
391 Mer avancerade former av Reguljära uttryck kan använda sig av
392 minnesfunktioner för att spara tidigare matchningar. I
393 programmeringssråket Perl kan man göra ersättningar på formen:
398 Här ersätts alla
\verb!hej! med
\verb!hejsan!. För att spara träffar i
399 sökningen och ersätta med samma ord i ersättningssträngen använder man
400 grupper inom parenteser
\verb!()!. Den sträng som en grupp matchar kan
401 sedan refereras till.
\verb!
\1!, till exempel, representerar
402 innehållet i första gruppen.
405 s/jag heter (
\w+)/på dig
\1, trevligt att höras/
408 Ovanstående Reguljärt uttryck skulle ersätta ''Hej jag heter Anton''
409 med ''Hej på dig Anton, trevligt att höras''. Denna typ av Reguljära
410 ersättningar utgör grunden för implementationen av Chatroboten ELIZA,
411 som utvecklades av Joseph Weizenbaum, se
\cite{speech
}. Här följer en
412 kort konversation med Emacs implementering av ELIZA:
415 \item[-
] Hello my name is Anton
416 \item[-
] \textbf{ELIZA:
} How do you do? What brings you to see me?
417 \item[-
] I need help with some Artificial Intelligence questions
418 \item[-
] \textbf{ELIZA:
} Why do you say you need help with some
419 artificial intelligence questions?
420 \item[-
] I'm writing an essay about Regular Expressions
421 \item[-
] \textbf{ELIZA:
} Is it because of your plans that you say you
422 are writing an essay about regular expressions?
424 \item[-
] \textbf{ELIZA:
} I see... Well, what makes you believe this is so?
427 Ovanstående exempel vittar om att denna typ av chatrobot har en
428 relativt fast ram med frågor och svar att följa. Det tar inte lång tid
429 för en mänsklig användare att förstå att det inte är en mänsklig
430 motpart man kommunicerar med. ELIZA är implementerad för att svara på
431 frågor som rör psykoterapi--så fort man lämnar det bekanta ämnet blir
432 följdfrågorna ologiska ur ett mänskligt perspektiv.
434 Emacs implementation av ELIZA har en mängd hårdkodade svar. Följande
435 kodsnutt visar svaren som kan fås av indata som innehåller vissa
436 nyckelord gällade död:
441 '((this is not a healthy way of thinking \.)
442 ((doc$ bother) you\, too\, may die someday \?)
443 (i am worried by your obsession with this topic!)
444 (did you watch a lot of crime and violence on television as a child \?))
449 Även mängder med vanliga ord sparas för att på ett bättre sätt kunna
450 tolka indata, exempelvis vanliga synonymer, pronomen, verb och förkortningar:
464 \subsubsection{Tolkning av indata
}
465 Det finns en mängd användbara Reguljära uttryck för att tolka och på
466 ett vettigt sätt behandla indata som ett datorsystem får från
467 användare. Det kan gälla exempelvis verifiering av e-postadresser,
468 datum, person- och telefonnummer och så vidare. Detta är användbart
469 vid all typ av indata från användare, och i hög grad aktuellt när det
470 gäller forumlär på Internet.
472 Till exempel kan man istället för att kräva att användare ska skriva
473 för- och efternamn i separata rutor använda Reguljära uttryck för att
474 försöka tolka vad som är vad. Samma sak gäller adresser och
475 telefonnummer. Det kan vara intressant att ha information och ett
476 telefonnummers riktnummer och landskod, utan att för den sakens skull
477 kräva att en användare ska behöva specificera allt sådant manuellt.
478 Följer man bara vanliga konventioner för hur telefonnummer skrivs kan
479 man skapa ett Reguljärt uttryck för att fånga upp all denna
480 information ur en enda textsträng. All sådan här tolkning av indata är
481 väldigt bra ur användarsynpunkt, ''Don't make me click'', som Aza
482 Raskin säger i en presentation om användarvänlighet på webbsidor
483 \cite{raskin:website
}.
485 %@TODO fixa url löpande
486 Ett annat bra exempel på hur Reguljära uttryck kan underlätta
487 inmatning av data finns implementerat i den webbaserade
488 kalendertjänsten från Google Inc.
489 (
\begin{footnotesize
}http://google.com/calendar/
\end{footnotesize
}).
490 För att skapa en ny händelse i kalendern kan användaren klicka på
491 aktuell dag och skriva till exempel ''Äta mat hos mamma kl
492 10-
12''. Detta genererar en händelse med rubrik ''Äta mat hos mamma''
493 och placeras med start kl
10 och slut kl
12 i kalendern. Ett Reguljärt
494 uttryck för detta skulle kunna vara att matcha de första siffrorna
495 efter
\verb!(kl|klockan)!, dessa borde vara starttimme för
496 händelsen. Följs dessa siffror av
\verb!.! eller
\verb!:! utan
497 mellanslag efter skulle nästa två siffror kunna representera minuter,
498 nästa siffror, eventuellt efter ett bindestreck, kan representera
499 sluttid. På detta sätt kan man med hjälp av Reguljära uttryck
500 representera naturligt språk för datorn. Vidare skulle extra nyckelord
501 kunna läggas in, till exempel
\verb!hos!,
\verb!på! eller
\verb!i! för
502 att markera att det som följer är en plats, eller
\verb!med! för att
503 markera att följande text innehåller information om deltagare i
506 \subsubsection{Datahämtning
} \label{datah
}
507 Reguljära uttryck kan användas för att hämta och tolka information ur
508 en större mängd data. Ett trivialt exempel är till exempel att försöka
509 svara på frågan, ''Vad är det för väder i Umeå idag?'' baserat på
510 innehållet från sidan:
513 http://www.tfe.umu.se/weather/
1440/
900/
10/sv-SE/now.htm
516 Html-taggen som visar den aktuella temperaturen i Umeå har följande
519 <td class="tempfont" ... >
0,
7 °C</td>
522 Det som skiljer denna tagg från de andra på sidan är attributet
\linebreak
523 \verb!class="tempfont"!. Den aktuella temperaturen visas mellan
524 \verb!<td ...>! och
\verb!</td>!, det innebär att det i detta exempel
525 skulle vara $
0,
7\,^
{\circ}\mathrm{C
}$ dagen sidan hämtades. Följande
526 Reguljära uttryck matchar den strängen som innehåller temperatur i sin
527 första grupp, dvs uttrycket inom
\verb!()!, som senare kan refereras
531 <td class="tempfont.+?>(
[0-
9]+,
[0-
9]+)
534 Med denna information kan man sedan förenkla och säga att bra väder
535 gäller för alla $temperaturer
\geq 15$ och dåligt väder gäller för
536 $temperaturer <
15$. Detta Reguljära uttryck är mycket specifikt och
537 enbart användbart på denna specifika sida så länge temperaturen
538 inkapslas exakt av den HTML-taggen och eventuella attribut.
541 % av resultatet, koppling till tidigare studier.
542 Reguljära uttryck har visat sig vara ett mycket användbart verktyg vid
543 hämtning och tolkning av data ur text, dock kan det bli väldigt
544 beräknings\-tungt om man använder sig av de mer komplicerade former av
545 Reguljära uttryck där man sparar undan grupper av träffar i
546 minnet. Den simplaste formen av Reguljära uttryck har en komplexitet
547 på $O(n)$ där $n$ är antalet tecken i texten där ett mönster söks.
548 Dessa typer av Reguljära uttryck kan implementeras med en
549 ''State-transition-tabell'', se sid
\pageref{tab:statetranstable
}. Vid
550 användande av mer avancerade Reguljära uttryck kan körningstiden öka
551 exponentiellt i förhållande till textmängden som ska sökas igenom.
553 För analys av data i XML-format som i sektionen om Datahämtning
554 \textbf{\ref{datah
}} finns lämpade metoder såsom XQuery, Expat och
558 Reguljära uttryck har visat sig vara mycket användbara inom vitt
559 spridda användningsområden. Användningsområdena som tagits upp i denna
560 rapport är enbart ett litet urval av de omfattande möjligheter som
561 Reguljära uttryck erbjuder. Vare sig man har använder sig av Reguljära
562 uttryck för att manipulera text direkt i en textredigerare eller om
563 man bygger in uttrycken i olika typer av applikationer och system så
564 erbjuder de Reguljära uttrycken nästintill oändliga möjligheter för
567 %. Använd minst två referenser utöver kursboken.
568 \bibliographystyle{alpha
}