1 <?xml version="1.0" encoding="utf-8"?>
2 <!-- EN-Revision: 21829 -->
4 <sect1 id="zend.search.lucene.extending">
5 <title>Extensibilité</title>
7 <sect2 id="zend.search.lucene.extending.analysis">
8 <title>Analyse de texte</title>
11 La classe <classname>Zend_Search_Lucene_Analysis_Analyzer</classname> est utilisé par
12 l'indexeur afin de transformer en segments les champs texte du document.
16 Les méthodes <methodname>Zend_Search_Lucene_Analysis_Analyzer::getDefault()</methodname>
17 et <code>Zend_Search_Lucene_Analysis_Analyzer::setDefault()</code> sont utilisées pour
18 récupérer et définir l'analyseur par défaut.
22 Vous pouvez assigner votre propre analyseur de texte ou choisir parmi un ensemble
23 d'analyseurs prédéfinis :
24 <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text</classname> et
25 <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>
26 (par défaut). Tout deux interprètent les segments comme des séquences de lettres.
27 <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>
28 convertit tous les segments en minuscule.
32 Pour changer d'analyseur :
35 <programlisting language="php"><![CDATA[
36 Zend_Search_Lucene_Analysis_Analyzer::setDefault(
37 new Zend_Search_Lucene_Analysis_Analyzer_Common_Text());
39 $index->addDocument($doc);
43 La classe <classname>Zend_Search_Lucene_Analysis_Analyzer_Common</classname> a été conçu
44 pour être l'ancêtre de tous les analyseurs définis par l'utilisateur. L'utilisateur doit
45 uniquement définir les méthodes <methodname>reset()</methodname> et
46 <methodname>nextToken()</methodname>, qui prennent leur chaîne de caractères depuis la
47 propriété $_input et retournent les segments un par un (une valeur
48 <constant>NULL</constant> indique la fin du flux).
52 La méthode <methodname>nextToken()</methodname> doit appeler la méthode
53 <methodname>normalize()</methodname> sur chacun des segments. Ce qui vous permet
54 d'utiliser des filtres de segments avec votre analyseur.
58 Voici l'exemple d'analyseur personnalisé, qui accepte des mots contenant des chiffres
60 <example id="zend.search.lucene.extending.analysis.example-1">
61 <title>Analyseur de texte personnalisé</title>
62 <programlisting language="php"><![CDATA[
64 * Voici un analyseur de texte qui traite les mots contenant des chiffres comme
67 class My_Analyzer extends Zend_Search_Lucene_Analysis_Analyzer_Common
71 * Remet à Zéro le flux de segments
73 public function reset()
78 * API du flux de segmentation
79 * Récupère le segment suivant
80 * Retourne null à la fin du flux
82 * @return Zend_Search_Lucene_Analysis_Token|null
84 public function nextToken()
86 if ($this->_input === null) {
89 while ($this->_position < strlen($this->_input)) {
91 while ($this->_position < strlen($this->_input) &&
92 !ctype_alnum( $this->_input[$this->_position] )) {
95 $termStartPosition = $this->_position;
97 while ($this->_position < strlen($this->_input) &&
98 ctype_alnum( $this->_input[$this->_position] )) {
101 // Segment vide, fin de flux.
102 if ($this->_position == $termStartPosition) {
105 $token = new Zend_Search_Lucene_Analysis_Token(
106 substr($this->_input,
112 $token = $this->normalize($token);
113 if ($token !== null) {
116 // Continue si le segment est sauté
121 Zend_Search_Lucene_Analysis_Analyzer::setDefault(
128 <sect2 id="zend.search.lucene.extending.filters">
129 <title>Filtrage des segments</title>
132 L'analyseur <classname>Zend_Search_Lucene_Analysis_Analyzer_Common</classname> offre
133 aussi un mécanisme de filtrage des segments.
137 La classe <classname>Zend_Search_Lucene_Analysis_TokenFilter</classname> fournit une
138 interface abstraites pour ces filtres.
139 Vos propres filtres devraient étendre cette classe directement ou indirectement.
143 Chaque filtre personnalisé doit implémenter la méthode
144 <methodname>normalize()</methodname> qui devrait transformer le segment en entrée ou
145 signaler que le segment courant doit être sauté.
149 Il y a trois filtres déjà défini dans le sous-paquet d'analyse :
153 <classname>Zend_Search_Lucene_Analysis_TokenFilter_LowerCase</classname>
158 <classname>Zend_Search_Lucene_Analysis_TokenFilter_ShortWords</classname>
163 <classname>Zend_Search_Lucene_Analysis_TokenFilter_StopWords</classname>
170 Le filtre <code>LowerCase</code> filtre est déjà utilisé par défaut par l'analyseur
171 <classname>Zend_Search_Lucene_Analysis_Analyzer_Common_Text_CaseInsensitive</classname>.
175 Les filtres <code>ShortWords</code> et <code>StopWords</code> peuvent être utilisés avec
176 des analyseurs prédéfinis ou personnalisés comme ceci :
177 <programlisting language="php"><![CDATA[
178 $stopWords = array('a', 'an', 'at', 'the', 'and', 'or', 'is', 'am');
180 new Zend_Search_Lucene_Analysis_TokenFilter_StopWords($stopWords);
182 new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
183 $analyzer->addFilter($stopWordsFilter);
184 Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
186 <programlisting language="php"><![CDATA[
187 $shortWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_ShortWords();
189 new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
190 $analyzer->addFilter($shortWordsFilter);
191 Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
196 Le constructeur <classname>Zend_Search_Lucene_Analysis_TokenFilter_StopWords</classname>
197 prends un tableau de stop-words en entrée.
198 Mais les stop-words peuvent aussi être chargé à partir d'un fichier :
199 <programlisting language="php"><![CDATA[
200 $stopWordsFilter = new Zend_Search_Lucene_Analysis_TokenFilter_StopWords();
201 $stopWordsFilter->loadFromFile($my_stopwords_file);
203 new Zend_Search_Lucene_Analysis_Analyzer_Common_TextNum_CaseInsensitive();
204 $analyzer->addFilter($stopWordsFilter);
205 Zend_Search_Lucene_Analysis_Analyzer::setDefault($analyzer);
207 Ce fichier doit être un simple fichier texte avec un mot par ligne. Le caractère '#'
208 transforme la ligne en commentaire.
212 Le constructeur de la classe
213 <classname>Zend_Search_Lucene_Analysis_TokenFilter_ShortWords</classname> a un argument
215 Il s'agit de la longueur maximum de mot, elle est définie par défaut à 2.
219 <sect2 id="zend.search.lucene.extending.scoring">
220 <title>Algorithme de score</title>
223 Le score d'un document <literal>d</literal> pour une requête <literal>q</literal>
224 est défini comme suit :
228 <code>score(q,d) = sum( tf(t in d) * idf(t) * getBoost(t.field in d) *
229 lengthNorm(t.field in d) ) * coord(q,d) * queryNorm(q)</code>
233 tf(t in d) - <methodname>Zend_Search_Lucene_Search_Similarity::tf($freq)</methodname> -
234 un facteur de score basé sur la fréquence d'un terme ou d'une phrase dans un document.
239 <methodname>Zend_Search_Lucene_Search_Similarity::idf($input, $reader)</methodname> -
240 un facteur de score pour un terme simple de l'index spécifié.
244 getBoost(t.field in d) - le facteur d'impulsion pour le champ du terme.
248 lengthNorm($term) - la valeur de normalisation pour un champ donné du nombre total de
249 terme contenu dans un champ. Cette valeur est stockée dans l'index.
250 Ces valeurs, ainsi que celle du champ d'impulsion, sont stocké dans un index et
251 multipliées par le score de hits par code de recherche sur chaque champ.
255 La correspondance au sein de champs plus long est moins précise, ainsi l'implémentation
256 de cette méthode retourne généralement de plus petites valeurs quand numTokens est
257 important, et de plus grandes valeurs lorsque numTokens est petit.
263 Zend_Search_Lucene_Search_Similarity::coord($overlap, $maxOverlap)
264 </methodname> - un facteur de score basé sur la fraction de tout les termes de la
265 recherche que le document contient.
269 La présence d'une grande partie des termes de la requête indique une meilleure
270 correspondance avec la requête, ainsi les implémentations de cette méthode retourne
271 habituellement de plus grandes valeurs lorsque le ration entre ces paramètres est grand
272 que lorsque le ratio entre elle est petit.
276 queryNorm(q) - la valeur de normalisation pour la requête en fonction de la somme des
277 poids au carré de chaque terme de la requête.
278 Cette valeur est ensuite multipliée par le poids de chacun des termes de la requête.
282 Ceci n'affecte pas le classement, mais tente plutôt de faire des scores à partir de
283 différentes requêtes comparables entre elles.
287 Les algorithmes de score peuvent être personnalisés en définissant votre propre classe
289 Pour ce faire, étendez la classe
290 <classname>Zend_Search_Lucene_Search_Similarity</classname> comme défini ci-dessous,
291 puis appelez la méthode
292 <classname>Zend_Search_Lucene_Search_Similarity::setDefault($similarity);</classname>
293 afin de la définir par défaut.
296 <programlisting language="php"><![CDATA[
297 class MySimilarity extends Zend_Search_Lucene_Search_Similarity {
298 public function lengthNorm($fieldName, $numTerms) {
299 return 1.0/sqrt($numTerms);
301 public function queryNorm($sumOfSquaredWeights) {
302 return 1.0/sqrt($sumOfSquaredWeights);
304 public function tf($freq) {
308 * Ceci n'est pas encore utilisé. Cela évalue le nombre de correspondance
309 * d'expressions vagues, basé sur une distance d'édition.
311 public function sloppyFreq($distance) {
314 public function idfFreq($docFreq, $numDocs) {
315 return log($numDocs/(float)($docFreq+1)) + 1.0;
317 public function coord($overlap, $maxOverlap) {
318 return $overlap/(float)$maxOverlap;
321 $mySimilarity = new MySimilarity();
322 Zend_Search_Lucene_Search_Similarity::setDefault($mySimilarity);
326 <sect2 id="zend.search.lucene.extending.storage">
327 <title>Conteneur de stockage</title>
330 La classe abstraite <classname>Zend_Search_Lucene_Storage_Directory</classname> définit
331 la fonctionnalité de répertoire.
335 Le constructeur <classname>Zend_Search_Lucene</classname> utilise soit une chaîne soit
336 un objet <classname>Zend_Search_Lucene_Storage_Directory</classname> en paramètre.
340 La classe <classname>Zend_Search_Lucene_Storage_Directory_Filesystem</classname>
341 implémente la fonctionnalité de répertoire pour un système de fichier.
345 Si une chaîne est utilisé comme paramètre du constructeur
346 <classname>Zend_Search_Lucene</classname>, le lecteur
347 (<classname>Zend_Search_Lucene</classname> object) le considère comme un chemin dans le
348 système de fichier et instancie l'objet
349 <classname>Zend_Search_Lucene_Storage_Directory_Filesystem</classname>.
353 Vous pouvez définir votre propre implémentation de répertoire en étendant la classe
354 <classname>Zend_Search_Lucene_Storage_Directory</classname>.
358 Les méthodes de<classname>Zend_Search_Lucene_Storage_Directory</classname> :
361 <programlisting language="php"><![CDATA[
362 abstract class Zend_Search_Lucene_Storage_Directory {
368 abstract function close();
370 * Crée un nouveau fichier vide dans le répertoire dont le nom est $filename.
372 * @param string $name
375 abstract function createFile($filename);
377 * Supprime un fichier existant du répertoire.
379 * @param string $filename
382 abstract function deleteFile($filename);
384 * Retourne true si un fichier portant le nom donné existe.
386 * @param string $filename
389 abstract function fileExists($filename);
391 * Retourne la taille d'un $filename dans le répertoire.
393 * @param string $filename
396 abstract function fileLength($filename);
398 * Retourne le timestamp UNIX de la date de modification de $filename.
400 * @param string $filename
403 abstract function fileModified($filename);
405 * Renomme un fichier existant dans le répertoire.
407 * @param string $from
411 abstract function renameFile($from, $to);
413 * Définit la date de modification de $filename à la date de maintenant.
415 * @param string $filename
418 abstract function touchFile($filename);
420 * Retourne un objet Zend_Search_Lucene_Storage_File object pour un $filename
421 * donné dans le répertoire
423 * @param string $filename
424 * @return Zend_Search_Lucene_Storage_File
426 abstract function getFileObject($filename);
431 La méthode <methodname>getFileObject($filename)</methodname> de l'instance
432 <classname>Zend_Search_Lucene_Storage_Directory</classname> retourne un objet
433 <classname>Zend_Search_Lucene_Storage_File</classname>.
437 La classe abstraite <classname>Zend_Search_Lucene_Storage_File</classname> implémente
438 l'abstraction de fichiers et les primitives de lecture de fichier d'index.
442 Vous devez aussi étendre <classname>Zend_Search_Lucene_Storage_File</classname> dans
443 votre implémentation de répertoire.
447 Seulement deux méthodes de <classname>Zend_Search_Lucene_Storage_File</classname>
448 doivent être surchargées dans votre implémentation :
451 <programlisting language="php"><![CDATA[
452 class MyFile extends Zend_Search_Lucene_Storage_File {
454 * Définit l'indicateur de position du fichier and avance le pointeur
456 * La nouvelle position, calculé en octets depuis le début du fichier,
457 * est obtenu en ajoutant l'offset à la position spécifiée par $whence,
458 * dont les valeurs sont définit comme suit :
459 * SEEK_SET - Définit la position comme égale aux octets de l'offset.
460 * SEEK_CUR - Définit la position à la position courante plus l'offset.
461 * SEEK_END - Définit la position à la fin du fichier plus l'offset.
462 *(Pour déplacer à une position avant la fin du fichier, vous devrez passer
463 * une valeur négative à l'offset.)
464 * En cas de succès, retourne 0; sinon, retourne -1
466 * @param integer $offset
467 * @param integer $whence
470 public function seek($offset, $whence=SEEK_SET) {
474 * Lit $length octets dans le fichier et avance le pointeur de fichier.
476 * @param integer $length
479 protected function _fread($length=1) {