0% found this document useful (0 votes)
145 views34 pages

Recherche D Information

RECHERCHE D INFORMATION

Uploaded by

Mayssoun chaimaa
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF or read online on Scribd
0% found this document useful (0 votes)
145 views34 pages

Recherche D Information

RECHERCHE D INFORMATION

Uploaded by

Mayssoun chaimaa
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF or read online on Scribd
You are on page 1/ 34
Matiére : RECHERCHE D’INFORMATION Crédit : 4 Cours : 1h30 TD: 1h30 Semesire: St du M1 Assuré par: Herzallah Abdelkarim Programme 4-Introduction : Objectifs de la RI, Concepts de base : information, Besoin en information et pertinence, Processus général de la RI, Taches (RI, Fl, CLIR, QA, etc.). 2-Indexation pour la RI : Introduction (indexation manuelle vs. Indexation automatique), Etapes du processus d’indexation, Statistiques sur les termes (Loi, Zipf,...), Techniques de pondération des termes. 3- Modeéles de RI: Taxonomie des modéles (Adhoc Vs Filtrage), Modéle booléen, Modéle booléen étendu, Modéle vectoriel, Modéle LSI (Latent Semantic Indexing), Modéle probabiliste, Modéle inférentiel, Modéle de langage, Modele possibiliste. 4- Reformulation de requétes : Expansion de requéte, Réinjection de pertinence, Méthodes de sélection de termes. 5- Evaluation de la RI Critéres d'évaluation, Collections de tests, Bilan des campagnes d'évaluation 6- RI surle WEB 7- Ri dans des documents structurés (XML) 1-Introduction 1.1 Définition La recherche d'information ou RI (ou encore SRI) prend plusicurs terminologies: # recherche diinformation, © informatique documentaire, © information retrieval, * document retrieval. Salton définit la RI comme la branche de linformatique qui consiste & acquérir, organiser, stocker; rechercher et s¢leetionner l'information. Les domaines d'application de la RI sont: * Internet * Bibliothéques numériques «digital library» * Entreprises La RI est un domaine vaste qui se situe dans les frontiéres de plusieurs disciplines tel que: Recherche adhoc, Classification /catégorisation (clustering), Question-réponses (Query answering), Filtrage (information (filiering/recommendation) Méta-moteurs (data-fusion, Meta-search) Résumé automatique (Summarization) Croisement de langues (cross language) Fouille de textes (Text mining) Nepeene 1.2 Objectif © Identifier en vue d'exploiter de Vinformation contenue dans des documents et des bases de données (son texte, image) par rapport & une requéte formulée par un utilisateur. * Le SRI devra nous retourner le moins possible de documents non pertinents © Les contenus des documents peuvent étre non structurés ou semi structurés. 1.3 Bref historique de la RI La RI n'est pas un domaine récent * 1940 : Avec la naissance des ordinateurs, la RI se concentrait sur les applications dans 4 des bibliothéques. Depuis le début de ces études, la notion de pertinence a toujours été un objet * 1950: Début de petites expérimentations en utilisant des petites collections de documents (références bibliographiques). Le modéle utilisé est le modéle booléen. * 1960-1970: Expérimentations plus larges ont été menées. On a développé une méthodologie d’évaluation du systéme qui est aussi utilisée maintenant dans d'autres domaines (des corpus de test ont été concus pour évaluer des systémes différents). * 1970 : Développement du systtme SMART. Les travaux sur ec systéme a été dirigés par G. Salton, Certains nouvelles techniques ont été implantées et expérimentées pour la premicre fois dans ce systéme (par exemple, le modéle vectoriel et la technique de relevance feedback). Du cdté de modéle, il y a aussi beaucoup de développements sur le modéle probabiliste. * 1980: Les travaux sur la RI ont été influencés par l'avénement de Vintelligence artificielle. Ainsi, on tentait d'intégrer des techniques de '1A en RI, par exemple, systéme expert pour la RI, ete. * 1990: Internet a propulser la RI en avant scéne de beaucoup d'applications. La venue de I'Internet a aussi modifié la RI. La problématique est élargie. Par exemple, on traite maintenant plus souvent des documents multimédia qu'avant. Cependant, les techniques de base utilisées dans les moteurs de recherche sur le web restent identiques. 1.4)Architecture générale d'un Systeme de Recherche atnfofnation =~ Documents, @ Dictionnaire | Représentation des documents Représentation de Processus d’appariement par | la requ (matehning) Docunpsss -requites Expansion I Documents sélectionnés t tion et/ou Evaluation { Modification stéme de RI exécute une sé En se basant sur cette requéte, le algorithmes. qui permettent d’obtenir une liste de documents ordonnés par leur pertinence. 1.4.1) Information et besoin en information Une information est une donnée dont un individu a besoin pour résoudre un probléme particulier. L'individu exprime done un besoin sous forme de requéte (question). TI existe deux types de besoins en information : le type fermé et le type ouvert. 8) Question fermée » A une requéte correspond un ensemble fini de réponses. Les tiches Extraction d'information (ED) et de Question Answering (QA) font partie de cette catégorie, et elles sont en général appliquées 4 un corpus spécialis ») Question ouverte : Questions pour lesquelles il n'existe pas de réponse complete ct definitive, La RI siintéressait a des BI ouverts et a des données non structurées. 1.4.2) indexation L’étape d’indexation permet de réaliser le passage d'un document textucl (ou une requéte) & une représentation exploitable par un modéle de RI par la construction de mots elés appelé langage d’indexation, AV Document textuel (ou requéte) > représentation exploitable par le SRI Indexation _~ N” Cette transformation appelée indexation consiste a extraire du texte un ensemble de mots elés appelés descripteurs. Ces descripteurs vont représenter le document dans le corpus. Chaque descriptcur peut étre accompagné de connaissances 4 priori pour micux appréhender la recherche, 1.4.3) recherche ou appariement Une fois les documents transformés, il est possible de rechereher ceux qui répondent le micux une question d'un utilisateur grice la relation d’appariement. Cette relation s'appuie sur des approches mathématiques. On en distingue: we + Llapproche ensembliste © L'approche algébrique (ou vectorielle) + L'approche probabiliste AN Certains systémes de RI dits assistés permettent Vinteraction avec lutilisateur, afin daméliorer petit & petit les réponses du systéme de RI au cours d'une session de travail Llutilisateur intervient & chaque étape pour « aider » le systéme & sélectionner les documents qu'il juge pertinents pour sa question. Ces indications peuvent aussi servir pour améliorer globalement le fonetionnement du systéme de RI. 1.4.4) La reformulation Un SR peut comporter une composante supplémentaire appelée reformulation automatique d la question (requéte). Cette éape a pour objectif daméliorer les performances du SRI, done la précision dans les réponses du systéme. La pertinence d'un document pour une question posée par l'utilisateur stexprime dans les modéles de RI sous la forme d'une valeur de plausibilité déterminge grace 4 une heuristique. A titre d’exemple, pour la question «base de données» la réponse sera d’autant plus pertinente si « base » et « donnée » se trouvent localisés dans une méme phrase. Il le sera lemmatisation niveau syntaxique : niveau dlutilisation de la grammaire + niveau sémantique : niveau de la reconnaissance des concepts 1) Niveau de découpage (Tokénisation) : La tokénisation est appelée aussi segmentation. Elle consiste 4 diviser un texte en unités lexicales (token) élémentaires. C'est une opération qui « localise» les chaines de caractéres entounses de séparateurs (caractére blane, ponctuations), et les identific comme étant des mots. Il permet aussi de procéder & une premiére correction des fautes d’orthographe et des erreurs de saisie 2)Niveaux léxical et morphologique ‘Chaque mot de la langue lui correspond une catégorie morpho syntaxique. b) Le lemme Le lemme s'obtient par une flexion (paradigme flexionnel). Exemple: Je travaille, travailles, ielle travaille.... Le lemme est travailler. La catégorie grammaticale rattaché i ee lemme est un verbe. ow ©) Laracine Aw La racine siobtient par une dérivation ( paradigme dérivationnel ). See nationalité, nationaliser.... La racine est nation. La catégorie rattaché ibskar h d) Le mot composi Mots non obligatoirement si S qui doivent étre reconnug fogmant une seule entité. Racinisation : Cette premiére opération est indispensable pour fouvWir retrouver tous les documents dans lesquels apparaissent différentes formes du méme aot Y Exemple : écologie, écologiste, écologique sont "racinisés" par un seul mot este Le second traitement appek fiquetage » ou tagging wensiste a comparer chaque mot du nnaire intégré (référentiel ou o. étiquettes en fonction du ser 1 Mig sort utilisés. Cette opération permet aussi Recherche des lemmes : On a souventSgesoingahs les logiciels indexation de texte de regrouper les mots qui se ressemblen, PNgéal Serait de considérer la racine du mot, en la recherchant dans un dietionnaire. demandant beaucoup de temps, on a souvent aussi « d° « identifier » les mots composés et les expr "of recours des heuristiques (mot 8 uur dire « recette de cuisine ») simples, telle que celle-ci : A Yy On garde toutes les letiPes. dey ‘he début du mot jusqu’a - La troisi¢me cons. t incluse XN jnsonne non précédée d'une autre consonne (dans « elfe », on ne Seule compte, u compt tet % car le «f » est une consonne précédée dune autre consonne ; par con . a lompte deux consonnes). Ainsi « chien » a pour racine « chien » re ‘emple : Lemmatiser le mot « informatique » IN ORMATIQU E ™ Non pris en compte - Epuisement des lettres'¥ela régle précédente n'a pu étre satisfaite n a pour racine « informat » iv. Elimination des mots vides) : Les mots qui sont tres fréquents dans les documents une collection n’ont pas un bon pouvoir discriminant et ne doivent pas étre inclus dans index. C'est le cas des pronoms, des prépositions et des conjonetions, naturellement reconnus comme des mots vides. L’élimination des mots vides permet une réduction de index d’environ 40%, Vu que la réduction du nombre de termes augmente la performance, certains systémes considérent, aussi, comme des mots vides quelques verbes, adjectif’ et adverbs Cette étape arive dla constitution d'un index des termes non éliminés, considérés cogyme des index. La recherche se fait selon logique booléenne par exemple : dans la phras, tous les pays : unissez-vous”, seuls les mots "protétaires”, "pays" et "uniss A Ia recherche, il suffira de taper l'un de ces termes retrouver la phrase. ‘tous les mots gardés sont d’égale importance, ct il n'y At ‘des mots. apparition des différentes formes d'un mot (ex : mde ipparaitre plusieurs fois sous des formes différentes r olanalyse porte sculement sur des mots isol expressions (les syntagmes), souvent porteur (dX unitermes), et délaisse toutes les : «pomme de terre » donnera deux A noter aussi que certains recherches 1’¢liminent méme pas les mots vides pour une recherche. Les mots pelés une stoplist ou une stopword. yy 1) Utilisati s rdyJés de transformation du type CONDITION > ACTION. Exemple : un mot ayantunt ison de s, supprimer le s. 2)CBlgotitbrhe Porter pour [Anglais est basé sur la mesure de séquences voyelles- comtefings-Cette mesure est appelée m: mesure m pour un «stem» est [C](VC)m[VC] ot: C est une séquence de consonnes et V est une séquence de voyelles [] = option, comme par exemple : m=0 (tree, by), m=I (trouble, coats, trees, ivy), m=2 (troubles, private) Les régles de désuffixage et de normalisation (en Porter) sont divisées en 3 étapes et sont examinées en séquence : Etape sses > ss (caresses > caress) ies > i (ponies > poni) 8 NULL (cats > cai) Etape 2: En régle générale: ifm>0 ced > ce (agreed > agree) if*v*ed > NULL (plastered > plaster but bled > bled) a Happy > Happi < ANT > NULL IRRITANT > IRRIT ro MENT > NULL REMPLACEMENT > REMPLAC a w MENT'> NULL JUSTEMENT > JUS! Etape 3: a SY ATIONAL > ATE RELATIONAL > RELATE aN TIONAL > TION CONDITIONAL > CONDITION Ww 3) La Troneature, Ilsagit de Tronquer les mots 4X caractéres, Il s’agit de Tronquer les mots a X caractéres (tronqu troncature 4 7 caractéres est : 6eonomiquement : éeom La principale difficulté est comment détern 2.3.1) Niveau léxical : 4 NY Elle consiste & déterminer les regr ts structurels des mots au sein des phrases et Tes y relations entre les mots. \ pour dresser § relation: x 2.3.3) oe atid fondée sur le ealeul statistique des occurrences, cad de la fréquence “Ng abgarition de mots dans un texte. Tous les mots significatifs d'un texte sont relevés ON (Ie occurrences) et leur fréquence est calculée, sclon un indice moyen de fréquence exemple 1 /1000). © “Méthode permet les ealculs de pondération, cad l'importance d'un mot dans un document déterminé ct I'élimination de termes moins significatifs. 2.3.2) Niveau sémantiqie; Ce niveau s ment froupement de termes synonymes, aux familles de termes, 23.4) Fi verse + Aprés analyse de documents dun corpus, on obticnt un tableau : document x termes + Utilisation en tableau direct « document -> terme » possible a 2 8 in DI Dm * Génération d°un tableau inverse « terme -> document » (appelé fichier inverse) pi p23 Dm tl Gx Se rapidité lors du. traitement de requéte, car pas de traitement séquexficl,de8 documents TS Avantage : Sy ? des Y ) 2.3.5) Typologie des langages documentaires ws Un langage documentaire est un langage "pivot" desting °déerge Ye contenu des documents ct le contenu des questions (requétes) des utilisateurs ghey 2 entrée (humain) qu'en sortie (machine) 0 ‘\ Langagge libre ne contralé gage langage de Langage atoire classification naturel ésaurus — Ontolog (description) (classes, régles, relatons) a) Thésaurus : langage documentaire fondé sur une structuration higrarchisée d°un ou plusieurs domaines de la connaissance et dans lequel les notions sont représentées par des termes d’une ou plusieurs langues naturelles ct les relations entre notions par des signes conventionnel. b) Ontologie Une ontologie est un ensemble structuré de concepts organisés dans un graphe ot les relations peuvent étre: Des relations sémantiques; + Des relations de composition et dhéritage (au sens programmation objet). Une ontologie permet de définir des termes les uns par rapport aux autres, chaque terme étant Ja représcntation textuelle d'un concept. La construction d'une ontologie & partir d'un texte consiste &: # parcourir Ie texte a la recherche de termes récurrents ou définis par util Ps * analyser la maniére dont ces termes sont mis en relation dans le, Sp. grammaire, et par les concepts quils recouvrent et dont une oo out etre trouvée dans un lexique fourni par l'utilisateur Le résultat est une ontologie qui représente la connai texte dans le domaine d'application qu'il couvre 2.3.6) Les pondérations La pondération consiste 4 répondre a la question si. tous a Ta méme importance ? ance globale q le corpus de et comment attribuer un poids aux termes extraits ? 2.3.6.1) Loi de ZIPF La loi de Zipf est une loi empirique énoneée SS par G.K Zipf [Zipf, 1949]. Selon Zipf, les mots dans les documents ne s’organi faniére alGatoire mais suivant une loi inversement proportionnelle a leur d'un mot est sa position dans la liste décroissante des fréquences des mots wus. Ainsi, la fréquence du second mot le plus feéquent dans le corpus est la moitig frequent, son tiers, etc ronmeten premier, la fréquence du troisiéme mot le plus, S. He lol sexprime par la probabilité d’apparition du nigme mot le plus fiéq ine collection de n’importe quelle langue est approximativement inversemeMypropsitionnelle 4 n (rang), soit : P (n)=C N/n On en déduit: ee Constante Fréquenc Pe _— Les domaines concenés par la loi de ZIP sont nombreux. On peut citer: © La répartition des pixels dans les images, + Les populations dans les grandes villes © Les pages web sur Internet, of Ia relation de popularité d'une page Web x nombre d'aceés 4 une page par mois prend la méme forme. Dans le domaine de la recherche d'information, la loi de Zipf est utilisée pour déterminer les mots qui représentent au mieux le contenu d'un document. Pour cela, un autre concept est introduit, il ‘agit de la conjecture de Luhn. 2.3.6.2) Conjecture de Luhn La conjecture de Luhn est basée sur la loi de Zipf. Elle mesure I° Informativité d’un document de la fagon suivante # Les termes de rang faible (trés fréquents) ne sont pas pertinents a # Les termes de rang élevés (trés rares) ne sont pas pertinent Com, # Les descriptours pertinents sont les termes de rang intermédiaire ! ve. fréquence < informativité sw LSS seuil maxi seuil mini A A \ By c A: mots trés fréquent§egeu Tatéfessants C : mots peu fréquents,\pétsintéressants B : mots intéres Voici un algagitfme sifgplé pour extraire ct sélectionner Ext ots du corpus ¢Alighincbtes mots-outils (anti-dictionnaire) Q etiupdtiser (en anglais, algorithme de Porter) ; raciniser (déclinaisons nigrphologiques, représcntation uniforme : sing, masc sing, infinitif) ¢ Wiser un seuil haut et un scuil bas : on ne garde que les mots se © situant entre les 2 seuils 3 LES MODELES III-1 Les modéles Requéte Recherche d’information (SRI Document Interprétation __”_ Bases de \déxation | Connaissances | Représentation rechéfche ou Représentation des requétes interrogation des contenus (langage de requétes) i (langage @indéxation) | ~ | Recherche d¢ l'information | Modéle de Fonction de Modeéle de Requétes correspondance documents | ao (contenus) modéle de connaissance Wi” \ Le langage de description de documents (langag Singer, est basé sur un ensemble de termes T= { tl, 2... fi, ...} et de connectetrs jins la conjonetion). On appelle généralement « indexation », ou « descript =e un document dans ce langage. Le langage de requétes est aussi basé stf'T, ct borhprend divers Connecteurs. Généralement on ne considére qu'une seule requéteMgnérique notée q, mais si nécessaire, Q = { ql. q2, .... qi, ...} représentera ensemble dog reqllétes Yqi est ainsi une liste d’éléments de T ou une expression booléenne construite sur L’algorithme d’ jac ge construire une relation entre requéte et indexation. I de pertinence, R (appelée « ran! est utilisé pour const eae g » en anglais) IL-2 Les di wets MODELES AUTOMATIQUE ADAPTATIF. Bookéer Vectoriel Probabilistes Booléen pondéré Latent semantic Indexed | Réseau de neurones III-2-1 Le modéle booléen Le modéle booléen a été introduit en 1983 par Salton et McGill. Il s‘est imposé grice a la simplicité et la rapidité de sa mise en euvre. L’interface d’interrogation de la plupart des motcurs de recherche (Google, Alta Vista) est basée sur les principes de ce modéle. Il est composé d'une liste de termes (mots-clés) pouvant étre combings & des opérateurs logiques ET, OU NON pour répondre au micux & une requéte dun utilisateur. a) Modéle de connaissance : Un document T est indexé par des termes t1, 12,3....tm: T= {ti}, i appartient a [1.n] b) Modéle de document : UndocumentD: — D=tl ET t2 Et 3. Te)... Une requéte q (t1 ET 2) OU (5 a ¢) Fonction de correspondance : AN la fonction de correspondance est une implication logique de la logique des, Un document (d) représenté par son ensemble de termes (ti), répond a une requ primée comme une expression logique de texmes, si Mimplication dX gest valde. La correspondance C(d, q) est déterminée comme suit : A Yy C(4, ti) = 1 siti €.d 5 0 sinon C(d, q1 A q2)=1 si Cd, q1) C(d, q1 V q2)=1 si C(d, ql) C(d,>q) = 1 si C(d, q) = et sfockés en conservant les liaisons Nemble sous le nom de fichier (index) Is figure un terme est ainsi fortement Les termes tl des documents sont identifié dappartenance 4 chaque texte. On désign inversé. La recherche des documents dans aceélérée, SS “0 L’inconvénient majeur de ce mo ie schématisé dans la Figure 2-4, est que les documents pertinents dont la représeitation ne correspond qu’approximativement & la requéte ne sont pas sélectionnés, et m8 Le document D2 est le proche de la requéte. AVG-SIM 0,406 ay III-2-3-3 Distance “ > Distance entre un document et une requéte r j= dy im{ Q, Di) = 2 Lay? . Lowy) t J y requéte Q et le document D; ‘Copmtues pour d'autres documents. Ly Bifierentes approches de calcul de probabilité dans le domaine de la RI: 1. Approche par modéle classique: A partir d’un document et d’une requéte on détermine la probabilité d°avoir ’évenement pertinent. 2. Approche par modéle par Réseau d’inférences : A partir du contenu d’un document, on détermine la probabilité pour que la requéte soit vraic. 3. Approche par modéle par langage : déterminer la probabilité pour qu’une requéte soit générée a partir dun document. III-2-4-1 Modéle classique 20 1) Rappel du théoréme de Bayes P(A|B) = probabilité conditionnelle qui signifie la probabilité de A sachant que B est réalisé. A noter que A et B sont dépendants. AINTERB P(A[B) = P(A inter B) / P(B) P(A inter B) =|A inter B] / |E] P(B) = [BI /|E| P(A[B) =|A inter B| / |B) S Exemple : soit 2 dés. On observe que la somme des 3 dés vaut 6. Quelle est la probabilité que l'un des 2 dés vaut 2? fe) ponse NO Somme=6} A= {Au moins un des 2 dés dom e B= {(2), (4,2), (1.5), (5.1). mo A inter B = {(2,4), (4,2) } P(AIB) = 2/5 aS Alors que P(A) = 11/ SY Nous avons: Ws” P(A[B) = Ped inter B) / P(B), ce qui donne: P(A inter |B) * P(B) Ss Sp(BIA) * P(A) rag oro * P(A)/ P(B) Théoréme de Bayes Il permet d’inverser les probabilités conditionnelles Exemple : Soit 2 dés. On observe que la somme des 2 dés vaut 6. Quelle est la probabilité que I’un des 2 dés vaut 2? B = {Somme=6} A= {Au moins un des 2 dés donne 2} P(A[B) = P(BIA) * P(A) / P(B) = 2/11 * 11/5 = 2/5 P(BIA) = probabilité d’avoir 6 sachant qu’au moins l'un des 2 dés vaut 2 JA] =11 [A inter B]=2 P(BJA) = 2/11 P(AIB) = 2/11 * 11/5 =2/5 2) le corpus Documents pertinents (pert) Documents non pertingl (nonpert) A 3/ Définition a/ On definit P (Di/nonpert) vere é pour que le document i fasse partie de ensemble des documents non pertiehi@a la requéte q b/ On définit P (Di/pert),cgmmea probabilité pour que le document i fasse partie de Pensemble des documgys Preis a la requéte q, soit 4/ Fonction clegche En supposagt Rindépendance des variables documents « pertinents » et « non pertinents », la RS Fee peut étre obtenuc en utilisant la formule de Bayes. QS Soit D i (t, ty, ts, ..., ty) ob 1 si ti indexe le document Dj T 0 sinon a) P(pert/Di) = ( P(Di/pert) x P(pert) ) / P(Di) b) P(nonpert/Di) = ( P(Di/nonpert) x P(nonpert) ) / PDI) Ou: © P(Di/pert) : probabilité d’obtenir Di A partir des pertinents © P(pert): — probabilité de pertinence. Chance de prendre au hasard un document pertinent. * P(pert/D,) est la probabilité de pertinence du document Di sachant sa description. a P(Di) : Probabilité pour que le document i soit choisi.Elle est de: a P(D,)=p(D, /pert) * p(pert) + p(D, /Nonpert) * a) 0) % 4/ représentation du document et de la requéte Re \y On ne prend en compte que absence ou la mbes termes dans les documents et dans la requéte. Ainsi, les termes cot é3he sont pas pondérés mais prennent seulement des valeurs 0 (absendgu ésent). C Le document D répond a la requéte si: rt) * pert) x P(nonpert) P(per/D) PC P((nonper/D) we ¥ P(D/nonpert) XN \ 4 ILy a plusiétits hp6théses de calcul en tenant compte de l’indépendance des SBarini celles-ci, il y a le BIM (Binary Independance Model). si le terme ti est absent de D 1 si le terme ti est présent de D Alors : P(D/pert) = ILP(xi/pert) P(D/nonpert) = —_‘T1 P(xi/nonpert) Et pi = P(xi=I/pert) entraine 1-pi = P(xi=0/pert) gi. = P(xi=I/nonpert) entraine 1-qi=P(xi=O/nonpert) ona done : pi (1-piy log. 11 + log I qi Q | C-ai) 5/ Estimation de pi et ai +R (ou Ri) : nombre de documents pertinents pour Q (contenant ti) AA cardinalité du corpus = nombre de documents pertinents contenant ti * ni: nombre de documents contenant le terme ti Q Pertinent Nonp ata Total ‘Terme ti présent ti RNY nh Terme ti non présent R N- in N=n) Total x N Y Remarque / AO © Pertinent et pertinent par rapport culnents D © Terme ti (présent ou non pré: A), et que A apparait dans une requéte booléenne, alors on va ajouter B dans le vecteur de la requéte (s'il n'y est pas déja). La question qu'on se pose est plutdt sur ta pondération des nouveaux termes dans le vecteur. Cette pondération peur étre = + Lemot ajouté B est pondéré comme le mot initial A en relation avec B. ‘+ Le mot ajouté B est pondéré comme la pondération de A multiplié par un facteur. Ce facteur peut étre fixe (par exemple, 0.5), ou bien déterminé selon la pondération de B en relation avee A (L'idée est que si A conduit & beaucoup de mots B religs, ces mots reliés doivent étre pondérés plus faiblement). Cette méthode de pondération a été expérimenté par plusicurs chercheurs, entre autres, ‘Voorhees (1994). Elle utilise le thésaurus Wordnet pour déterminer les mots ajouter dans le vecteur. Cependant, le résultat est négatif: avec cet ajout, la performance est < ~ y Ici, on doit se poser la question sur cette méthode naive de faire l'expansi ai Arecteur. On peut observer que ~< &Q + expansion n'est pas uniforme pour tous les mots de la reqates. * Un concept étendu sera renforeé dans le vecteur oN Est-ce que ces concepts renforeés sont réellement ope Y 1V-4 Choix des termes & ajouter oP sées 5 © Utilisation dun dictionnaire ge“Synonyt¥€, ou un thésaurus. Les mots re! utilisés dans l'expansion. + Expansion automatique par Gig ch 's fortement religs basée sur les co-occurrences: Plus deux mots co-ogcurent ait’ des textes, plus on suppose quills sont fortement reliés. e © Processus d'expangion inftgactif: L'usager peut filtrer les mots proposés par le systéme. Cette approche est ‘témes, par exemple, Medline qui intégre un thésaurys di La plupart des.apprichps considére chaque mot de la requéte isolément des autres termes de la requéte. a choisir des mots qui sont religs & la requéte qu‘aux mots individuels de Al Trequéte? Plusicurs démarches sont sont ic. cement dit, ils calculent la relation entre un mot et la requéte dans son sent A utiliser les mots les plus fortement reliés. Ils montrent que cette feilleure que de faire expansion de mots. Chapitre V : Le Web sémantique Introduction Le nombre important et sans cesse croissant des documents de tout type sur Internet rend de plus en plus indispensable Ia possession d’un outil de recherche avaneé qui permet d’obtcnir des résultats pertinents. Les moteurs de recherche traditionnels se basent sur occurrence dun mot dans un document, i s’en suit que ces moteurs fournissent des documents non pertinents. Une approche plus judicicuse est dintroduire la notion du sens. Il suffirait alors d’un mot pour récupérer les termes qui ont une relation logique avec ce mot (les synonymes, les antonymes, etc.). Les résultats seraient done mieux ciblés et on obtiendrait ccrtainement moins de résultats mais dont Ia plupart sont susceptibles d’Gtre intéressant s pour notre requéte. 1 faut noter que le probléme de recherche de information est intimement lig & la structure des documents cibles de la recherche. La difficulté de la recherche sur la vision actuelle internet émane du fait que la plupart des documents sur le web sont en hufl. Qr les documents html ont lc défaut d’avoir un contenu non structuré. Scule la migé“en page)cst structuré en balises htm! prédéfinies. Mais ces balises ne portent aucune i y Sur le contenu du document. ‘permettant Ie traitement cera done a générer, traiter et 1g)Web sémantique, la conception Avantages Le Web sémantique est la continuation logique du Web act # Il comprend des documents structurés selon un automatique de ces documents par des logiciels, On changer des documents grace & des ek du document est done une étape eruciale. De plus, des moteurs d'inférences pagan és relations logiques qui peuvent étre mis c entre les différents documents. * Ainsi méme des données non, ieSyfhais déductibles de documents existants, seront générés automatiquemeMy sah intervention humaine. Ceci est d’autant plus intéressant que la quantitg deSgocuments est grande, Pour parvenir 4 ces fonetionnalités, il fat ab ete les documents, Sy ww) Les Langages Web ae) Parmi les langages Web, y a : ‘mis en place pour raisonner sur les . LE “Re88arce Description Framework, est un modéle de données . langage XML pour, eXtensible Markup Language. C’est un des dialectes RDF est un outil fondamental du Web Sémantique: il permet de définir des métadonnées + YOWL (Web Ontology Language) ct Ontologies : Il offre une grand ¢ souplesse dans la definition des relations. N(Exemple : on peut préciser qu’une propriété est Pinverse de Pautre, ce qui permet d’inférer des relations non explicites. Par exemple « A est le pére de B » nous dit également que B est fils de A. Ceci parait trivial, mais en informatique, il faut établir ce genre de raisonnement de base afin d’avoir des informations traitées « intelligemment ». XML. * Mest basé sur les bi Cette rigueur fac ises, seulement en XML toutes les balises doivent étre fermées. Ie traitement automatique d’un document, * L’intérét premier de XML est de séparcr le fond (le contenu) de la forme (le contenant ‘ou la mise en page) * XML est un métalangage : il permet de décrire un vocabulaire et une grammaire associée selon un certain formalisme. * La structure d’un document XML est définie par une DID (Document Type Definition). La DID peut étre écrite dans un document a part puis référeneée dans le document XML ou peut étre directement intégrée dans ce dernier. 1. Exemple : une bibliographie <2xml version="1.0" encoding="1$O-8859-1"2> Elément enfant titre > Les Misérables Victor Hugo 3 L'Assomoir RQ Emile Zola 4. . Le rouge et le oir i Stendhal 3. Les commentaires En XML, les commentaires se déclarent de la méme fagon qu'en HTML. Ils commencent donc par . Ils peuvent étre placés a n'importe quel endroit tant qu'ils se trouvent a l'ex/érieur d'une autre balise. 4. Ragles sur les élément’, Un élément permed d'un élément etf’o y 1 4 l'aide d'expressions quels seront les fils possibles 's lequel ils apparaissent. element exp> -xpressions utilisent : + le mot EMPTY qui signifie un contenu vide. © + un sous élément qui précise le fils de élément © + des séquences a Taide de la virgule exp1 exp2 : expression exxp1 suit expression exp2. + des répétitions a l'aide 30 du point dinterrogation exp? qui signifie 0 ou 1 occurrence de exp de l’étoile exxp* qui signifie 0 ou plusieurs occurrences de S*P > le plus exp+ qui signifie au moins une occurrence de exp la disjonetion exp1_|_exp2 qui signifie soit exp1 soit exp2 les parenthéses (_et_) qui permettent de grouper, us expressions. Se le mot ANY qui signifie n'importe quel contenu. 7) © ~~ A le mot #PCDATA qui signifie un rae xtuel. (Parsed Character Data ou données textuell sées : analysées signifie ici que si des appels d'gritité ‘trouvent, ils seront réalisés). : Lorsque d'une dédl est sous la forme (#PCDATA | e: lors\I'élément peut contenir a la fois des données te @U'des éléments. On parle alors de contenu mixte, »y Exemple d’un DTD ar y La déclaration de type es a l'interne, c'est-a-dire dans le document lui- méme. ~'’ <2xml version=" 1.0" encoding="UTF-8"?> - 31 Hamiche Khaled 12 janvier 1957 Oran Baccalauréat 12 juin 1975 Alger Passable Régles sur les attributs SS La déclaration des attributs se réa ikem @ suit : a . La déclaration est la donnée d'un nom d'attribut, suivi d'un type et dune ualification. qualificat. y Les ossibles sont : - Sc TA: des données textuelles (non analysées) . (NMTOKENS) : une unité (ou une liste d'unités) lexicale(s) nominale(s) qui est un nom Xml pouvant commeneer par un chiffre ou un symbole. + ID un nom Xml qui devra avoir une valeur unique dans le document pour tous les attributs ID. La valeur est un nom xml qui ne peut donc pas commencer par un chifire. 32 + IDREF (IDREFS) un nom Xml qui devra prendre pour valeur parmi les les valeurs prises par les attributs ID du document (Une liste de noms Xn...) Nous reviendrons par la suite sur les notions d'entités. La qualification dans la déclaration peut prendre les valeurs suivantes : + #IMBLIED qui signifie optionnel + #REQUZTRED qui signifie obligatoire + #EIXED qui signifie constant (intérét assez limité...) ~O + la valeur par défaut donnée entre guillemets \ —— es Lecture William B. Frakes and Ricardo Baeza. Information Retrieval: Data Structures and Algorithms, Yates, Prentice Hall, 1992. M.Boughanem : Université de Toulouse. Université Paul Sabatier de Toulouse; Laboratoire IRIT (plusieurs contributions dans le domaine de la RID). Mustapha Baziz: indexation conceptuelle guidée par ontologie 33 Pour la recherche d'information, Thése doctorat, Université de Toulouse. Université Paul Sabatier de Toulouse. Gaussier et al, 03] : Erie Gaussier, Christian Jacquemin, & Pierre Zweigenbaum. Traitement automatique des langues et recherche d'information. In Eric Gaussier and Marie-Héléne Stefanini, editors, Assistance intelligente a la recherche d'informations, chapter 2, pages 71-96. Hermés-Lavoisier, Paris, 2003 Salton, 83] : Salton, G., & McGill, M.. Introduction to Modern Information Retrieval. McGraw-Hill, New York, 1983. Voorhees, 93] : E. Voorhees, "Using WordNet to Disambiguate Word-Senses for Text Retrieval", Proceedings of the 16thAnnual Conference on Rese’retand Development in Information Retrieval, SIGIR'93, Pittsburgh, PA, I~ w oy ) ai 34

You might also like

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy