Skip to content

bonzid/chunker

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Ce projet répond aux exigences, aux restrictions et à des consignes d'un travail demandé dans le cadre d'un cours.

Projet : Développement d'un moteur à base de règles pour la segmentation en chunks

Ce projet consiste à développer un moteur à base de règles (MBR) pour segmenter un texte brut en chunks. Il a été réalisé dans le cadre d'un cours Formalismes pour le TAL en avril 2024. Ce chunker a été réalisée sur la base d'un texte spécifique venant du Gorafi (texte.txt). Nos règles et nos lexiques ont été construits sur la base spécifique de ce texte. Nous avons testé ce moteur sur un autre texte du Gorafi (texte_test.txt).

Fonctionnalités

  • Tokenisation : Segmentation du texte en unités basée sur des règles et un lexique.
  • Segmentation en chunks : Application de règles morphosyntaxiques pour regrouper les tokens en chunks.
  • Évaluation des performances : Calcul de la précision, du rappel et de la F-mesure.

Structure du projet

1. Formalismes

Linguistique

Un chunk est défini comme une portion de phrase naturelle à l'oral. Chaque chunk contient une "tête" (mot lexical) entouré de mots grammaticaux. La ponctuation est traitée comme des chunks séparés.

Traitement

Les étapes principales du traitement sont :

  1. Tokenisation du texte brut.
  2. Association des catégories morphosyntaxiques aux tokens via un lexique.
  3. Application des règles pour déterminer les chunks.
  4. Écriture du résultat dans un fichier 'chunks.txt'.
  5. Évaluation des performances via comparaison avec une référence manuelle.

Règles

Le moteur applique 11 règles basées sur :

  • Les catégories morphosyntaxiques.
  • Les combinaisons de tokens successifs.
  • Des motifs morphologiques (regex).

Lexique

Le lexique contient des mots grammaticaux classés par catégories (PRON, DET, PUNCT, etc.).

2. Expérimentations

Deux textes ont été testés :

  1. Texte initial :

    • Précision : 75%
    • Rappel : 10%
    • F-mesure : 18%
    • Problème principal : Surdécoupage causé par des règles trop générales.
  2. Second texte :

    • Avec le lexique initial : F-mesure de 3%.
    • Avec un lexique enrichi :
      • Précision : 80%
      • Rappel : 8%
      • F-mesure : 16%.
    • Problème : Catégories de chunks limitées.

3. Pistes d'amélioration

Limites

  • Surdécoupage des chunks.
  • Non-reconnaissance de certains types de chunks (SV, SVc, etc.).
  • Règles et lexique trop simples.

Améliorations possibles

  1. Ajout de règles spécifiques basées sur le contexte.
  2. Extension du lexique pour inclure des verbes et noms communs.
  3. Révision des règles existantes pour éviter le surdécoupage.

Textes utilisés

About

Moteur à base de règles (MBR) de segmentation de texte brut en chunks

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

pFad - Phonifier reborn

Pfad - The Proxy pFad of © 2024 Garber Painting. All rights reserved.

Note: This service is not intended for secure transactions such as banking, social media, email, or purchasing. Use at your own risk. We assume no liability whatsoever for broken pages.


Alternative Proxies:

Alternative Proxy

pFad Proxy

pFad v3 Proxy

pFad v4 Proxy