Ce projet répond aux exigences, aux restrictions et à des consignes d'un travail demandé dans le cadre d'un cours.
Ce projet consiste à développer un moteur à base de règles (MBR) pour segmenter un texte brut en chunks. Il a été réalisé dans le cadre d'un cours Formalismes pour le TAL en avril 2024. Ce chunker a été réalisée sur la base d'un texte spécifique venant du Gorafi (texte.txt). Nos règles et nos lexiques ont été construits sur la base spécifique de ce texte. Nous avons testé ce moteur sur un autre texte du Gorafi (texte_test.txt).
- Tokenisation : Segmentation du texte en unités basée sur des règles et un lexique.
- Segmentation en chunks : Application de règles morphosyntaxiques pour regrouper les tokens en chunks.
- Évaluation des performances : Calcul de la précision, du rappel et de la F-mesure.
Un chunk est défini comme une portion de phrase naturelle à l'oral. Chaque chunk contient une "tête" (mot lexical) entouré de mots grammaticaux. La ponctuation est traitée comme des chunks séparés.
Les étapes principales du traitement sont :
- Tokenisation du texte brut.
- Association des catégories morphosyntaxiques aux tokens via un lexique.
- Application des règles pour déterminer les chunks.
- Écriture du résultat dans un fichier 'chunks.txt'.
- Évaluation des performances via comparaison avec une référence manuelle.
Le moteur applique 11 règles basées sur :
- Les catégories morphosyntaxiques.
- Les combinaisons de tokens successifs.
- Des motifs morphologiques (regex).
Le lexique contient des mots grammaticaux classés par catégories (PRON, DET, PUNCT, etc.).
Deux textes ont été testés :
-
Texte initial :
- Précision : 75%
- Rappel : 10%
- F-mesure : 18%
- Problème principal : Surdécoupage causé par des règles trop générales.
-
Second texte :
- Avec le lexique initial : F-mesure de 3%.
- Avec un lexique enrichi :
- Précision : 80%
- Rappel : 8%
- F-mesure : 16%.
- Problème : Catégories de chunks limitées.
- Surdécoupage des chunks.
- Non-reconnaissance de certains types de chunks (SV, SVc, etc.).
- Règles et lexique trop simples.
- Ajout de règles spécifiques basées sur le contexte.
- Extension du lexique pour inclure des verbes et noms communs.
- Révision des règles existantes pour éviter le surdécoupage.
- "Il meurt de vieillesse en tentant de fermer tous les onglets ouverts par ses parents", publié le 23/01/2024 par La Rédaction, https://www.legorafi.fr/2024/01/23/il-meurt-de-vieillesse-en-tentant-de-fermer-tous-les-onglets-ouverts-par-ses-parents/
- "Astrologie – Mercure percute accidentellement un semi-remorque sur l’A6 en rétrogradant trop tôt", publié le 19/09/2023 par La Rédaction, https://www.legorafi.fr/2023/09/19/astrologie-mercure-percute-accidentellement-un-semi-remorque-sur-la6-en-retrogradant-trop-tot/