Skip to content
Snippets Groups Projects
Commit 5e9b2e8d authored by Videgrain Adrien's avatar Videgrain Adrien
Browse files

Update README.md

parent c25b9a63
No related branches found
No related tags found
No related merge requests found
# README.md
## Question answering sur des textes de lois
Ce repository contient le travail effectué sur un projet de question answering sur des textes de loi.
## Description
Le Q&A est actuellement très développé pour l'anglais, mais est très en retard pour les autres langages, notamment le francais. On se propose de travailler sur l'état de l'art de cette technologie avec le modèle CamemBERT, issu de la famille des modèles BERT pour le NLP.
## Auteurs
Adrien Videgrain
Illias Alaoui
Guillaume Bouzy
Achraf Gharbi
Amine Kili
Orpheric Ahmed Oura
Oumaima Chamid
Zhihao li
Zhufan Yu
## Organisation du travail
Les données ont été récupérées depuis le site de legifrance à l'aide d'un script de parsing : https://www.legifrance.gouv.fr/codes/texte_lc/LEGITEXT000006070719
Les données ont ensuite été annotées avec l'aide de l'outil d'Illuin technologies : https://etiquette.illuin.tech/
Il a ensuite fallu transformer les données pour qu'elles soient compatibles avec le modèle CamemBERT.
Les données annotées sont trouvables dans lois.txt .
Ce set de données a ensuite été scindé en set d'entrainement, de validation et de test. Ils ne sont pas récupérables ici car restés sur machine.
L'entrainement s'est fait sur le mésocentre du Moulon, dont la documentation est ci après.
## TL ; DR
```bash
......
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment