Ce repository contient le travail effectué sur un projet de question answering sur des textes de loi.
## Description
Le Q&A est actuellement très développé pour l'anglais, mais est très en retard pour les autres langages, notamment le francais. On se propose de travailler sur l'état de l'art de cette technologie avec le modèle CamemBERT, issu de la famille des modèles BERT pour le NLP.
## Auteurs
Adrien Videgrain
Illias Alaoui
Guillaume Bouzy
Achraf Gharbi
Amine Kili
Orpheric Ahmed Oura
Oumaima Chamid
Zhihao li
Zhufan Yu
## Organisation du travail
Les données ont été récupérées depuis le site de legifrance à l'aide d'un script de parsing : https://www.legifrance.gouv.fr/codes/texte_lc/LEGITEXT000006070719
Les données ont ensuite été annotées avec l'aide de l'outil d'Illuin technologies : https://etiquette.illuin.tech/
Il a ensuite fallu transformer les données pour qu'elles soient compatibles avec le modèle CamemBERT.
Les données annotées sont trouvables dans lois.txt .
Ce set de données a ensuite été scindé en set d'entrainement, de validation et de test. Ils ne sont pas récupérables ici car restés sur machine.
L'entrainement s'est fait sur le mésocentre du Moulon, dont la documentation est ci après.