From 5e9b2e8dbf04b8110fde80845f43e8502082426e Mon Sep 17 00:00:00 2001
From: Videgrain Adrien <adrien.videgrain@student.ecp.fr>
Date: Sat, 28 Nov 2020 18:35:53 +0100
Subject: [PATCH] Update README.md

---
 README.md | 35 +++++++++++++++++++++++++++++++++++
 1 file changed, 35 insertions(+)

diff --git a/README.md b/README.md
index 6fdd7a4..79b06c2 100644
--- a/README.md
+++ b/README.md
@@ -1,5 +1,40 @@
 # README.md
 
+## Question answering sur des textes de lois
+
+Ce repository contient le travail effectué sur un projet de question answering sur des textes de loi.
+
+## Description
+
+Le Q&A est actuellement très développé pour l'anglais, mais est très en retard pour les autres langages, notamment le francais. On se propose de travailler sur l'état de l'art de cette technologie avec le modèle CamemBERT, issu de la famille des modèles BERT pour le NLP.
+
+## Auteurs
+
+Adrien Videgrain
+Illias Alaoui
+Guillaume Bouzy
+Achraf Gharbi
+Amine Kili
+Orpheric Ahmed Oura
+Oumaima Chamid
+Zhihao li
+Zhufan Yu
+
+## Organisation du travail
+
+Les données ont été récupérées depuis le site de legifrance à l'aide d'un script de parsing : https://www.legifrance.gouv.fr/codes/texte_lc/LEGITEXT000006070719
+
+Les données ont ensuite été annotées avec l'aide de l'outil d'Illuin technologies : https://etiquette.illuin.tech/
+
+Il a ensuite fallu transformer les données pour qu'elles soient compatibles avec le modèle CamemBERT.
+
+Les données annotées sont trouvables dans lois.txt .
+
+Ce set de données a ensuite été scindé en set d'entrainement, de validation et de test. Ils ne sont pas récupérables ici car restés sur machine.
+
+L'entrainement s'est fait sur le mésocentre du Moulon, dont la documentation est ci après.
+
+
 ## TL ; DR
 
 ```bash
-- 
GitLab