Projet 6 de ma Formation d'ingénieur IA : Améliorez le produit IA de votre start-up

Vincent RENARD 3f87ae0b87 final v2 9 months ago
.ipynb_checkpoints 245c42319e Advance 9 months ago
dask-worker-space 5310712520 BERT 9 months ago
images 9bfef82e38 pres Done 9 months ago
photos_sample 39d15abbb3 update pictures 9 months ago
.gitignore 295cceea34 initial commit 10 months ago
Dataset_creation.ipynb f7538fdc3f pres 9 months ago
Photos_Extraction.ipynb 5a73942e79 update pictures 9 months ago
Presentation.md 91072979ae renaming files 9 months ago
README.md 3f87ae0b87 final v2 9 months ago
RENARD_Vincent_1_csv.csv 91072979ae renaming files 9 months ago
RENARD_Vincent_2_Notebook_Scraping.ipynb 568db5e0ad final commit 9 months ago
RENARD_Vincent_3_Notebook_LDA.ipynb 91072979ae renaming files 9 months ago
RENARD_Vincent_4_Notebook_BERT.ipynb 91072979ae renaming files 9 months ago
RENARD_Vincent_5_Notebook_ORB.ipynb 3f87ae0b87 final v2 9 months ago
RENARD_Vincent_6.5_Notebook_CNN_V2.ipynb 3f87ae0b87 final v2 9 months ago
RENARD_Vincent_6_Notebook_CNN.ipynb 91072979ae renaming files 9 months ago
RENARD_Vincent_7_Presentation.html 91072979ae renaming files 9 months ago
businesses_reviews_Paris.csv 568db5e0ad final commit 9 months ago
lda.html 86b6eea3b9 pres continues 9 months ago
photos_sample.csv 5310712520 BERT 9 months ago
review_sample.csv 5310712520 BERT 9 months ago
umap3D.html 346f8280f5 pres 9 months ago
umap3D_clustered.html 346f8280f5 pres 9 months ago

README.md

Partie Computer Vision :

  • 2 colonnes "nom_fichier" | "label"

  • Taille du dataset : 300 photos par catégories

TODO :

  • le bruit sur les images a été filtré
  • l’histogramme a été égalisé sur les images
  • un algorithme d’extraction de features a été créé (ORB, SIFT, SURF)

Partie NLP :

  • dataset d'avis Négatifs

  • Taille du dataset : 10000 commentaires

TODO :

  • pour le texte, au moins un bag-of-words a été créé, incluant des étapes de nettoyage supplémentaires, comme un seuil de fréquence et la normalisation des mots

DataViz

  • au moins un graphique représentant des informations contenant plus de deux dimensions a été réalisé
  • la lecture du graphique a été facilitée en explicitant les différents éléments pour un public non expert

Mentorat :

Partie CV :

Checker les sorties de l'algorithme de base en tracant des T-SNE sur les deux étapes

Partie NLP :

Preprocessing du texte
Bag of Words
TF-IDF

TO DO :

  • Partie CNN : Faire une extraction des features ( Non supervisé)