Sommaire

Projet 09 : Produisez une étude de marché avec R ou Python


Objectif : Une entreprise souhaite s'internationaliser, il faut produire une étude de marché qui nous permettra de sélectionner les pays qui représentent un intérêt particulier pour l'entreprise.

Import et préparation des données :

Dans un premier temps, nous allons importer nos données puis les préparer pour l'analyse.

Disponibilité alimentaire

Dépendance à l'importation de Volaille

Importation de Volaille

Ration de protéines Animales dans l'alimentation

PIB / Habitant

Population

Merge de nos différents dataframes :

On obtient un dataframe contenant 10 variables qui nous permettront d'effectuer une analyse et une classification des pays.

Classification Hiérarchique des Pays :

Nous allons calculer une matrice de corrélation pour nos variables afin de sélectionner celles qui seront utilisées pour l'analyse :

Au vu de ces résultats, nous allons sélectionner 6 variables pour notre analyse :

Clustering Hiérarchique :

Nous allons visualiser la distribution de nos différentes variables sur une heatmap afin de pouvoir se représenter les différentes tendances de nos clusters :

Nous voyons apparaître 6 Clusters. Afin de les départager et de choisir le cluster le plus pertinent dans notre cas, nous allons maintenant visualiser la distribution des différentes variables en fonction du cluster :

Selon notre classification hiérarchique, le cluster le plus pertinent semble être le Cluster 6. En effet, c'est le cluster qui importe le plus de Volailles tout en ayant un PIB / Habitant supérieur aux Clusters 1 et 2 qui ont pourtant une dépendance à l'importation plus élevée. Il paraît pertinent de favoriser des marchés représentant des volumes plus importants. Ce Cluster est composé des pays suivants :

Conclusion

Il apparaît important de noter que la distance à la France n'est pas prise en compte dans ce calcul. De ce fait une priorité peut être faite vers les pays européens afin de simplifier les contraintes de transport. Le choix se porterait donc sur :

Analyse en Composante Principale :

Réalisons une ACP sur nos données afin d'identifier les différents axes d'inertie :

On voit que nos deux premières composantes F1 et F2 représentent 64 % de l'inertie initiale de nos données. La composante F1 nous permet de situer les pays selon leur santé économique et nutritionnelle. En effet, un pays situé dans le positif sur F1 aura une disponibilité en nourriture satisfaisante et un PIB important, bien que l'évolution de la population y soit moindre. Notre composante F2 représente quasiment exclusivement la dépendance à l'importation d'un pays. On remarquera donc les pays situés en positif sur cette composante. Il est important de noter que notre composante F3 représente également un intérêt. En effet, F3 représentera fortement la quantité d'importation.

Classification par KMeans :

Afin de trouver le bon nombre de clusters à afficher pour l'algorithme KMeans, on peut identifier le nombre de clusters pour lequel l'inertie intra-classe sera minimisée. On peut alors visualiser ces données et sélectionner le nombre optimal de classes dans notre cas.

Après lecture du graphique, un bon choix du nombre de clusters semble être 6.

Clustering et visualisation des clusters selon l'ACP

En observant la projection sur le premier plan factoriel, nous voyons que nos Clusters 1, 2, 3 et 6 sont clairement identifiables alors que nos clusters 5 et 4 sont confondus. Ils sont cependant distincts quand on les projette avec notre troisième composante. On peut alors identifier que le cluster 5 sera celui qui importe le plus au vu de la quantité, et qu'il dispose d'une meilleure santé financière.

Nous pouvons effectuer la même analyse des variables que pour la classification hiérarchique afin d'identifier notre cluster "cible"

Ici de la même manière qu'avec la classification hiérarchique, nous identifions le cluster 5 comme ayant le plus d'intérêt. Il possède en effet un PIB/Habitant qui est le deuxième meilleur, mais une quantité d'importation supérieure au reste des pays, signe d'un marché déjà existant.

Conclusion Générale

Nous allons afficher la liste des deux clusters sélectionnés par nos méthodes :

On voit ici que nos deux méthodes de clustering renvoient des pays similaires. Comme indiqué précédemment, la composante géographique est à prendre en considération et on peut identifier 3 pays qui sont présents dans les deux clusters tout en étant géographiquement proche de la France :

Nous pouvons visualiser nos données pour ces 3 pays afin de pouvoir vérifier la pertinence de notre choix :

On remarque sans surprise que nos pays sont très similaire sur les 10 variables présentes dans notre analyse et ont l'air d'être de bons candidats pour commencer une activité à l'international dans des pays limitrophes qui disposent déjà d'un marché existant.