Clustering K-means expliqué pour les nuls

Le Clustering consiste à partitionner les données en groupes (clusters) de sorte que les objets de chaque groupe partagent certaines caractéristiques communes entre eux. Dans le fond, l’algorithme trouve tout seul les cas de similarités parmi les données d’entrés.
Par exemple, dans le domaine de Marketing, le Clustering permet de segmenter les clients en différents groupes en fonction de leurs caractéristiques et intérêts. Ceci permet d’appliquer une stratégie marketing spécifique à chaque groupe.
Le clustering K-means est une méthode d’apprentissage non supervisé permettant de partitionner un ensemble de données en K « clusters» avec une variation minimale au sein de chaque cluster et une variation maximale entre les clusters. L’idée consiste à initialiser le cluster K en sélectionnant au hasard K données comme centres des clusters. L’algorithme affecte alors chaque donnée de l’ensemble des données d’entrées au cluster dont le centre est le plus proche et met à jour les centres de chaque cluster en calculant la moyenne des données qui appartiennent aux clusters. Ce processus répète les étapes de relocalisation et de mise à jour jusqu’à ce que l’algorithme converge.
L’algorithme K-means présente plusieurs avantages. En effet, il est facile à implémenter et permet aisément d’identifier des groupes de données inconnus à partir d’ensembles de données complexes. Ainsi, il peut être utilisé pour étiqueter des ensembles de données utilisées pour la classification. L’algorithme K-means s’adapte aux divers changements des données. En cas de souci, l’ajustement du segment de cluster permet d’apporter rapidement des modifications nécessaires à l’algorithme.
Cependant, la performance de l’algorithme K-means dépend du choix de la mesure de similarité et le bon nombre de clusters avec leur centre initial respectif.
Partagez l'article à vos réseaux: on Twitter on Facebook on Google+ on LinkedIn
Je suis Jonas Agbakou, un amoureux et professionnel de la Data Science. J’aime partager plus efficacement mes expériences et donc permettre à ceux qui ont soif de connaissance et souhaiteraient découvrir de nouvelles choses de bien approfondir leurs compétences.
Next post