French version of the paper Categorical fuzzy c-means.

Abstract

Le clustering de données catégorielles correspond aux méthodes d’analyse de données non supervisées qui utilisent des données qualitatives afin de créer des groupes homogènes et distincts les uns des autres. Dans cette famille de méthodes, nous pouvons distinguer les variantes des c-moyennes qui sont des algorithmes basés sur une représentation simple des classes. Ces variantes génèrent soit une partition dure, soit une partition floue. Les méthodes de clustering à partition dure assignent les objets aux classes avec certitude, et celles à partition floue permettent de modéliser le doute quant à l’affectation d’un objet à une classe. Dans ce cadre l’entropie est une mesure couramment employée pour évaluer le degré d’incertitude général de la partition. Elle a parfois été également introduite à la méthode de clustering afin de mieux contrôler les degrés d’incertitude générés. Dans ce papier, nous proposons une nouvelle méthode, dénommée Categorical Fuzzy Entropy (CFE), qui intègre la notion d’entropie dans la fonction objectif. Des expériences sur dix jeux de données réels et des comparaisons statistiques avec des méthodes existantes montrent de bonnes performances de CFE.

Download paper here