+237 655 214 000   |   contact@itiss-group.com

Setup Menus in Admin Panel

1. Exemples

Clustering

Le partitionnement de données (ou data clustering en anglais) est une des méthodes statistiques d’analyse des données. Elle vise à diviser un ensemble de données en différents « paquets » homogènes, en ce sens que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité (similarité informatique) que l’on définit en introduisant des mesures et classes de distance entre objets.

 

Un bon partitionnement est caractérisé par le fait d’avoir :

  • Des ensembles (grappes ou cluster) aussi homogènes que possibles (on parle de minimiser l’inertie intra-classe)
  • Des ensembles aussi différenciés que possible (on parle d’inertie inter-classe)

 

Il existe de multiples méthodes de partitionnement des données, parmi lesquelles :

  • Les méthodes basées centroïdes telles que les algorithmes des k-moyennes ou k-medoids
  • Les méthodes de regroupement hiérarchique
  • Des algorithmes de maximisation de l’espérance (EM)
  • Des algorithmes basés densité tels que DBSCAN ou OPTICS
  • Des méthodes connexionnistes telles que les cartes auto adaptatives

 

 

Recherche de communautés dans les réseaux

Un “réseau social” est un graphe dont les noeuds sont des individus ou organisations, connectés par des liens représentant une relation “sociale” : appartenance à la même famille, échange de messages, goûts communs, etc. L’étude des réseaux sociaux est très active depuis quelques années, et les techniques automatiques permettent d’étudier les propriétés statistiques de réseaux de très grandes tailles, comme celui formé par les sites web de l’Internet ou l’ensemble des appels téléphoniques passés sur un opérateur de Télécommunications.

La connaissance des liens entre individus (étude de la formation de communautés, de la propagation des rumeurs ou modes au sein de celles-ci, etc.) est d’une grande importance pour la fouille de données (data mining) : les applications sont nombreuses en marketing, en bio-informatique, en analyse de données textuelles, etc.

Les premiers travaux sur les réseaux sociaux ont cherché à caractériser ceux-ci (types de structures) et à décrire des classes de noeuds : individus “influents” (hubs) ou “suiveurs”, etc., puis à développer des outils collaboratifs exploitant ces structures. L’analyse des réseaux sociaux rejoint aussi les préoccupations de la communauté des chercheurs en Link Analysis.

 

Plusieurs méthodes permettant d’effectuer des recherches de communautés dans les réseaux ont été proposées.

  • La méthode Wu et Huberman (valable pour à l’identification de (micro) communautés et la recherche globale de (macro) communautés
  • La méthode Bagrow et Bollt (méthode rapide et locale)
  • La méthode Da Fontoura Costa (propagation de labels)
  • La méthode Fortunato et al. (méthode plus lente mais peut être plus précise)
  • La méthode Clauset et al.

Il existe également des approches globales basées sur le degré d’intermédiarité (betweenness), dans la lignée des propositions de Girvan et Newman (2002); Newman et Girvan (2004).

 

SEE ALL Add a note
YOU
Add your Comment

Related Courses Widget

Course

top
© ITISS Edu. Tous droits réservés.
X