Fonctionnement des outils de recherche
Alors qu’un navigateur Web permet de consulter un site ou une page dont on connaît l’adresse, un moteur de recherche est conçu pour faire une recherche à partir de mots clés renvoyer une liste de liens vers des documents susceptibles d’être pertinents. Si, depuis la fin des années 1990, les moteurs se sont diversifiés quant à la nature des documents qu’ils permettent de retrouver (pages Web, images, vidéos, fichiers son), leur principe général de fonctionnement reste globalement toujours le même.
- La collecte d’informations
- L’indexation des données collectées
- Le traitement des requêtes
- La restitution des résultats
Fonctionnement des moteurs de recherche
Collecte d’information
Encore appelée crawl, la collecte des pages repose sur le principe du Web qui associe à chaque document publié une adresse URL (uniform resource locator). Elle est réalisée par un « robot », un programme informatique (appelé spider ou crawler en anglais) qui, à partir d’une liste initiale d’adresses, visite les pages Web correspondantes et y collecte les adresses mentionnées dans les liens. De proche en proche, cette technique permet de découvrir de nouvelles ressources en ligne. Le procédé détaillé de la collecte des adresses diffère d’un moteur à l’autre, selon l’ensemble de départ d’adresses qui sert à l’initier, les techniques de suivi des liens et la fréquence de mise à jour de la base d’adresses du moteur. C’est pourquoi les différents moteurs de recherche n’ont pas la même portée et ne couvrent pas les mêmes ressources. Les moteurs copient sur leurs propres serveurs (cache) les pages rencontrées afin de disposer d’une version stabilisée pour l’indexer.
Indexation des données collectées
Les pages Web collectées sont analysées par un logiciel qui procède à leur indexation. L’indexation consiste à caractériser les pages par des mots clés pour permettre de les retrouver. Dans le cas des moteurs de recherche, l’extraction de mots ou de groupes de mots à partir des documents est automatisée. Le moteur constitue un index qui, pour chaque mot repéré, renvoie aux pages où ce mot est présent. Pour un programme informatique, un mot est une simple suite de caractères entre deux séparateurs (par exemple une espace ou un signe de ponctuation), il n’a pas de sens. L’indexation du texte intégral pose des problèmes liés à l’homonymie (un mot peut avoir des sens très différents, par exemple « paris » peut correspondre aux enjeux des joueurs, à la capitale de la France ou au personnage de la mythologie grecque) et à la synonymie (une page comportant le mot « voiture » et une autre le mot « automobile » ne seront pas liées dans l’index).
Certains moteurs, comme Google, ajoutent à l’index d’une page, sous certaines conditions, les mots qui apparaissent dans les liens pointant vers elle. Le procédé permet d’obtenir d’autres termes descripteurs jugés représentatifs par ceux qui ont signalé la page dans leur propre site.
Traitement des requêtes
L’interface d’interrogation est la seule partie visible du moteur de recherche pour l’utilisateur. Elle permet de formuler la demande et de consulter les résultats. Deux types d’interfaces sont souvent proposés : une interface de recherche simple, composée d’une barre de recherche et d’un ou plusieurs boutons ; une interface de recherche avancée où l’on peut préciser sa requête en choisissant des options.
De nombreuses études scientifiques montrent que les utilisateurs de moteurs emploient peu de mots dans leurs requêtes, et ils ne consultent souvent que les tout premiers liens proposés dans les résultats alors qu’il existe plusieurs centaines de milliers voire millions de pages candidates. Le défi auquel sont confrontés les moteurs de recherche est non seulement de retrouver les pages qui peuvent correspondre à la demande formulée mais surtout de classer les résultats par pertinence. Pour ce faire, chaque moteur a sa propre recette qui mélange un grand nombre de critères exprimés dans des algorithmes. L’importance d’un mot pour décrire une page peut être déterminée à partir de sa position dans la page (par exemple, un mot présent dans le titre de la page aura plus de poids que les autres) ou sa densité d’apparition. Google a aussi mis en place un algorithme qui repose sur la popularité : plus une page est signalée par des liens dans d’autres sites, mieux elle sera classée. Ce principe a été repris par d’autres moteurs commerciaux.
Restitution des résultats
Une fois la recherche lancée, la restitution des résultats identifiés se fait dans ce que l’on appelle communément des SERP (Search Engine Result Pages) ou pages de résultats, le plus souvent présentées sous la forme d’une liste d’une dizaine de liens affichés les uns en dessous des autres. Les pages de résultats des moteurs de recherche affichent deux principaux types de contenu :
- les liens « organiques » ou « naturels », obtenus grâce au crawl du Web ;
- les liens sponsorisés, encore appelés liens commerciaux ou publicitaires, issus du référencement payant.
Ces liens publicitaires ont souvent une relation avec les mots choisis par l’internaute dans sa requête, afin de présenter une publicité « pertinente », susceptible d’être bien tolérée par les internautes mais parfois aussi confondue avec les résultats organiques. Depuis 2005, les moteurs ont reçu des directives pour faire en sorte de les distinguer plus clairement, en les affichant dans une colonne séparée ou en haut de la page. Chaque résultat de la liste correspond à un lien, accompagné du titre de la page cible et d’un court fragment montrant les mots recherchés dans le texte.
Préparation du référencement
La méthodologie de référencement peut varier d’une situation à une autre. Toutefois, il est d’usage d’inclure au moins les étapes suivantes :
- l’optimisation in-page ;
- l’optimisation off-page ;
- la vérification, le suivi et l’éventuelle amélioration du positionnement.
Pour les implémenter, il sera utile de passer par les étapes de préparation suivantes :
- le choix d’un navigateur de travail ;
- le choix des mots-clés ;
- le choix des moteurs et éventuellement des annuaires à prendre en compte.
Choix des outils et technologies
La stratégie de référencement d’un site web doit idéalement influer sur sa conception et son implémentation. Il sera judicieux dans ces cas-là, de tenir compte des contraintes de référencement éventuelles en fonction des technologies de développement web choisies (Ajax, Flash, etc.)
Dans un autre sens, pour travailler au référencement de votre site web, vous pourrez avoir besoin d’effectuer des tâches incluant du développement web. Utiliser le navigateur adéquat peut être d’un grand apport :
- par la disponibilité d’extensions facilitant l’implémentation des tâches de développement web souhaitées ;
- pour visualiser le résultat des modifications effectuées et vérifier qu’elles sont conformes au standard.
Deux navigateurs se démarquent totalement des autres produits : Mozilla Firefox et Google Chrome/Chromium. Ils possèdent des communautés d’utilisateurs et de développeurs très grandes. Ces développeurs créent tous les jours de nouveaux « plugins », dont certains seront très utiles pour nous aider dans votre travail de référencement.
Nota : Google Chrome et Chromium sont très similaires. Il s’agit à 95 % des mêmes navigateurs. L’un est simplement supporté par des développeurs bénévoles alors que l’autre est supporté par Google. Une extension Google Chrome sera également compatible avec Chromium. Vous pouvez utiliser Chromium si vous êtes inquiets quant au respect des informations personnelles.
Voici ci-après une liste d’extensions disponibles.
- Pour Mozilla Firefox
Nom de l’extension | Description |
Web Developper | Web Developper est une extension Firefox qui se caractérise par l’ajout d’une toolbar à votre navigateur. Elle permet facilement de désactiver les feuilles de styles, les images, les codes JavaScript… Bientôt, vous ne pourrez plus vous en passer. |
Firebug | Firebug complète Firefox en lui ajoutant des outils de développement web. Il vous sera notamment utile pour repérer des erreurs dans vos codes JavaScript, mais aussi pour mettre en évidence les blocs qui composent votre page web. Appuyez sur la touche F12 pour ouvrir ces nouveaux outils. |
User Agent Switcher | Du même auteur que Web Developper, cette extension Firefox vous permettra de modifier facilement votre user-agent. Le user-agent permet de spécifier le robot destinataire des directives du fichier robots.txt |
WebRank Toolbar | Une barre d’outils qui vous donne un aperçu complet de ce que vaut le site ouvert dans Firefox, en matière de référencement. |
KGen | KGen est une extension Firefox qui sera capable de vous fournir une liste de mots-clés pertinents pour la page web que vous visitez. |
- Pour Google Chrome/Chromium
Nom de l’extension | Description |
Page Rank Status | Page Rank Status est une extension Google Chrome qui va vous permettre d’afficher dans le navigateur le Page Rank ainsi que beaucoup d’autres informations comme le rang Alexa de la page que vous êtes en train de visiter. Le rang Alexa est un classement des sites internet les plus visités sur le web. |
SEO Site Tools | SEO Site Tools est une extension Google Chrome incontournable qui va vous fournir des informations très poussées sur la page web que vous êtes en train de visiter. Elle va notamment vous permettre de lister les headings (<h1>, <h2>,…) ainsi que beaucoup d’autres choses. |
Nota : Il existe moins d’extensions pour faciliter le référencement avec Google Chrome / Chromium que pour Mozilla Firefox, mais certaines des fonctionnalités ajoutées sur ce dernier navigateur sont intégrées de manière native dans Google Chrome / Chromium.
Pour mettre en place une stratégie de référencement, la première phase consiste à choisir les « bons » mots-clés pour positionner vos pages web. Contrairement à ce que l’on pourrait croire, ce n’est pas si simple. Il s’agit d’une phase cruciale pour votre référencement : choisir des mots-clés sur lesquels un positionnement est trop complexe peut s’avérer désastreux ; tout comme le fait d’opter pour des termes qui ne sont jamais saisis par les internautes…
Les mots-clés que vous allez choisir sont extrêmement importants et doivent répondre à deux notions essentielles.
- L’intérêt. Ils doivent être souvent (le plus possible) tapés par les utilisateurs des moteurs de recherche. Ce n’est pas toujours le cas.
- La faisabilité. Il doit être techniquement possible de positionner une page web dans les premiers résultats des moteurs pour ce terme dans des délais acceptables. Ce n’est, là encore, pas toujours le cas, en tout cas dans des délais « raisonnables »…
Bien sûr, les termes choisis doivent décrire votre activité et le contenu de votre site web, cela va sans dire…
L’objectif de cette première partie stratégique sera de déterminer pour quels mots-clés votre site peut et doit être optimisé dans le cadre de la « tête » de la longue traîne. En effet, comme le montre la figure 3-1, on s’aperçoit le plus souvent en regardant les statistiques d’un site web que :
- environ 20 % du trafic « moteurs de recherche » (tête de la longue traîne) est constitué par des mots-clés très souvent saisis sur les moteurs et pour lesquels le site est optimisé et bien positionné. Ceci représente un nombre relativement faible de mots-clés (quelques dizaines), chacun d’eux générant un fort trafic ;
- environ 80 % du trafic « moteurs de recherche » est constitué par la queue de la longue traîne et des requêtes – générées par le contenu des pages web – saisies peu souvent sur les moteurs pour trouver le site. Ceci représente un nombre important de mots-clés, chacun d’eux générant un faible trafic, mais leur somme globale représentant la majorité du trafic « moteurs »…
Longue traine
Plusieurs pistes peuvent être exploitées pour choisir les mots clés pour son site.
-
- L’intuition
Certains mots-clés peuvent vous venir automatiquement à l’esprit lorsque vous pensez à votre activité (ne serait-ce qu’en ce qui concerne votre marque…). Notez-les précieusement. Mais rien ne dit que les mots-clés que vous imaginez seront obligatoirement ceux utilisés par les internautes lorsqu’ils chercheront un site tel que le vôtre. Votre vision de votre métier et de votre entreprise, parfois très interne et personnelle, peut être différemment perçue par un internaute lambda ou un prospect… On a parfois pas mal de surprises à ce niveau a posteriori. Cela dit, la piste intuitive est souvent excellente, ne la négligez donc pas mais ne vous basez pas non plus uniquement sur elle.
-
- Les bases de données
Il existe des bases de données de mots-clés comme Wordtracker (http://www.wordtracker.com/) ou Keyword Discovery (http://www.keyworddiscovery.com/) qui peuvent vous aider à identifier les termes les plus intéressants. Certains outils de recherche proposent également en ligne un palmarès des termes les plus souvent demandés sur leur outil, comme le « Lycos Top 50 Searches » (http://www.lycos.com/). Mais ces dernières listes ne vous aideront pas vraiment puisqu’elles ne proposent qu’une suite limitée de termes très souvent demandés. Il y a peu de chances que vous y trouviez votre bonheur… En revanche, Wordtracker ou Keyword Discovery sont plus complets, mais payants et assez souvent limités en ce qui concerne les mots-clés en français (bien que Keyword Discovery soit bien plus performant que son concurrent à ce niveau). Ils sont cependant très pertinents pour la langue anglaise.
- Les générateurs de mots-clés :
Parmi les outils de type « générateurs de mots-clés » qui vous proposent des termes de recherche contenant un mot préalablement saisi, voici quelques exemples de ce que l’on peut trouver en ligne.
Tout d’abord, les prestataires de liens publicitaires sponsorisés proposent tous des outils permettant d’identifier des mots-clés souvent saisis sur leur réseau de sites partenaires. Ils fournissent deux types d’informations :
- Le nombre de fois où la requête a été demandée sur les moteurs de recherche sur lesquels ils affichent leurs liens sponsorisés.
- Des expressions connexes contenant le mot initialement demandé. La requête« référencement » proposera ainsi « référencement gratuit », « référencement site », « référencement Internet », etc.
Voici ci-après une liste non exhaustive et susceptible de varier, d’outils permettant de choisir une liste de mots clés.
Outil | Disponibilité | Catégorie de service fourni |
Google Suggest | http://www.google.fr/ | Suggestions à la volée de mots clés connexes lors de la saisie dans un formulaire de recherche |
WikiWax | http://www.wikiwax.com/ | |
Outiref | http://www.outiref.com/ | Suggestions de mots clés à partir de termes de départ |
Wordtracker | http://www.wordtracker.com/ | |
Keyword Discovery | http://www.keyworddiscovery.com/ | |
SEO Book | http://tools.seobook.com/general/keyword/ | |
Search Combination Tool – | http://www.webuildpages.com/search/ | |
Good Keywords (logiciel) | http://www.goodkeywords.com/ | |
TheFreeDictionnary | http://www.thefreedictionary.com/ | |
Dictionnaire de synonymes | http://elsap1.unicaen.fr/cgi-bin/cherches.cgi |
- Les sondages internes ou externes
Interroger des échantillons d’individus plus ou moins proches de l’activité ou du produit présenté par le site web à référencer peut permettre d’identifier des mots-clés susceptibles d’être utilisés fréquemment par les internautes.
- Les résultats sur les moteurs de recherche
Les résultats de recherche proposés par les outils comme Google, Bing ou Yahoo!, lorsqu’on tape certains mots-clés concernant vos activités / produits peuvent compléter la liste de mots clés.
- Les recherches apparentées (Related Searches)
Sur des outils de recherche comme AltaVista (.com ou .fr), Google, Exalead ou Yahoo.com, le moteur propose, dans ses pages de résultats, des recherches apparentées. Comme vous pouvez le voir ci-après, ce sont des suites de deux ou trois termes contenant − ou non − le mot demandé au départ. Ces expressions sont issues de bases de données statistiques sur les mots-clés les plus demandés par les internautes dans le passé. Ils constituent également des informations qui peuvent se révéler utiles.
Recherches apparentées
- L’audit de la concurrence
Consulter les balises meta keywords des sites concurrents (s’ils en utilisent encore…) peut suggérer de nouveaux mots clés
- Les fautes d’orthographe et de frappe
Anticiper les fautes d’orthographe et les fautes de frappe courantes sur le nom ou les mots-clés essentiels peut générer un trafic important.
Le décompte d’un mot clef est le nombre de fois que ce dernier apparaît dans le contenu d’une page. Longtemps utilisé comme un paramètre clé du positionnement, il a été remplacé par l’indice de densité d’un mot clef. L’IDM est le rapport entre le décompte d’un mot clef et le nombre total de mots de la page. Cet indice représente un indicateur de la pertinence d’une page pour un mot clef donné.
Exemples :
- Dans une page contenant 100 mots, un terme est répété 3 fois. Son IDM est alors de 3/100 = 3 %.
- Même nombre d’occurrences dans une page de 200 mots : IDM = 3/200 = 1,5 %.
Il est important de trouver un compromis entre le fait de répéter les mots clés de manière aléatoire, pratique déconseillée par Google, et celui de les utiliser de manière pertinente et significative.
- Les mots clefs importants sont à placer en haut de la page de préférence.
- Pour avoir un sens pour le référencement, les phrases doivent surtout avoir du sens pour l’internaute.
- Equilibrer la répartition des mots clefs dans la page est conseillé.
Le référencement de votre site web peut induire un investissement significatif, il est important de l’optimiser pour des moteurs de recherche / des annuaires générant assez de trafic pour justifier cet investissement.
Selon les chiffres fournis par Net Applications pour l’année 2015 et Web Rank Info pour l’année 2018, les parts de marché à l’échelle mondiale sont réparties ainsi qu’il suit :
MOTEUR DE RECHERCHE | PART DE MARCHE MONDIALE | |
2015 | 2018 | |
Google Search | 88,66% | 90,3% |
Bing | 4,13% | 3,2% |
Yahoo! Search | 3,55% | 2,1% |
Autres | 2,34% | 1,8% |
Baidu.com Inc. * | 0,74% | 2% |
Yandex * | 0,58% | 0,6% |
* Bien que « transparents » à l’échelle mondiale, Baidu et Yandex
sont leaders sur leur marché local (respectivement la Chine et la Russie)
Parts de marché des moteurs de recherche dans le mond