02 février 2006 


Accueil > Le blog des moteurs de recherche et du référencement >

Abondance de pages nuit parfois...


Depuis de très nombreuses années et quasiment depuis que les moteurs de recherche existent, je lis des études menées sur une donnée très répandue, à savoir le nombre de résultats retournés par les moteurs de recherche.

En effet, lorsque vous saisissez une requête dans le formulaire de recherche d'un moteur, ce dernier vous indique, sur sa page de résultats, le nombre de documents qui répondent à cette demande. Or, historiquement, il a le plus souvent été admis que cette indication n'était fournie que de façon approximative (notez, d'ailleurs, le "environ" utilisé par Google et Yahoo!) et, il faut bien le dire, parfois très farfelue...

Cette raison fait qu'il me semble réellement difficile de se baser sur cette donnée pour mettre en place des études savantes la prenant en compte, car ces travaux seraient immanquablement bâtis sur du sable, les informations de départ n'étant pas fiables. Je me souviens même d'une époque où le nombre retourné par un moteur de recherche majeur (mais dont l'aura a quelque peu décliné depuis) était à la limite de l'aléatoirité... Nous n'en sommes, heureusement, plus là aujourd'hui, ceci dit, on cotoie parfois quand même le "grand n'importe quoi" sur la plupart des moteurs actuels à ce sujet (même si certains semblent plus fiables que d'autres)...

Ce qui me gène, c'est que je ne comprends pas pourquoi les moteurs ne fournissent pas une donnée exacte... Bien sûr, certains argumenteront sur le fait que la plupart des moteurs limitent le nombre maximal de résultats affichés (1 000 pour Google) pour une requête donnée et que, après tout, si ce nombre global est de 6 ou 7 millions, quelle importance cela peut-il avoir, puisqu'on ne peut pas voir tous résultats ? Certes, mais est-ce une raison pour ne pas bien faire son travail ?

Cette approximation peut, à mon avis, venir de deux raisons fondamentales :
- Des raisons techniques, les moteurs préférant garder de la "charge machine" pour d'autres tâches plus importantes. Si cet argument tient pour des requêtes complexes, contenant de nombreux mots clés ou utilisant une syntaxe avancée (site:, link:, etc.), le fonctionnement interne d'un moteur de recherche, sur la base d'index inversés*, devrait faire en sorte que sur des mots clés génériques, ou sur des requêtes à un seul terme, un nombre exact de résultats devrait être disponible "sans effort". Ce qui n'est pas le cas.
- Des raisons concurrentielles, les moteurs fournissant un nombre de résultats supérieur à celui de leurs concurrents, sur la base d'un benchmark effectué au préalable. La course au plus gros index peut rendre fou :-) Peu probable, mais après tout, pourquoi pas ?

Bref, l'inexactitude parfois flagrante de cette donnée retournée par les moteurs de recherche reste un mystère pour moi. Pourquoi oeuvrer à une pertinence toujours meilleure et, en même temps, retourner une info parfois très éloignée de la vérité en ce qui concerne le nombre de résultats identifiés ? Si quelqu'un peut m'aider dans mes réflexions, je suis preneur... :-)

* Les abonnés à la lettre "Recherche & Référencement" du site Abondance pourront se référer à l'article "Comment fonctionne un moteur de recherche ?" du mois de mars 2005 à ce sujet.

Bookmarker dans : Scoopeo | Del.icio.us | Digg | Autres :   AddThis Social Bookmark Button

 

4 Commentaire(s) :

Il y a peut-être aussi d'autres pistes à explorer pour expliquer les résultats pour le moins aléatoires de certains moteurs.
Si l'on prend le cas de Google par exemple, son principe même de fonctionnement fait que, selon les cas, la question est posée à l'un ou à l'autre de ses data centers, et qu'il peut y avoir des différences notables entre eux.

L'outil de Webrankinfo, qui permet d'afficher les résultats de dix-huit data centers, est à ce titre précieux. A la requête "abondance", on voit que les réponses peuvent varier, selon le centre interrogé, de 3,980,000 à 1,990,000 pages, en passant par des résultats comme 3,680,000 ; 2,360,000, etc. Les résultats à la requête "intitle:abondance" semblent plus "homogènes", mais varient quand même entre 65000 et 117000. Et l'on remarque aussi que selon le data center interrogé, la version cache de la page d'accueil d'abondance.com peut dater du 31 janvier ou du 24 janvier...

Pour compléter le sujet enfin, je viens tout juste de mettre en ligne (en accès libre) sur notre site www.bases-publications.com, un article intitulé "Peut-on se fier à Google ? Enquête sur des résultats étranges", paru dans le dernier numéro de Netsources, et qui traite justement de ça (avec d'autres voies d'investigation)...

Bref, "l'enquête piétine" ;-)

Les approximations majorent, les filtres minorent, au final pas un seul moteur ne sait combien il a de pages par requête.

Mais sur le sujet, le professeur Veronis est incollable :
http://aixtal.blogspot.com/

C'est pour moi évident que c'est la première hypothèse (problème de performance) qui est à l'origine de l'imprécision. Calculer le nombre exact de résultats pour une requête donnée implique de parcourir toute la base de donnée. C'est une tâche impossible vu le nombre de requêtes à le seconde que traitent ces moteurs, et même si les moteurs décidaient de parcourrir toutes la base pour connaître le nombre de résultats, ils ne le feraient pas à chaque requête et utiliseraient un système de cache. Donc même dans ce cas, le nombre de résultat sera approximé et dans ces conditions, il vaut mieux directement faire une approximation statistique qui évite de parcourir toute la base.

A ma connaissance, le nombre de résultats affichés par Google est approximatif pour deux raisons essentiellement :

1. D'une part, l'index de Google est mis à jour de manière distribuée (chaque index est divisé en "shards" répliqués sur plusieurs serveurs) et non pas en bloc. Concrètement, une requête porte sur un ensemble de serveurs d'index, qui eux-mêmes ne sont pas forcément synchronisés à un instant t avec les serveurs de documents, ce qui explique qu'une requête qui annonce 30 résultats en fournit en réalité parfois plus ou moins lorsque l'on navigue dans les pages.

2. D'autre part, les moteurs de recherche généralistes ont encore un mal fou à dédoublonner les pages (je vous laisse imaginer le casse-tête pour Google de vérifier, pour chaque URL, si elle est déjà présente parmi leurs 10 milliards de pages déjà indexées...), ce qui leur permet d'afficher des nombres de résultats extravagants.

En résumé, il est tout à fait possible d'afficher le nombre exact de résultats en synchronisant parfaitement index et documents et en dédoublonnant les pages identiques. A titre d'illustration, c'est le cas pour notre moteur d'actualités www.synthesio.fr qui comprend une base de données se chiffrant en millions d'articles et non pas en milliards comme pour Google.

Poster un nouveau commentaire


 
<< Accueil
 

 


Quelques réflexions sur les moteurs de recherche et le référencement, infos sur le référencement à destination des webmasters, études, enquêtes sur les moteurs de recherche, etc.
 
feed xml
 
Lettre d'actualité
La lettre "Actu Moteurs" est hebdomadaire et gratuite. Abonnez-vous :

Rejoignez nos 70 000 abonnés (plus d'infos) depuis 1998 et recevez toute l'info sur les moteurs chaque semaine !

 
Les blogs d'Abondance
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
 


http://www.wikio.fr
 

 
 Recherche sur le site Abondance :

Tout Abondance
Toute l'actu depuis 1998

 

Liens sponsorisés

 


 

Messages précédents

 
Fluctuat Nec Mergitur...
Référencement : vers un nouveau positionnement ?
Quaero, un moteur qui se cherche ?
Google, l'antonomase du Web
Votez pour les "Abondance d'or" !
Bonne année à tous les lecteurs d'Abondance
Joyeux Noël à tous les lecteurs d'Abondance
Yahoo!-MSN : une stratégie de conquête en 5 étapes...
Vous faites dans la mercatique des moteurs de rech...
Quand les moteurs de recherche occupent l'espace m...

 

Archives

 
septembre 2005
octobre 2005
novembre 2005
décembre 2005
janvier 2006
février 2006
mars 2006
avril 2006
mai 2006
juin 2006
juillet 2006
août 2006
septembre 2006
octobre 2006
novembre 2006
décembre 2006
janvier 2007
février 2007
mars 2007
avril 2007
mai 2007
juin 2007
juillet 2007
août 2007
septembre 2007
octobre 2007
novembre 2007
décembre 2007
janvier 2008
février 2008
mars 2008

Lettres d'actualité

 
Actu Moteurs : revue de presse hebdomadaire
Recherche & Référencement : lettre professionnelle mensuelle

L'actu des moteurs

 


Liens

 
Abondance.com
Réseau Abondance
Autres blogs sur les moteurs

 
Chercher sur le Web avec Mozbot :

Chercher sur :
Web international
Web francophone

 

Un site du Réseau Abondance (english version : Search Engine Tools) :
Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Livre Google
Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic
Divers / Jeux : Googlefight - Habitants - Googland - Grifil.com
Moteurs de recherche : Mozbot.fr - Mozbot.com - Mozbot.co.uk - Goossip - Motref - Rugby engine - Grifil.net - Biomalin - Foot Engine - SearchWings