28 avril 2008 


Accueil > Le blog des moteurs de recherche et du référencement >

La commande "site:" est-elle fiable ?


Aujourd'hui, la taille des index des 3 principaux moteurs de recherche mondiaux est supposée approcher les 20 à 25 milliards de pages, assez proches, quantitativement parlant, les uns des autres. Celui d'Exalead (le seul à communiquer officiellement sur ce point) atteignant 8 milliards de pages (très exactement 8 002 311 606 pages si l'on en croit sa page d'accueil ce matin...).

Bien sûr, le contenu de ces index n'est pas identique d'un moteur à l'autre, même s'il existe obligatoirement une zone de recouvrement. Cependant, on pourrait penser que, grosso modo, l'indexation de certains sites web est, quantitativement, assez proche, en termes de nombre de pages indexées par ces quatre leaders. Cette notion se mesure grâce à l'opérateur "site:" (exemple : site:blog.abondance.com) sur chacun des 4 moteurs.

Or, si on effectue ce type de recherche, on s'aperçoit très rapidement que les résultats sont totalement disparates et qu'aucune unité ne semble décelable. Voici un petit test que nous avons fait sur 10 URL, choisies de façon aléatoire (les recherches ont toujours été faites avec l'option "Tout le Web" cochée, pour chaque site web indiqué, nous avons rapporté le nombre de résultats renvoyés par chaque moteur avec la syntaxe "site:") :

Site:
www.lequipe.fr
190 000
27 105
296 000
104 182
www.monvoyageur.com
60 700
5 448
5 720
93 857
www.rue89.com
69 700
18 845
95 300
12 205
www.programme.tv
192 000
2 444
6 500
381 061
abondance.com
4 390
4 174
105 000
8 104
www.tf1.fr
2 260
5 751
5 660
710
www.aufeminin.com
893 000
21 091
51 500
806 845
skyrock.com
7 890 000
132 697
1 180 000
1 787 529
blogspot.com
122 000 000
8 918 196
7 590 000
34 386 547
searchengineland.com
5 030
6 140
142 000
639


Les écarts, d'un site et d'un moteur à l'autre, sont considérables !

Que peut-on déduire de ces chiffres ? Plusieurs choses, au choix :

- Que l'opérateur "site:" renvoie des résultats erronés, ce qui serait vraiment dommage...

- Que les index des différents moteurs n'ont absolument pas la même taille (on m'aurait menti ?? :-) )

- Que certaines sites web ne sont pas "égaux" devant les moteurs de recherche, certains sites étant très bien indexés par un moteur et très mal par d'autres, pour des raisons inconnues.

- Que les moteurs gèrent plus ou moins bien des phénomènes de "duplicate content" à l'intérieur d'un site.

- Il serait intéressant, par ailleurs, de surveiller ces chiffres pour un même site web, mais au niveau de leur variation dans l etemps. Peut-être que, là aussi, nous pourrions découvrir des surprises...

Avez-vous remarqué de tels phénomènes sur vos sites web ou sur d'autres ? J'avoue que cela me laisse assez perplexe...

Bookmarker dans : Scoopeo | Del.icio.us | Digg | Autres :   AddThis Social Bookmark Button

 

13 Commentaire(s) :

Le nombre de pages indexé est invérifiable puisque les moteurs n'autorisent pas de les afficher toutes.

Essaye de retrouver des mots ou des phrases peu courantes dans un site (y compris des fautes d'orthographe/grammaire), cela peut donner une meilleure idée de leur indexation.

EXEMPLE
site:blogspot.com "the were all drunk"
un résultat dans google
3 dans yahoo

Je vote aussi pour l'histoire du duplicate content, puisque certaines pages sont accessibles depuis plusieurs URL, certains moteurs filtrent, pas les autres.

Duplicate content également, Yahoo! ayant d'ailleurs tendance à intégrer des variables de session ou de tracking dans les URL qu'il indexe... Chose que Google filtre naturellement.
J'ajoute également que la commande site: de Live est loin d'être fiable : http://www.search-engine-feng-shui.com/2007/10/03/le-casse-tete-des-pages-indexees-sur-livecom/

merci pour ces avis.
En même temps, j'ai du mal à penser qu'une "simple" gestion de duplicate content suffise à expliquer de tels écarts dans les résultats renvoyés... Ils sont parfois énormes d'un moteur à l'autre pour certains sites...
A+
Olivier

j'abonde pour le duplicate: un site dont je me suis occupé était à 35 000 pages dans google (avec des tas de pages à contenu similaire en filtrant la commande site:) et dans le même temps à 2 000 000 pages dans yahoo (url avec variables de session)
Après "réparation" (réécriture/redirection 301 des pages avec variables), le site est monté à 900 000 url dans google (et a fait de jolis bonds en 1ère page dans les SERP)
Sur mars, nouveau souci à cause du filtre de réécriture, le site est monté à 31 000 000 dans google (oui 31 millions!) puis retombé à 900 000 dès que réparé...
Pendant tout ce temps, il est resté autour de 50 000 url indexés dans live et toujours 2 000 000 dans yahoo...
Indéniablement pour moi, c'est donc le duplicate et la mauvaise gestion des url avec variables de session qui sont l'explication des tels écarts constatés!...

Cette URL semble se pencher sur le pb de façon pratique et syntaxique
http://www.plus2net.com/articles/google-site.php

> Cette URL semble se pencher sur le pb de façon pratique et syntaxique

Article vraiment bizarre, notamment au niveau des syntaxes proposées pour explorer les "supplemental results"... En tout cas, les pistes qu'il donne semblent erronées ou trop anciennes selon moi...
Cordialement

Salut à tous,

La commande site n'est évidemment pas fiable.

Et sur Google pour une même requête:
site:www.referencement-blog.net

283 résultats en page 1
http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=0&sa=N

214 en page 22
http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=210&sa=N

Finalement il n'y a que Yahoo a tenir ses résultats de bout en bout.

Peut-on comparer la commande site: et link: en termes de fiabilité ? Pour ma part, link: me semble vraiment très aléatoire. En tous cas, les résultats n'évoluent que très peu, voire pas du tout... parfois sur des mois ! Alors que les liens externes présentés dans GG Webmaster Tools indiquent des variations bien plus crédibles.

Ce n'est qu'un aspect, mais ce serait sans doute intéressant d'aller plus loin et d'avoir les informations suivantes :
- un sitemap est-il proposé aux moteurs ? combien contient t'il d'enregistrements ? avec quelle fréquence est t'il rafraichi ?
- un urlist est t'il proposé aux moteurs, combien contient t'il d'enregistrements ? avec quelle fréquence est t'il rafraichi ?

Cela permettrait (peut être...) de connaître l'efficacité réelle et l'usage que les moteurs font de ces informations.

Il y a d'autres facteurs qui peuvent faire varier les résultats de la commande site:, notamment le fait que certains moteurs éliminent mal les pages en 404. Sur certains sites on a donc des pages de plusieurs versions indexées.
Plus globalement, Google semble "péter les plombs" au delà de 1000 résultats et ses estimations sont très aléatoires.
Celles de MSN le sont encore plus. Il faut aller à la dernière page de résultats pour savoir combien d'URLs il indexe et il est impossible d'avoir des données au delà de 1000 pages.
Bref, la commande site peut être utilisée pour suivre l'évolution de l'indexation, mais guère plus...

Comment expliquer les variations
-Sur google :
site:www.lequipe.fr/ --> 211000 pages
et
site:www.lequipe.fr --> 223000 pages

-Sur live.fr :
site:www.lequipe.fr/ --> 249000 pages
et
site:www.lequipe.fr --> 33500 pages

Bien sur que la commande site: de Google n'est pas fiable. Google ne veut pas trop communiquer sur ces chiffres que ce soit pour la commande site:, link: ou quoi que ce soit. Par contre les chiffres dans les comptes pour webmasters sont exacts lorsqu'ils viennent d'être mis à jour. Enfin il me semble ...

Poster un nouveau commentaire


 
<< Accueil
 

 


Quelques réflexions sur les moteurs de recherche et le référencement, infos sur le référencement à destination des webmasters, études, enquêtes sur les moteurs de recherche, etc.
 
feed xml
 
Lettre d'actualité
La lettre "Actu Moteurs" est hebdomadaire et gratuite. Abonnez-vous :

Rejoignez nos 70 000 abonnés (plus d'infos) depuis 1998 et recevez toute l'info sur les moteurs chaque semaine !

 
Les blogs d'Abondance
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
 


http://www.wikio.fr
 

 
 Recherche sur le site Abondance :

Tout Abondance
Toute l'actu depuis 1998

 

Liens sponsorisés

 


 

Messages précédents

 
3 articles à lire sur Google...
Donnez la cadence aux robots de Live Search
Recherche et Référencement : le numéro d'avril 200...
Référencement : infos (intéressantes) en vrac
36 datacenters pour Google dont un à Paris...
Faille de sécurité Wordpress et blacklist Google
Abondance est la source d'information préférée sur...
Le Ch'ti pas bienvenu chez Google ?
Etude : pages de résultats des moteurs et recherch...
Algorithme Google : Dewey fait des siennes...

 

Archives

 
septembre 2005
octobre 2005
novembre 2005
décembre 2005
janvier 2006
février 2006
mars 2006
avril 2006
mai 2006
juin 2006
juillet 2006
août 2006
septembre 2006
octobre 2006
novembre 2006
décembre 2006
janvier 2007
février 2007
mars 2007
avril 2007
mai 2007
juin 2007
juillet 2007
août 2007
septembre 2007
octobre 2007
novembre 2007
décembre 2007
janvier 2008
février 2008
mars 2008
avril 2008
mai 2008

Lettres d'actualité

 
Actu Moteurs : revue de presse hebdomadaire
Recherche & Référencement : lettre professionnelle mensuelle

L'actu des moteurs

 


Liens

 
Abondance.com
Réseau Abondance
Autres blogs sur les moteurs

 
Chercher sur le Web avec Mozbot :

Chercher sur :
Web international
Web francophone

 

Un site du Réseau Abondance (english version : Search Engine Tools) :
Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Livre Google
Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic
Divers / Jeux : Googlefight - Habitants - Googland - Grifil.com
Moteurs de recherche : Mozbot.fr - Mozbot.com - Mozbot.co.uk - Goossip - Motref - Rugby engine - Grifil.net - Biomalin - Foot Engine - SearchWings