Recherche sur le site Abondance :

Tout Abondance  Toute l'actu depuis 1998

28 novembre 2010 


Le nombre de pages d'un site web indexées par Google - (Questions/réponses avec Google #10)

Le 28 novembre 2010  
   

 
Nous continuons notre série de questions/réponses avec Google en traitant une question importante : comment faire pour obtenir des résultats fiables lorsqu'on cherche le nombre de pages web indexées par Google pour un site web donné ?

Il est en effet très important, selon nous, d'avoir une idée exacte du nombre de pages indexées par Google pour un site web donné. Sachant qu'une page crawlée par un robot n'est pas obligatoirement indexée par le moteur par la suite, le fait de suivre les visites des robots sur le site ne suffit pas. Le chiffre important, c'est avant tout le nombre de pages potentiellement "positionnables" présentes dans l'index. Parce qu'une page qui n'est pas dans l'index, il y a fort peu de chances qu'elle se retrouve dans les résultats du moteur de recherche...

Or, ce nombre de pages indexées par Google n'est pas si simple que ça à obtenir... Nous avons donc demandé à Google et à son équipe "Quality Search" ce qu'il en était, et voici leur réponse...

Cette question est adaptée d'un extrait de l'article "10 Questions à la "Search Quality Team" de Google " paru au mois de septembre 2010 dans la lettre professionnelle "Recherche et Référencement" du site Abondance.com. Les réponses sont fournies par :
- Matt Cutts (Head of Google Webspam team (Mountain View, US et parfois Kilimandjaro).
- John Mueller, (Webmaster Trends Analyst (Zurich, Suisse)).
- Susan Moskwa (Webmaster Trends Analyst (Mountain View, US)).
- Nathalie Peret (Search Quality Strategist (Dublin, Irlande)).
- Anouar Bendahou (Search Quality Associate (Dublin, Irlande)).

Question Abondance : De nombreux problèmes sont souvent constatés par les webmasters avec la syntaxe "site:" de Google, sensée fournir le nombre de pages d'un site web référencées par le moteur. Ce type de requête (par exemple : site:abondance.com) génère le plus souvent un nombre de résultats très différent d'un jour à l'autre et semble notoirement erroné. Il est ainsi extrêmement difficile de suivre le nombre de pages indexées par Google pour un site web donné. On sait que, d'autre part, la syntaxe "link:" de Google est, de la même façon erronée et ne donne qu'un nombre de backlinks très limité sur le moteur, mais le problème est contourné par des données beaucoup plus fiables sur ces backinks dans les Webmaster Tools. Dans ce cas, ne serait-il pas possible d'avoir, dans ces mêmes Webmaster Tools, des informations plus fiables et exhaustives sur l'indexation des pages pour pallier le manque de fiablilité de l'opérateur "site:" ?
 

La réponse de Google : Les webmasters nous posent en effet souvent cette question, notamment dans notre forum d'aide pour les webmasters (http://www.google.com/support/forum/p/webmasters?hl=fr) pour nous demander s'il ne s'agissait pas là d'un bug. En fait, l'opérateur "site:" a été prévu au départ pour fournir un nombre approximatif, une estimation des pages d'un site indexées par Google. Ce chiffre est intéressant pour vérifier la "santé" de votre site mais il est clair qu'il ne donnera pas un chiffre précis, une vision exacte de l'indexation de vos pages. Des fluctuations sont à attendre et les chiffres renvoyés vont effectivement changer selon les jours.

Sachez également que le "switch" entre notre ancien index et Caffeine a généré certaines différences entre les recherches/requêtes avec l'opérateur site :...

Pour obtenir des résultats plus précis et plus fiables, nous ne pouvons que vous conseiller de regarder plutôt l'indicateur du nombre d'URL de votre Sitemap indexées, dans les Webmaster Tools. Cet outil vous donnera également d'autres indications sur les erreurs de crawl (http://www.google.com/support/webmasters/bin/answer.py?answer=35120) que nos robots ont pu rencontrer sur votre site. Enfin, selon nous, le nombre de pages indexées nous semble un indicateur moins intéressant que le positionnement de ces pages, leur taux de clic ou leur taux de conversion.

Regarder et fournir des indications dans les Outils pour les webmasters sur les pages indexées (et non incluses dans un Sitemap) est un point qui a été discuté plusieurs fois dans notre équipe. Pour l'instant, ce n'est pas une priorité mais c'est quelque chose que nous regardons et que nous n'avons pas abandonné pour autant...


Notre commentaire : le nombre de pages indexées ne serait pas un bon indicateur pour le référencement d'un site web ? Objection, votre honneur :-)... Si, bien évidemment, il ne peut pas être le seul, il reste selon nous un critère important qui permet plusieurs choses :
- se rendre compte du pourcentage de page indexées par rapport au nombre total de pages ;
- détecter des soucis techniques (URL non compatibles, etc.) sur certaines pages ;
- etc.

D'autre part, il est évident que le taux de clics, le taux de conversion et le positionnement sont des indices importants, mais sur une page non indexée, difficile d'en voir l'intérêt... L'indexation reste, qu'on le veuille ou non, l'étape "zéro" du référencement et il nous semble important de le mesurer de la façon la plus fiable possible.

Google donne, dans sa réponse, une façon d'obtenir des résultats "plus fiables" en relevant le nombre d'URL indexées par rapport au nombre d'URL soumises dans le Sitemap, chiffre fourni dans les Webmaster Tools. Or, l'expérience nous pousse à penser que ce chiffre-là est également notoirement faux, et un phénomène fréquent montre un nombre d'URL indexées équivalent à environ la moitié du nombre d'URL soumises dans le Sitemap. Pourquoi ? Mystère...
Bref, peut-être faudra-t-il faire une pétition pour avoir droit un jour à ces chiffres fiables d'indexation de site web dans les Webmaster Tools ? Ou cela pose-t-il des problèmes techniques insolubles à Google de fournir de telles données ?
En complément, voici un post sur le forum d'aide Google pour les webmasters qui parle de ce sujet :
https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap


Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?


 


 

5 Commentaires :

Rappelons ici que les liens insérés dans vos commentaires sont en 'rel=nofollow' et ne sont donc ni suivis ni interprétés par les moteurs de recherche...

Je contourne le problème. J'établis une carte des urls de mon site (xenu). Puis pour chaque url je vais vérifier son indexation. (scrapebox). Parce-que honnêtement les chiffres retournés pas la commande site: sont franchement fantaisistes..

Bonjour

Sans compter que je ne met pas forcément toutes les pages dans le Sitemap. Je laisse le spider faire qqs découvertes à sa façonet donc indexer + de pages qu'annoncées sur le GWT

Il y a 1 an encore, je cherchais l'index primaire et l'index secondaire par la commande "site:" (Google + Aol ou Free).
GG a dit "ça n'existe plus" Bon admettons!

Maintenant j'utilise la commande "site:" pour avoir juste une tendance mais en utilisant aussi "site:.monsite.com -n'importequellesuitedelettres"

Et là le chiffre plus important se rapproche du nb probable de pages indexées, index secondaire compris donc, ben oui je ne voie que ça pour expliquer le nb de pages indexées.

David Cohen

A la base, la commande site: permet de faire une recherche dans un nom de domaine donnée, pas d'obtenir le nombre de pages indexées...

@ Specialty Chemicals : certes mais dans ce cas, Google aurait pu limiter cette syntaxe en supprimant la possibilité de l'utiliser seule (comme le faisait Ask.com par exemple)... A partir du moment où la requête "site:" peut être tapée sans autre mot clé supplémentaire, c'est dommage (et pas très pro à mon avis) de donner un résultat erroné du coup...
cdt

Je crois que c'est une erreur de considérer que indexé ou pas, c'est comme blanc ou noir.

Il y a en effet sur le web toute une série de pages de faible valeur pour lesquelles on peut obtenir des infos divergentes de la part de google selon la commande utilisée:
-- commande cache: (ou le cache de la google barre)
-- commande info: qui peut donner la page avec son cache (alors que cache: ne le trouve pas !) ou sans (ce qui est aussi paradoxal d'avoir une page en info: mais pas en cache:)
-- la recherche universelle (sur le contenu de la page) qui donne la page avec son cache (alors que info: et/ou cache: ne donnent rien)!
-- il y a aussi les cas, à mes yeux bizarres, où info: et/ou cache ne donnent rien mais que "recherche dans le site" donne bien la page.


NB
les cas précités ne concernent pas des cas de non indexation volontaire (robots txt, meta no archive, no index).

NB Tout autre chose: quant à la réponse de google que le positionnement est plus important qu'indexation, oui OK, mais il n'y a plus de SERPs unique( vu personnalisation, différence entre google.com et google.fr,...).


 
<< Accueil
 

 

Quelques réflexions sur les moteurs de recherche et le référencement, infos sur le référencement à destination des webmasters, études, enquêtes sur les moteurs de recherche, etc.
 
feed xml
 
SEO 2011 : pour ne rien rater de l'actu SEO en 2011
 
Un guide (PDF) de 97 pages qui propose un résumé de ce qui a fait l'année 2011 en termes de SEO, pour être sûr de ne rien avoir raté ces 12 derniers mois au niveau du référencement naturel de votre site web.


Le livre "Réussir son référencement web, édition 2012" (Eyrolles, janvvier 2012) bientôt disponible !
Consultez le site Livre Référencement !

Recherche et Référencement
La lettre professionnelle mensuelle "Recherche et Référencement" pour tout savoir sur les moteurs de recherche. Indispensable pour votre veille !

Les Universités du Référencement
3 jours de formation pour explorer les territoires de la rédaction web, de l'optimisation de sites web pour les moteurs de recherche et du référencement naturel en général...
 
Pour tout savoir sur le DVD "SEO, Optimisez votre Référencement Web" (Elephorm, mars 2011), consultez le site de l'editeur Elephorm !


 
Lettre d'actualité
La lettre "Actu Moteurs" est hebdomadaire et gratuite. Abonnez-vous :

Rejoignez nos 70 000 abonnés (plus d'infos) depuis 1998 et recevez toute l'info sur les moteurs chaque semaine !

 
Les blogs d'Abondance
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
 



 

 
 Recherche sur le site Abondance :

Tout Abondance
Toute l'actu depuis 1998

 

Messages précédents

 
Infographies SEO et moteurs (suite)
Recherche et Référencement : le numéro 120 de nove...
Le livre "Net recherche" reçoit le prix IEC'10
Infographies sur le référencement et les moteurs
Recherche et Référencement : le numéro 119 d'octob...
La syntaxe site: sur Google, pas très exacte ? c'e...
Le référencement en 20 points essentiels
Le SEO en une image
Google aime Ségolène (et inversement) ??
Note de lecture : Les nouvelles opportunités de bu...

 

Archives

 
septembre 2005
octobre 2005
novembre 2005
décembre 2005
janvier 2006
février 2006
mars 2006
avril 2006
mai 2006
juin 2006
juillet 2006
août 2006
septembre 2006
octobre 2006
novembre 2006
décembre 2006
janvier 2007
février 2007
mars 2007
avril 2007
mai 2007
juin 2007
juillet 2007
août 2007
septembre 2007
octobre 2007
novembre 2007
décembre 2007
janvier 2008
février 2008
mars 2008
avril 2008
mai 2008
juin 2008
juillet 2008
août 2008
septembre 2008
octobre 2008
novembre 2008
décembre 2008
janvier 2009
février 2009
mars 2009
avril 2009
mai 2009
juin 2009
juillet 2009
août 2009
septembre 2009
octobre 2009
novembre 2009
décembre 2009
janvier 2010
février 2010
mars 2010
avril 2010
mai 2010
juin 2010
juillet 2010
août 2010
septembre 2010
octobre 2010
novembre 2010
décembre 2010
janvier 2011
février 2011
mars 2011
avril 2011
mai 2011
juin 2011
juillet 2011
août 2011
septembre 2011
octobre 2011
novembre 2011
décembre 2011
janvier 2012
février 2012

Lettres d'actualité

 
Actu Moteurs : revue de presse hebdomadaire
Recherche & Référencement : lettre professionnelle mensuelle

L'actu des moteurs

 


Liens

 
Abondance.com
Réseau Abondance
Un site du Réseau Abondance (english version : Search Engine Tools) :
Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Livre Google
Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic
Divers / Jeux : Googlefight - Klevener - Googland - Grifil.com
Moteurs de recherche : Mozbot.fr - Motref - Grifil.net - Biomalin - Foot Engine - SearchWings