Le 21 mai 2010
|
|
|
Nous continuons notre série de questions/réponses avec Google en traitant une question qui revient assez souvent sur le nombre d'URL indexées par Google par rapport au nombre de pages décrites dans un fichier Sitemap.
En effet, il arrive souvent que, dans les Google Webmaster Tools (GWT), les Sitemaps sont indiqués avec environ la moitié des URL indexées, notamment pour les Sitemaps proposant un grand nombre de pages. En clair, si un Sitemap contient par exemple 5 000 URL, seules 2 500 (environ) sont indiquées dans les GWT comme indexées. Ce "phénomène" semble se réitérer sur de très nombreux sites.
Nous avons donc posé la question à Google et à Nathalie Peret, de l'équipe "Quality Search" du moteur, et voici sa réponse :
Question Abondance : Question : Souvent, dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps. Bien sûr, un Sitemap ne fournit pas de garanties d'indexation de toutes les pages qu'il référence, mais cette notion de "moitié du sitemap" est étrange... D'autre part, le "nombre d'URL indexées" renvoyé dans la zone "Sitemaps" des GWT est souvent totalement en contradiction avec les résultats renvoyés par la syntaxe "site:", sur des Sitemaps pourtant exhaustifs ? A priori, ce n'est pas logique. Pourquoi ?
La réponse de Google : Dans les GWT, les Sitemaps sont indiqués avec environ la moitié des URL indexées, surtout pour les gros Sitemaps :
Je voudrais préciser qu'il n'y a pas de bug dans les Outils pour les Webmasters par rapport à cette "moitié du Sitemap". Quand les algorithmes parcourent et indexent les pages, de nombreux facteurs entrent en compte et il est normal d'avoir des fluctuations. Il est tout aussi normal que toutes les pages sur le Web ne soient pas parcourues et indexées à tout moment.
Dans les Outils pour les Webmasters, les pages indexées du Sitemap prennent en compte l'URL exacte dans l'index. Si un site a du contenu dupliqué, et qu'une autre version du site est indexée, nous ne la compterons pas. Vous pouvez nous aider à mieux crawler et à indexer les URL des fichiers Sitemap en créant des sites facilement explorables et sans contenu dupliqué.
Parfois, il n'est pas vraiment nécessaire d'avoir toutes les pages d'un site qui soient indexées. Prenez l'exemple d'un site avec une page principale d'accès aux produits bien construite. Il n'y a pas besoin d'avoir toutes les pages individuelles de produits indexées car le contenu sera trouvé à partir de cette page principale. Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site.
au sujet des Sitemaps et de la syntaxe site:
L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé, et peut inclure des URL qui ne sont pas dans le Sitemap, comme des URL ajoutées récemment, ou d'autres URL trouvées en suivant des liens. Les pages indexées dans les Outils pour les Webmasters ne proviennent que du Sitemap.
Le nombre de pages indexées qui apparaissent avec l'opérateur [site:] est approximatif et sert à vérifier la santé d'un site. Cela est très utile pour vérifier si le site a été piraté car vous verrez des pages indexées avec des mots-clés ou du contenu suspects.
L'opérateur [site:] peut aussi servir à vérifier le contenu dupliqué : deux versions d'un site indexées (par exemple avec www et sans www au début de l'adresse), ou versions multiples d'une page. Cela vous permet aussi de voir ce qui est montré aux visiteurs dans les résultats de recherche: titres et descriptions, structure d'URL. Cela vous donne des informations utiles sur vos pages et sur ce que vous pouvez optimiser. Pour en savoir plus à ce sujet :
- http://googlewebmastercentral.blogspot.com/2009/03/using-stats-from-site-and-sitemap.html
- https://sites.google.com/site/webmasterhelpforum/fr/aide-au-referencement/interpreter-les-donnees-de-site-et-de-sitemap
|
Notre commentaire : la réponse de Google est assez claire : si vous voyez une grosse différence entre le nombre d'URL présentes dans le Sitemap et le nombre d'URL effectivement indexées par le moteur au travers du chiffre indiqué dans les GWT, c'est que vous avez certainement un petit (ou un gros !!) problème de "duplicate content" sur votre site. Seules les pages "canoniques" (originales) semblent être prises en compte dans le décompte proposé par Google dans les GWT. Les pages "dupliquées" sont donc supprimées de ce décompte.
Pour ce qui est des Sitemaps et de la syntaxe [site:], les deux systèmes ne mesurent pas exactement la même chose, il est donc normal que les résultats soient parfois différents. Ceci dit, là aussi, si les chiffres sont très disparates, il y a de fortes chances qu'il y ait du "duplicate content" dans l'air… !!!
Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7 Commentaires :
Rappelons ici que les liens insérés dans vos
commentaires sont en 'rel=nofollow' et ne sont donc ni suivis ni interprétés
par les moteurs de recherche...
|
![]() |
Quelques réflexions sur les moteurs de recherche et le référencement, infos sur le référencement à destination des webmasters, études, enquêtes sur les moteurs de recherche, etc.
 |
Un guide
(PDF) de 97 pages qui propose un résumé
de ce qui a fait l'année 2011 en termes de SEO,
pour être sûr de ne rien avoir raté ces
12 derniers mois au niveau du référencement
naturel de votre site web. |
|
 |
Le livre "Réussir
son référencement web, édition 2012" (Eyrolles, janvvier
2012) bientôt disponible !
Consultez le site Livre
Référencement ! |
Recherche et Référencement
 |
La lettre
professionnelle mensuelle "Recherche
et Référencement" pour tout savoir
sur les moteurs de recherche. Indispensable pour votre veille ! |
|
Les
Universités du Référencement
 |
3
jours de formation pour explorer les territoires
de la rédaction web, de l'optimisation de sites web
pour les moteurs de recherche et du référencement
naturel en général... |
|
 |
Pour tout
savoir sur le DVD "SEO, Optimisez votre Référencement Web"
(Elephorm, mars 2011), consultez le site de l'editeur Elephorm ! |
La lettre "Actu
Moteurs" est hebdomadaire et gratuite.
Abonnez-vous :
Rejoignez nos 70 000 abonnés (plus
d'infos) depuis 1998 et recevez toute l'info sur les moteurs
chaque semaine ! |
 |
 |
|
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
|
|
 |
 |
| Recherche sur le site Abondance : |
|
|
Messages précédents
Archives
Lettres d'actualité
| |
|
 |
| : revue de presse hebdomadaire |
 |
| : lettre professionnelle mensuelle |
L'actu des moteurs
Liens
|
Merci pour ce billet.
Mais pouvez-vous préciser ce qu'évalue réellement la commande "site". Récemment sur Abondance Philippe Yonnet diasait que l'on ne pouvait pas vraiment s'y fier...
Merci
Comme toutes les requêtes, le "site:" doit donner la liste des pages pertinentes liées à la requête, d'où la non-exhaustivité des résultats.
Certes mais utilisée seule (sans mot clé), la syntaxe site:www.votresite.com, si elle devait rendre un résultat pertinent, renverrait la liste exhaustive de pages indexées. Il semble que cela ne soit pas le cas, ce qui est bien dommage.
La syntaxe "link:" par exemple, renvoit uniquement un faible pourcentage des backlinks mais les GWT fournissent un outil beaucoup plus exhaustif,ce qui est une bonne chose.
Pourquoi ne pas penser qu'à court terme, les GWT ne proposent pas un outil similaire, listant TOUTES les pages d'un site indexées par Google ? Ce serait cohérent... Actuellement, les GWT, sur ce point, disent d'utiliser la syntaxe "site:" pour obtenir cette liste. Là, par contre, ce n'est pas très cohérent...
Cdt
Bonjour, merci pour cette interview.
Serait il possible d'avoir des "details" sur ce passage :
"L'opérateur [site:] prend en compte tout ce que Googlebot a crawlé"
N'y a t il pas une faute de frappe ?
L'opérateur site n'indiquerait il pas plutôt les pages "indexées" ???
Bjr
Oui tout à fait : il s'agit plus d'indexation que de crawl...
Cdt
la phrase la plus importante de l'interview est
"Petite astuce : un moyen de vérifier cela est de créer des fichiers Sitemap séparés pour chaque partie logique du site"
Ce sera le meilleur moyen de voir où se situe de pb d'indexation"
Le reste est approximation & tortillement comme la non-cohérence bien vue entre "site:" et "WMT sitemap".
D'ailleurs Philippe Yonnet avait raison puisque, sur 1 site marchand, je suis (suivre) encore le chiffre d'indexation "site:" hebdo et il est passé depuis 2 mois de 50 000 (c'était beaucoup trop depuis + d'1 an) à 5000 (presque normal).
Et les URL canonical sont en place depuis plus de 6 mois partout donc si duplicate...il est éliminé depuis plusieurs mois.
David C
Bonjour et merci !
Concernant le problème de duplicate content, la différence entre la requête "site:" et le nombre de liens du GWT est importante, est qu'il ne peut aussi s'agir de site multilingues?
(Je parle de mon expérience avec un site dynamique sous joomla!.)
Je suppose que le sitemap est constitué des liens depuis la "structure" du site sans différence entre les langues, alors que la requête fait sortir toute les pages indexées dans toute les langues pour le site visé...