Le 28 avril 2008
|
|
|
Aujourd'hui, la taille des index des 3 principaux moteurs de recherche mondiaux est supposée approcher les 20 à 25 milliards de pages, assez proches, quantitativement parlant, les uns des autres. Celui d'Exalead (le seul à communiquer officiellement sur ce point) atteignant 8 milliards de pages (très exactement 8 002 311 606 pages si l'on en croit sa page d'accueil ce matin...).
Bien sûr, le contenu de ces index n'est pas identique d'un moteur à l'autre, même s'il existe obligatoirement une zone de recouvrement. Cependant, on pourrait penser que, grosso modo, l'indexation de certains sites web est, quantitativement, assez proche, en termes de nombre de pages indexées par ces quatre leaders. Cette notion se mesure grâce à l'opérateur "site:" (exemple : site:blog.abondance.com) sur chacun des 4 moteurs.
Or, si on effectue ce type de recherche, on s'aperçoit très rapidement que les résultats sont totalement disparates et qu'aucune unité ne semble décelable. Voici un petit test que nous avons fait sur 10 URL, choisies de façon aléatoire (les recherches ont toujours été faites avec l'option "Tout le Web" cochée, pour chaque site web indiqué, nous avons rapporté le nombre de résultats renvoyés par chaque moteur avec la syntaxe "site:") :
| Site: | | | | | | www.lequipe.fr | 190 000 | 27 105 | 296 000 | 104 182 | | www.monvoyageur.com | 60 700 | 5 448 | 5 720 | 93 857 | | www.rue89.com | 69 700 | 18 845 | 95 300 | 12 205 | | www.programme.tv | 192 000 | 2 444 | 6 500 | 381 061 | | abondance.com | 4 390 | 4 174 | 105 000 | 8 104 | | www.tf1.fr | 2 260 | 5 751 | 5 660 | 710 | | www.aufeminin.com | 893 000 | 21 091 | 51 500 | 806 845 | | skyrock.com | 7 890 000 | 132 697 | 1 180 000 | 1 787 529 | | blogspot.com | 122 000 000 | 8 918 196 | 7 590 000 | 34 386 547 | | searchengineland.com | 5 030 | 6 140 | 142 000 | 639 |
Les écarts, d'un site et d'un moteur à l'autre, sont considérables !
Que peut-on déduire de ces chiffres ? Plusieurs choses, au choix :
- Que l'opérateur "site:" renvoie des résultats erronés, ce qui serait vraiment dommage...
- Que les index des différents moteurs n'ont absolument pas la même taille (on m'aurait menti ?? :-) )
- Que certaines sites web ne sont pas "égaux" devant les moteurs de recherche, certains sites étant très bien indexés par un moteur et très mal par d'autres, pour des raisons inconnues.
- Que les moteurs gèrent plus ou moins bien des phénomènes de "duplicate content" à l'intérieur d'un site.
- Il serait intéressant, par ailleurs, de surveiller ces chiffres pour un même site web, mais au niveau de leur variation dans l etemps. Peut-être que, là aussi, nous pourrions découvrir des surprises...
Avez-vous remarqué de tels phénomènes sur vos sites web ou sur d'autres ? J'avoue que cela me laisse assez perplexe...
13 Commentaires :
Rappelons ici que les liens insérés dans vos
commentaires sont en 'rel=nofollow' et ne sont donc ni suivis ni interprétés
par les moteurs de recherche...
|
![]() |
Quelques réflexions sur les moteurs de recherche et le référencement, infos sur le référencement à destination des webmasters, études, enquêtes sur les moteurs de recherche, etc.
 |
Un guide
(PDF) de 97 pages qui propose un résumé
de ce qui a fait l'année 2011 en termes de SEO,
pour être sûr de ne rien avoir raté ces
12 derniers mois au niveau du référencement
naturel de votre site web. |
|
 |
Le livre "Réussir
son référencement web, édition 2012" (Eyrolles, janvvier
2012) bientôt disponible !
Consultez le site Livre
Référencement ! |
Recherche et Référencement
 |
La lettre
professionnelle mensuelle "Recherche
et Référencement" pour tout savoir
sur les moteurs de recherche. Indispensable pour votre veille ! |
|
Les
Universités du Référencement
 |
3
jours de formation pour explorer les territoires
de la rédaction web, de l'optimisation de sites web
pour les moteurs de recherche et du référencement
naturel en général... |
|
 |
Pour tout
savoir sur le DVD "SEO, Optimisez votre Référencement Web"
(Elephorm, mars 2011), consultez le site de l'editeur Elephorm ! |
La lettre "Actu
Moteurs" est hebdomadaire et gratuite.
Abonnez-vous :
Rejoignez nos 70 000 abonnés (plus
d'infos) depuis 1998 et recevez toute l'info sur les moteurs
chaque semaine ! |
 |
 |
|
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
|
|
 |
 |
| Recherche sur le site Abondance : |
|
|
Messages précédents
Archives
Lettres d'actualité
| |
|
 |
| : revue de presse hebdomadaire |
 |
| : lettre professionnelle mensuelle |
L'actu des moteurs
Liens
|
Le nombre de pages indexé est invérifiable puisque les moteurs n'autorisent pas de les afficher toutes.
Essaye de retrouver des mots ou des phrases peu courantes dans un site (y compris des fautes d'orthographe/grammaire), cela peut donner une meilleure idée de leur indexation.
EXEMPLE
site:blogspot.com "the were all drunk"
un résultat dans google
3 dans yahoo
Je vote aussi pour l'histoire du duplicate content, puisque certaines pages sont accessibles depuis plusieurs URL, certains moteurs filtrent, pas les autres.
Duplicate content également, Yahoo! ayant d'ailleurs tendance à intégrer des variables de session ou de tracking dans les URL qu'il indexe... Chose que Google filtre naturellement.
J'ajoute également que la commande site: de Live est loin d'être fiable : http://www.search-engine-feng-shui.com/2007/10/03/le-casse-tete-des-pages-indexees-sur-livecom/
merci pour ces avis.
En même temps, j'ai du mal à penser qu'une "simple" gestion de duplicate content suffise à expliquer de tels écarts dans les résultats renvoyés... Ils sont parfois énormes d'un moteur à l'autre pour certains sites...
A+
Olivier
j'abonde pour le duplicate: un site dont je me suis occupé était à 35 000 pages dans google (avec des tas de pages à contenu similaire en filtrant la commande site:) et dans le même temps à 2 000 000 pages dans yahoo (url avec variables de session)
Après "réparation" (réécriture/redirection 301 des pages avec variables), le site est monté à 900 000 url dans google (et a fait de jolis bonds en 1ère page dans les SERP)
Sur mars, nouveau souci à cause du filtre de réécriture, le site est monté à 31 000 000 dans google (oui 31 millions!) puis retombé à 900 000 dès que réparé...
Pendant tout ce temps, il est resté autour de 50 000 url indexés dans live et toujours 2 000 000 dans yahoo...
Indéniablement pour moi, c'est donc le duplicate et la mauvaise gestion des url avec variables de session qui sont l'explication des tels écarts constatés!...
Cette URL semble se pencher sur le pb de façon pratique et syntaxique
http://www.plus2net.com/articles/google-site.php
> Cette URL semble se pencher sur le pb de façon pratique et syntaxique
Article vraiment bizarre, notamment au niveau des syntaxes proposées pour explorer les "supplemental results"... En tout cas, les pistes qu'il donne semblent erronées ou trop anciennes selon moi...
Cordialement
Salut à tous,
La commande site n'est évidemment pas fiable.
Et sur Google pour une même requête:
site:www.referencement-blog.net
283 résultats en page 1
http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=0&sa=N
214 en page 22
http://www.google.fr/search?q=site:www.referencement-blog.net/&hl=fr&start=210&sa=N
Finalement il n'y a que Yahoo a tenir ses résultats de bout en bout.
Peut-on comparer la commande site: et link: en termes de fiabilité ? Pour ma part, link: me semble vraiment très aléatoire. En tous cas, les résultats n'évoluent que très peu, voire pas du tout... parfois sur des mois ! Alors que les liens externes présentés dans GG Webmaster Tools indiquent des variations bien plus crédibles.
Ce n'est qu'un aspect, mais ce serait sans doute intéressant d'aller plus loin et d'avoir les informations suivantes :
- un sitemap est-il proposé aux moteurs ? combien contient t'il d'enregistrements ? avec quelle fréquence est t'il rafraichi ?
- un urlist est t'il proposé aux moteurs, combien contient t'il d'enregistrements ? avec quelle fréquence est t'il rafraichi ?
Cela permettrait (peut être...) de connaître l'efficacité réelle et l'usage que les moteurs font de ces informations.
Il y a d'autres facteurs qui peuvent faire varier les résultats de la commande site:, notamment le fait que certains moteurs éliminent mal les pages en 404. Sur certains sites on a donc des pages de plusieurs versions indexées.
Plus globalement, Google semble "péter les plombs" au delà de 1000 résultats et ses estimations sont très aléatoires.
Celles de MSN le sont encore plus. Il faut aller à la dernière page de résultats pour savoir combien d'URLs il indexe et il est impossible d'avoir des données au delà de 1000 pages.
Bref, la commande site peut être utilisée pour suivre l'évolution de l'indexation, mais guère plus...
Comment expliquer les variations
-Sur google :
site:www.lequipe.fr/ --> 211000 pages
et
site:www.lequipe.fr --> 223000 pages
-Sur live.fr :
site:www.lequipe.fr/ --> 249000 pages
et
site:www.lequipe.fr --> 33500 pages
Bien sur que la commande site: de Google n'est pas fiable. Google ne veut pas trop communiquer sur ces chiffres que ce soit pour la commande site:, link: ou quoi que ce soit. Par contre les chiffres dans les comptes pour webmasters sont exacts lorsqu'ils viennent d'être mis à jour. Enfin il me semble ...