Recherche sur le site Abondance :

Tout Abondance  Toute l'actu depuis 1998

03 juin 2011 


Google et le Content Spinning - (Questions/réponses avec Google #13)

Le 03 juin 2011  
   

 
Nous continuons notre série de questions/réponses avec Google en abordant un point souvent évoqué dans le domaine du SEO : le Content Spinning.

Rappelons que le Content Spinning est un système de réécriture automatisée de textes : lorsque vous avez sur une page web un texte donné et que vous désirez reproduire ce texte sur une autre page en évitant tout problème de "duplicate content", une façon de procéder est d'utiliser des outils de Content Spinning (il en existe des tonnes facilement trouvables sur le Web), qui vont réécrire le texte en question en changeant certains mots, des verbes, etc. pour obtenir un deuxième texte modifié sans aucune intervention humaine et suffisamment différent pour passer aux yeux des moteurs pour un contenu distinct de l'original.

Certains "scrappeurs" (voleurs de contenus) utilisent également ces outils pour créer des contenus sur leur site de façon automatique en copiant des textes qui ne leur appartiennent pas sur le Web et en le modifiant automatiquement. D'autres gros sites web, en France ou ailleurs, utilisent également de tels logiciels pour modifier leurs contenus ou leurs fiches produits, etc.

Nous avons donc posé la question au service "Search Quality" de Google : qu'en est-il du "Content Spinning" et Google accepte-t-il ces pratiques ?...

Question Abondance : Quelle est la position officielle de Google au sujet du "content spinning" (réécriture automatique de contenu) : est-ce du spamdexing ? Peut-on utiliser de telles techniques pour éviter le duplicate content ? Dans un autre domaine, pour des techniques comme le cloaking, la position de Google est très claire : il n'existe pas de "bon cloaking". Qu'en est-il du content spinning : la position est-elle aussi claire ?
 

La réponse de Google : Tout contenu proposé sur un site web doit être avant tout être créé pour les utilisateurs et non pour les moteurs de recherche. Le "content spinning" n’offre rien de nouveau aux internautes (si ce n’est un contenu déjà existant, rendu illisible) et est clairement destiné aux moteurs de recherche plutôt qu’aux utilisateurs. Par conséquent, des actions peuvent être prises sur les sites qui proposent ce genre de contenus et de pratiques.
Il en va de même pour tout contenu réécrit, traduit automatiquement, ou modifié de façon à vouloir le faire apparaître comme unique au robot Googlebot.


Notre commentaire : la position de Google est donc très claire concernant le Content Spinning : il s'agit de Spamdexing et ces techniques sont donc pénalisables sans aucun problème.
Reste à voir la notion de "texte rendu illisible", comme le dit Google, par ce type de logiciel, ce qui nous semble assez loin de la réalité, certains outils étant très performants dans ce domaine.
La question majeure reste celle-ci : comment Google peut-il détecter - et donc pénaliser - un texte réécrit automatiquement par des outils de "Content Spinning" ? Difficile, ici, d'apporter une réponse...
Mais au moins, les webmasters qui tenteront le Diable avec ces outils sauront à quoi s'en tenir si leur site web est pénalisé (rappelons que depuis peu, le fait qu'une tentative de spam soit détectée par Google sur certaines pages d'un site peut faire étendre la pénalité au site entier). Un webmaster averti en vaut donc deux...


Rappel des précédentes Questions à Google :
1. Les underscores dans les URL
2. Web 2.0, Contenu caché et pénalités Google
3. La pondération des liens entrants - ou backlinks
4. Les redirections multiples en cascade
5. Modification de la vitesse de crawl des spiders
6. Référencement et hébergement mutualisé
7. Sitemaps et nombre d'URL indexées
8. Référencement et redirections 301
9. Google prend-il en compte l'attribut Longdesc ?
10. Le nombre de pages d'un site web indexées par Google
11. Mots clés et Google Webmaster Tools
12. Les 3 chiffres dans les URL sont-ils obligatoires pour être indexé dans Google Actualités ?


 


 

9 Commentaires :

Rappelons ici que les liens insérés dans vos commentaires sont en 'rel=nofollow' et ne sont donc ni suivis ni interprétés par les moteurs de recherche...

Bravo pour cet article ;)

Je pense que le content spinning à encore de beau jour devant lui car c'est tout simplement impossible de le détecter si c'est bien fait.

Je pense de même, difficilement détectable. Par contre, il parle d'illisibilité...mais le plus souvent, le content spinning est assez proche du français (voire totalement)

tout à fait ;) certains étranger qui essayent de parler français sont moins compréhensible que le content spinning (et je ne parle pas des "kikoo lol")
et puis on à pas attendu le content spinning pour "pondre" des textes illisible destiné à google...

Mon commentaire : il faut être fou ou idiot pour utiliser le spin sur son propre site, il faut plutôt l'étaler sur de nombreux hosts. Et lorsque le "black hat" a lieu à l'extérieur du site, Google ne peut et ne pourra rien faire. CQFD.

La réponse semble montrer soit une certaine ignorance de la technique, soit au contraire une vision globale de son emploi. Ceci dit, que ce soit fait manuellement, semi-automatiquement ou exclusivement automatiquement, la réécriture des mêmes contenus reste très aisée.

Pour s'en convaincre, il suffit de lancer Google Actualités et de voir des articles aux contenus différents, mais de sujets équivalents, regroupés entre eux. Non seulement Google sait détecter des similarités entre les textes, mais est même capable de voir le même sujet abordé sur des textes rédigés par des individus — des journalistes — qui ne se connaissent même pas, ont des points de vue différents, et abordent une même actualité de manière parfois radicalement neuve.

Un autre moyen de se convaincre de la facilité déconcertante de détecter des textes similaires : les filtres anti-spam des emails ! Il n'y a pas une infinité de textes promotionnels visant à vendre des pilules bleues contrefaites. La similitude des textes entre le spam déjà détecté et un nouveau message encore inconnu est un excellente indicateur sur l'aspect « spamesque » d'un message. On a pris l'habitude lorsque le taux d'erreur dépasse 1 %. C'est dire qu'on connaît bien ces filtres. Même remarque pour le spam des commentaires de blogs, avec des SaaS anti-spam de type Akismet, par exemple.

Enfin, ceux qui sont convaincus de l'impossibilité de détecter du « spin bien fait » pourraient peut-être se documenter sur le « paradoxe des anniversaires ». Si une phrase spinnée peut s'écrire de 365 façons différentes, la 23e copie a 50 % de chances d'être identique à l'une des 22 versions précédemment publiées ; la 57e copie a 99 % de chances d'être identique aux 56 copies précédentes. La détection devient encore plus aisée avec un texte plus long, puisque la découverte de similitudes partielles permet de remonter sur de nouvelles copies du même corps de texte, et ainsi remonter à l'ensemble des pages faites à partir du même gabarit. Pourtant, une phrase dotée de 365 déclinaisons est plus qu'un « bon spin ». C'est carrément un spin extraordinairement riche. Et pourtant, c'est très insuffisant. Il devient alors moins cher de réécrire à la main. Et là encore, Google sait déjà le faire, puisqu'il le fait sur Google News...

Le content spinning peut avoir une portée utilisateur lorsqu'il s'agit de mots aux orthographes multiples. Ne confondons pas donc spam spinning et word spinning ;)

La paradoxe des anniversaires est fréquent en cryptographie. Mais il n'a pas de sens sur un texte. Si on l'applique comme critère, même les textes non spinnés seraient dans le rouge. Quant à la réponse elle est juste drolatique. Ce genre d'incantation n'a d'effet que sur ceux qui s'effraient d'entendre crier au loup.

Personnellement, j'utilise les techniques de morphing pour créer entre 10 et 15 textes, essentiellement pour les communiqués de presse. Si c'est bien fait pour un nombre de "copies" (qui ne le sont pas en fait^^) raisonnable, je pense que ça passera. En tous les cas, ça passe les filtres à duplicate content des portails de CDP :)

Nous sommes loin du spinning d'antan.
Sans même parler de Black Hat, je vois passer des solutions pour améliorer du contenu (type fiche produit par ex) qui sont redoutables. C'est un texte généré par des robots qui sont parfaitement lisibles par des humains.
Le souci à ce niveau est plutôt sur le champ sémantique/near-duplicate que content spinning tel qu'il est énoncé par Google.
Encore une fois, le moteur est en retard sur les techniques.


 
<< Accueil
 

 

Quelques réflexions sur les moteurs de recherche et le référencement, infos sur le référencement à destination des webmasters, études, enquêtes sur les moteurs de recherche, etc.
 
feed xml
 
SEO 2011 : pour ne rien rater de l'actu SEO en 2011
 
Un guide (PDF) de 97 pages qui propose un résumé de ce qui a fait l'année 2011 en termes de SEO, pour être sûr de ne rien avoir raté ces 12 derniers mois au niveau du référencement naturel de votre site web.


Le livre "Réussir son référencement web, édition 2012" (Eyrolles, janvvier 2012) bientôt disponible !
Consultez le site Livre Référencement !

Recherche et Référencement
La lettre professionnelle mensuelle "Recherche et Référencement" pour tout savoir sur les moteurs de recherche. Indispensable pour votre veille !

Les Universités du Référencement
3 jours de formation pour explorer les territoires de la rédaction web, de l'optimisation de sites web pour les moteurs de recherche et du référencement naturel en général...
 
Pour tout savoir sur le DVD "SEO, Optimisez votre Référencement Web" (Elephorm, mars 2011), consultez le site de l'editeur Elephorm !


 
Lettre d'actualité
La lettre "Actu Moteurs" est hebdomadaire et gratuite. Abonnez-vous :

Rejoignez nos 70 000 abonnés (plus d'infos) depuis 1998 et recevez toute l'info sur les moteurs chaque semaine !

 
Les blogs d'Abondance
Abondance-Actu :
Toute l'actualité quotidienne des moteurs de recherche et du référencement.
Abondance-Info :
Quelques réflexions sur les moteurs de recherche et le référencement.
Abondance-Pro :
Le sommaire de la lettre professionnelle "Recherche et Référencement".
Abondance-Abonnés :
Le blog des abonnés payants.
 



 

 
 Recherche sur le site Abondance :

Tout Abondance
Toute l'actu depuis 1998

 

Messages précédents

 
Infographie : SEO et codes HTTP
Une demi-journée pour mieux comprendre Google Pand...
Quelques photos des locaux de Google à Zürich
Recherche et Référencement : le numéro 126 de mai ...
Vidéo : réunion du staff chez Google en 1999
Search Globe : dans quelle langue les internautes ...
Universités du Référencement : la dernière ligne d...
Mon tee-shirt Blekko :-)
Infographie : taux de clics dans les SERP de Googl...
Visitez un datacenter Google !

 

Archives

 
septembre 2005
octobre 2005
novembre 2005
décembre 2005
janvier 2006
février 2006
mars 2006
avril 2006
mai 2006
juin 2006
juillet 2006
août 2006
septembre 2006
octobre 2006
novembre 2006
décembre 2006
janvier 2007
février 2007
mars 2007
avril 2007
mai 2007
juin 2007
juillet 2007
août 2007
septembre 2007
octobre 2007
novembre 2007
décembre 2007
janvier 2008
février 2008
mars 2008
avril 2008
mai 2008
juin 2008
juillet 2008
août 2008
septembre 2008
octobre 2008
novembre 2008
décembre 2008
janvier 2009
février 2009
mars 2009
avril 2009
mai 2009
juin 2009
juillet 2009
août 2009
septembre 2009
octobre 2009
novembre 2009
décembre 2009
janvier 2010
février 2010
mars 2010
avril 2010
mai 2010
juin 2010
juillet 2010
août 2010
septembre 2010
octobre 2010
novembre 2010
décembre 2010
janvier 2011
février 2011
mars 2011
avril 2011
mai 2011
juin 2011
juillet 2011
août 2011
septembre 2011
octobre 2011
novembre 2011
décembre 2011
janvier 2012
février 2012

Lettres d'actualité

 
Actu Moteurs : revue de presse hebdomadaire
Recherche & Référencement : lettre professionnelle mensuelle

L'actu des moteurs

 


Liens

 
Abondance.com
Réseau Abondance
Un site du Réseau Abondance (english version : Search Engine Tools) :
Information : Abondance - Forums Abondance - Boutique Abondance - Livre Référencement - Livre Google
Outils : Outiref - Visiref - Keyword Search Engine - Spider Simulator - Soumission-Manuelle - Flash Moteurs - Moklic
Divers / Jeux : Googlefight - Klevener - Googland - Grifil.com
Moteurs de recherche : Mozbot.fr - Motref - Grifil.net - Biomalin - Foot Engine - SearchWings