Vous vous demandez ce que je veux dire en utilisant l'expression Pré-Spam ? Et bien c'est comme cela que j'appelle les commentaires et/ou les rétroliens qui sont fait par les spammeurs pour tester la validité des liens qu'ils ont récupérés. Par exemple, depuis hier, j'ai reçu plusieurs centaines de commentaires qui ne contiennent qu'un texte tout à fait anodin du style Nice web site
. En général, ça précède une vague de spam intensif dans les jours qui suivent.
Ces commentaires et rétroliens ne sont pas interceptés par Spamplemousse ou par SpamClear. Le premier ne reconnaissant pas les adresses IP des émetteurs et le deuxième ne considérant pas leurs contenus comme étant susceptible d'être du spam. Je me demande si il ne faudrait pas envisager un filtre supplémentaire qui empêcherait que plusieurs commentaires (ou rétroliens) possédant le même contenu soient postés de manière rapprochée. On pourrait par exemple envisager d'interdire ce genre de doublon sur une période de quelques heures.
De cette manière, seul le premier serait enregistré et les suivants rejetés : dès que le deuxième est reçu, on déclenche le chronomètre[1] et si un commentaire identique vient avant le délai fixé, on le rejette, éventuellement en remettant à zéro le chrono. Un avantage supplémentaire à ce filtre est qu'il permet de ne pas enregistrer un doublon fait par mégarde par un commentateur légitime qui aurait quelques soucis de connexion ou de lenteur.
Vous savez si quelque chose de semblable existe déjà ?
Notes
[1] Quand je dis déclencher le chronomètre il s'agit bien sûr d'une figure de style car il suffirait de comparer les dates et heures des commentaires pour en déterminer l'écart.
1 De Tomtom -
Salut Franck!
C'est drôle mais la casi-totalité de mes spams sont des textes comme celui ci. Du coup spamclear les filtre très bien.
C'est pourtant un filtre adaptatif, tu pourrais lui préciser que c'est un spam, il ferai la différence avec un commentaire légitime contenant ce genre phrase + d'autres mots
2 De Franck -
Oui je sais, mais souvent ce genre de préparation avant-attaque massive n'est pas reconnue comme telle par SpamClear. J'éduque bien évidemment SpamClear en conséquence, mais ça n'est pas toujours efficace.
3 De Guillaume -
Franck,
je suis dans le même cas que toi mais mon spamclear me les stoppe sans soucis.
Effectivement j'ai du entrainer le filtre une fois sur ce genre de phrase et depuis plus rien ne passe.
4 De Franck -
Effectivement SpamClear est très efficace dès qu'il est entrainé sur ces phrases, mais ces phrases changent et le temps qu'on s'aperçoive du problème, plusieurs centaines de commentaire ont été publiés. C'est ce qui m'est arrivé hier et ce pourquoi j'ai écrit ce billet.
En fait après avoir un peu étudié comment Spamassassin fonctionnait (il y a une multitude de petits filtres qui donnent un poids négatif ou positif en fonction du résultat, leur somme donnant à la fin le statut du message inspecté, spam ou ham) je me suis dit que c'était un filtre complémentaire qui serait facile a développer et qui permettrait de ne pas alourdir la base de données.
5 De Franck -
Et ça vient juste de recommencer, avec
cette fois, environ une quarantaine. Ils sont tous passés.6 De tehu -
Je sais que Sam Ruby en parle régulièrement. Cherche
'comment throttle' sur son blog ou commence par cette page. Son petit CMS Mombo est en distribution libre, mais il est en python.
7 De Franck -
Merci tehu pour les infos, je vais regarder ça de plus près.
8 De Da Scritch -
Quand j'ai du pré-spam, les doublons sont très rare. Dnc bouffage inutile de ressource. La meilleure solution est de bloquer des mots très anodins ou alors de valider à postériori. Donc pas franchement envisageable.
9 De Spica -
Moi, je n'ai ni Spamclear ni Spamplemousse. J'ai juste utilisé l'astuce trouvée chez Ploum, et ça suffit à bloquer tout le spam pour l'instant. Le seul commentaire que j'ai eu jusqu'à présent qu'on pourrait qualifier de spam était un commentaire posté à la main par quelqu'un qui essayait de se faire de la pub.
10 De Référenceur -
L'antispam de DC2 est diaboliquement efficace! Je pense que ça devrait refroidir les spammeur durant un bon moment mais hélas la seule réelle solution reste le captcha...
11 De Kozlika -
Certes.
... sans parler des spammeurs manuels qui laissent des commentaires chez tous les membres de la team le meme jour...