Nous avons banni un certains nombre
d'user-agents, de
robots spammeurs et d'aspirateurs de sites. Voici un
des scripts php que nous utilisons, avec la liste des user-agents bloqués :
<?php
$navigateur
=
$_SERVER["HTTP_USER_AGENT"];
$bannav
=
Array('HTTrack', 'HTTPClient', 'hors
ligne', 'httpdown', 'Offline', 'PageGrabber', 'SiteSnagger',
'Teleport', 'WebCapture', 'WebCopier', 'webcopy', 'WebMirror',
'WebReaper', 'WebZIP', 'Alexibot', 'Aqua_Products', 'asterias', 'b2w',
'BackDoor', 'BackWeb', 'BackStreet', 'Bandit', 'BatchFTP',
'Black.Hole', 'BlackWidow', 'BlowFish', 'BotALot', 'BotRightHere',
'BuiltBotTough', 'Bullseye', 'bumblebee', 'BunnySlippers', 'capture',
'Cegbfeieh', 'CheeseBot', 'CherryPicker', 'CherryPickrElite',
'CherryPickerSE', 'ChinaClaw', 'clipping', 'clsHTTP', 'collage',
'Copernic', 'Copier', 'CopyRightCheck', 'Cosmos', 'Crescent', 'Custo',
'DA
', 'Demon', 'Density', 'Disco', 'disco', 'DISCoFinder', 'DittoSpyder',
'Download', 'eCatch', 'EirGrabber', 'Email', 'email', 'EmeraldShield',
'emporter', 'EroCrawler', 'Extractor', 'EyeNetIE', 'FairAd', 'Filangy',
'Flaming', 'FlashGet', 'FlickBot', 'Foobot', 'FrontPage', 'Gaisbot',
'GetRight', 'GetSmart', 'GetWeb', 'GetWebPage', 'gigabaz', 'Go-Ahead',
'Go!Zilla', 'GornKer', 'gotit', 'Grabber', 'GrabNet', 'Grafula',
'Hari', 'Harvest', 'hloader', 'HMSE_Robot', 'HMView', 'httplib',
'humanlinks', 'Indy', 'InfoNaviRobot', 'Iron', 'InterGET',
'Intraformant', 'Jenny', 'Jetcar', 'JOC', 'JustView', 'kapere',
'Kenjin', 'larbin', 'LeechFTP', 'LexiBot', 'LibWeb', 'LinkScan',
'LinkextractorPro', 'LinkWalker', 'LNSpiderguy', 'loader',
'lwp-trivial', 'Microsoft.URL', 'Microsoft
URL', 'Missigua', 'Mister
PiX', 'Mata', 'MIDown', 'MIIxpc', 'MJ12bot', 'moget', 'NetAnts',
'NetMechanic', 'Navroad', 'NearSite', 'NetAttache', 'NetMechanic',
'NetSpider', 'NetZIP', 'NICErsPRO', 'Ninja', 'NPBot', 'Octopus',
'Offline', 'Openbot', 'Openfind', 'Oracle', 'PageGrabber', 'Papa',
'pavuk', 'pcBrowser', 'PerMan', 'PersonaPilot', 'PingALink',
'ProPower', 'ProWeb', 'Python', 'PycURL', 'QuepasaCreep', 'QueryN',
'Quester', 'Radiation', 'RealDownload', 'Reaper', 'Recorder', 'ReGet',
'replacer', 'RepoMonkey', 'RMA', 'SearchExpress', 'searchpreview',
'SiteSnagger', 'SlySearch', 'SmartDownload', 'snagger', 'Snake',
'spanner', 'SpankBot', 'Stripper', 'Sucker', 'SuperBot', 'SuperHTTP',
'Surfbot', 'suzuran', 'Syntryx', 'Szukacz', 'Telesoft', 'TheNomad',
'TightTwatBot', 'Titan', 'toCrawl', 'True_Robot', 'turingos',
'TurnitinBot', 'URL
Control', 'URL de
contrôle', 'UrlDispatcher', 'urllib', 'URL_Spider_Pro',
'URLy',
'Vampire', 'VCI', 'Veuve', 'VoidEYE', 'WebAuto', 'WebBandit',
'WebCapture', 'Webclipping', 'webcollage', 'webcopy', 'WebEMail',
'WebEnhancer', 'WebFetch', 'webfetch', 'WebGo', 'Web
Image', 'Web.Image', 'WebIndexer', 'WebLeacher', 'WebmasterWorld',
'WebMiner', 'WebMirror', 'WebPictures', 'WebSauger', 'Website',
'Webster', 'WebStripper', 'Web
Sucker', 'WebWalker', 'WebWhacker', 'WebZIP', 'Wget', 'WWW-Collector',
'wwwoffle', 'Whacker', 'whizbang', 'Zeus');
foreach
($bannav as $banni)
{ $comparaison = strstr($navigateur,
$banni);
if($comparaison!==false) {
echo
'<center>Ce navigateur est
interdit<br></center>';
exit;}}
?>
L'avantage
de ce script, c'est qu'il est compatible avec tous les serveurs
gérant le langage php et qu'il bloque tous les user-agents
contenant ces mots interdits. Ils peuvent ajouter des nombres ou des
chiffres devant ou derrière, cela ne changera rien.
Certains
robots spammeurs ou aspirateurs de sites utilisent un user-agents de
Firefox ou d'Internet Explorer. Nous avons mis en place une page
piège que seuls les robots ou les aspirateurs de sites
cliquent dessus. Si vous avez été banni du site en utilisant un aspirateur de sites, vous serez débanni
automatiquement au bout de 24 h.