Universidad Peru .com
Suscríbete a Nuestro Boletín           
Suscríbete a Nuestro Boletín


Publicidad


Menú Principal


Recomendados


Empresas


Directorios


Sobre Nosotros


Agenda de Eventos

Conoce todas las actividades programadas por las diferentes casas y centros de estudios. ¡No te lo pierdas!

Agenda de Eventos


Suscríbete

Diariamente se publican una gran cantidad de novedades, ofertas de trabajo entre otros en nuestro portal. Suscríbete para recibir dichas actualizaciones en tu email.

Suscríbete Vía Email

Recursos para Webmasters >>> Relación de los peores Agentes, Robots, y Arañas que debes bloquear en Htaccess



Relación de los peores Agentes, Robots, y Arañas que debes bloquear en Htaccess

Aunque ésta no es una lista exhaustiva, de hecho que te ayudará a reducir enormemente la cantidad de aquellos que quieran acceder a tu contenido para aprovecharse de alguna u otra manera de él.

RewriteCond %{HTTP_USER_AGENT} ^($|.$|.*Almaden|[bcdfgjklmnpqrstvwxyz]{5,}|.*compatible\ \;|.*DTS.Agent|.*Fluffy|.*Girafabot|.*HTTrack|.*Harvest|.*LWP|.*Rover|.*Searchhippo|.*TrueRobot|.*Twiceler|.*Voila|.*Voyager|.*WUMPUS|.*Webcraft@bea\.com|ADSARobot|ASPSeek|ASSORT|ATHENS|Acrobat\ Webcapture|Ah\-ha|Aktuelles|Amzn_assoc|Atomic\_Email\_Hunter|Attache|Autoemailspider|BDFetch|Beast|Bew|Big.brother|BlackWidow|Blog\_search\_engine|Boitho|Bullseye|Bumblebee|CCBot|CazoodleBot|CentiverseBot|CherryPicker|ChinaClaw|Crescent|Curl|Cyveillance|DCE|DIIbot|DISCo|DRFVNKYJYKYJ|Deweb|Digger|Digimarc|Disco|Download\ Demon|ECatch|Ecollector|EirGrabber|Email.Extractor|EmailCollector|EmailSiphon|EmailWolf|Exabot|Explorer|Express\ WebPictures|ExtractorPro|EyeNetIE|FAST|FEZhead|Fastlwspider|FavOrg|Favorites.Sweeper|Fetch|FlashGet|Franklin.?Locator|FrontPage|Generic|GetRight|GetURL|GetWebPage|Getleft|Go-Ahead-Got-It|Go-ahead-got-it|Goldfire\_Server|Gooblog|GrabNet|Grafula|Green\ Research|HLoader|HMSEbot|HMView|HTML.?Works|Holmes|HomePageSearch|Http.?generic|IBM_Planetwide|IUPUI.?Research.?Bot|Ichiro|Image\ Stripper|Image\ Sucker|IncyWincy|Industry.?Program|Ingelin|InterGET|InternetSeer.com|Internet\ Ninja|JOC\ Web\ Spider|Jakarta|Java|JetCar|Just\_a\_Browser|KWebGet|Larbin|LargeSmall\ Crawler|Leech|.*Libcurl|Libwww|LinkWalker|MCspider|MIDown\ tool|MJ12bot|MSFrontPage|Mac.?Finder|Mass\ Downloader|Metalogger|Microsoft|Mirror|Mister\ PiX|Moreoverbot|Mozilla.*Indy|Mozilla.*NEWT|MsProxy|MySweetSpider|My\-heritrix\-crawler|NICErsPRO|NPBot|NameOfAgent|Naver\ Robot|Navroad|NearSite|Net.Vampire|NetAnts|NetCarta|NetResearchServer|NetSpider|NetZIP|Net\ Vampire|Netprospector|Nost\.info|Nutscrape|Octopus|Offline\_Explorer|OpaL|OpenTextSiteCrawler|Openfind|OrangeBot|Others|PRCrawler|PSurf|PackRat|PageGrabber|Page\_verifier|Papa\ Foto|Pavuk|PcBrowser|PlantyNet_WebRobot|Production.?Bot|Program.?Shareware|.*Powerset|Psbot|PushSite|Python|REAP\-crawler|ReGet|Reget|RepoMonkey|Rezzibo|Robozilla|Rsync|Scope|ScoutAbout|Search4free|Searchterms\.it|Seekbot|Sensis|Shai|Shelob|ShopWiki|SindiceBot|Siphon|SiteSnagger|Sitecheck|Sogou|Spegla|SpiderBot|SqWorm|SuperBot|SuperHTTP|SurfWalker|Surfbot|TAkeOut|Tarspider|Teleport\ Pro|Telesoft|Templeton|TheRarestParser|TinEye|TurnitinBot|UIowaCrawler|UtilMind|VB\-Tec|Veoh|Visicom|VoidEYE|Vspider|W3mir|WEBMASTERS|WGOKSCOXEUQH|WISEbot|Web.by.mail|WebAlta\ Crawler|WebAuto|WebBandit|WebCopier|WebCopy|WebCorp|WebEMailExtrac|WebFetch|WebMiner|WebReaper|WebSauger|WebSnake|WebStripper|WebWhacker|WebZIP|Web\ Sucker|Webcollage|Website\ eXtractor|Websnatcher|Webvac|Webwalk|Wget|WhosTalking|Widow|WordPress|XGET|Xerka|YZGN|Yandex|Yeti|Yodaobot|Zermelo|Zeus|Zeus.*Webster|ZyBorg) [NC]
RewriteRule ^.*$ - [F,L]

Con esto, estamos bloqueando cerca de 250 agentes de usuario que en su mayoría son perjudicales para tu sitio. Algunos de ellos merecen una explicación más detallada:

$ y .$ - Bloquea a aquellos que no indican su user agent, o colocan una sola letra en vez del nombre completo.

.*compatible\ \; - Hace match a un falso agente de usuario, que utiliza un espacio entre la palabra compatible y el punto y coma.

[bcdfgjklmnpqrstvwxyz]{5,} - Este es realmente hermoso. Lo que hace es bloquear a aquellos que usen un user agent compuesto de 5 o más consonantes seguidas. Por ejemplo, bloqueará a un agente Lbjnspv ykhuspjr jxtm, o a un agente xxxxx, pero no a uno de la forma xxxx

Microsoft – Bloquea a todos aquellos que intentan abrir tu sitio desde frontpage, word, o cualquier otra herramienta de edición de Microsoft.

Wget – No es una mala herramienta per se, de hecho la utilizamos mucho aquí, pero prefiero bloquearla y sólo permitirla a mi propio servidor. ¿Pero cómo hacemos esto?

Combinamos la regla anterior, y le añadimos la siguiente:

RewriteCond %{REMOTE_ADDR} !^72.36.150.160 [NC]

Esta regla combinada con la anterior nos dice: Si cumple la regla 1, Y además el servidor NO es el 72.36.150.160, entonces niega el acceso.

Con este “truco”, podemos seguir utilizando el Wget, o cualquier otro programa bloqueado desde nuestro servidor, y sin embargo estará negado el acceso a cualquiera que intente entrar desde otra dirección ip.

Pero sería conveniente a cualquier agente que lea el archivo robots.txt, ya que allí puedes poner las reglas "visibles" que quieras darle a cualquier robot. Para ello, combinamos la regla anterior con esta:

RewriteCond %{REQUEST_URI} !^(/robots.txt) [NC]

Finalmente una aclaración. No todos estos programas son "malos". Los programas en sí son herramientas, el problema es que ellas suelen ser abusadas por otras personas con el fin de satisfacer sus propios intereses, los cuales en un 99% de los casos no están alineados con los tuyos. Personalmente, prefiero bloquearlas y evitar el descarado robo de información y ancho de banda a la cual suelen ser sometidos muchos sitios. En algunos casos he visto una reducción drástica del consumo de recursos y ancho de banda, acumulando varios gigabytes de transmisión mensuales. Lo ideal es, bloquearlos, y luego ir analizando nuestros logs para ver a quienes bloqueamos y por qué. Así nos daremos cuenta si algún bloqueo es "injusto" o no.


Siguiente >>> Bloquear Spam por Referidos con Htaccess



Suscríbete a nuestro boletín y recibirás diariamente vía email las nuevas publicaciones del portal. También puedes usar el RSS Feed para hacerlo!


Última revisión: 17 / Junio / 2008


UniversidadPeru.com no se hace responsable si con las propuestas o técnicas mostradas tu servidor o web deja de funcionar. Ten siempre a la mano una copia de seguridad de los archivos que estés modificando, en caso tengas que revertir algún error.


Síguenos en...



Pasa la Voz

Si te gustó está página, envíasela a un amigo!

Pasa la Voz


Bolsa de Trabajo

¿Buscas trabajar o practicar? Nuestra bolsa de trabajo te puede ayudar a que consigas la chamba deseada.

Bolsa de Trabajo