cPanel: CSF permitir Search Engines Bots

Si estas usando ConfigServer Security & Firewall en tu Cpanel/WHM , lo mas probable es que los robots de los buscadores se estén bloqueando por defecto, impidiendo que estos entren a la web para indexar el contenido.

De cara al SEO esto es muy malo porque al no indexarse el contenido en los buscadores entrarían menos visitas a tu web, ademas que también podría traer problemas en otros servicios como de Google Adsense, PingdomTools, PageSpeed, etc.

El método normal para permitir a cada crawler seria haciéndolo por la IP (o por bloques de IP), pero estas IPs suelen cambiar muy seguido y tendríamos que estarlas actualizado incluso cada día. Un método mas fácil de hacerlo seria por medio de DNS Lookup así que voy a dejar los pasos.

Editar desde el Web Host Manager de cPanel:

  1. Entramos al WHM (Puerto :2087) y vamos al plugin de CSF :

Home »Plugins »ConfigServer Security & Firewal

2.  Ahora vamos a la sección "lfd - Login Failure Daemon" y en la parte de "Edit ldf ignore file" seleccionamos la opción de "csf.rignore, Reverse DNS lookup" y luego le damos a Edit

3. Al final del archivos debemos agregar esta lista de Hostname`s de algunos Search Engines que he preparado:

.googlebot.com
.crawl.yahoo.net
.search.msn.com
.google.com
.yandex.ru
.yandex.net
.yandex.com
.crawl.baidu.com
.crawl.baidu.jp
.bing.com

4. Damos a guardar  y reiniciamos el LDF.

Editar desde la consola de comandos:

Tambien puedes editar el archivo por la consola de comandos.

  1. Nos conectamos por SSH al servidor y ejecutamos lo siguiente:
vi /etc/csf/csf.rignore

2. Agregamos las excepciones al final del archivo (pongo también los comentarios de ayuda):

# Do not remove or change this line as it is a safeguard for the UI editor
###############################################################################
# Copyright 2006-2018, Way to the Web Limited
# URL: http://www.configserver.com
# Email: sales@waytotheweb.com
###############################################################################
# The following is a list of domains and partial domain that lfd process
# tracking will ignore based on reverse and forward DNS lookups. An example of
# its use is to prevent web crawlers from being blocked by lfd, e.g.
# .googlebot.com and .crawl.yahoo.net
#
# You must use either a Fully Qualified Domain Name (FQDN) or a unique ending
# subset of the domain name which must begin with a dot (wildcards are NOT
# otherwise permitted)
#
# For example, the following are all valid entries:
# www.configserver.com
# .configserver.com
# .configserver.co.uk
# .googlebot.com
# .crawl.yahoo.net
# .search.msn.com
#
# The following are NOT valid entries:
# *.configserver.com
# *google.com
# google.com (unless the lookup is EXACTLY google.com with no subdomain
#
# When a candidate IP address is inspected a reverse DNS lookup is performed on
# the IP address. A forward DNS lookup is then performed on the result from the
# reverse DNS lookup. The IP address will only be ignored if:
#
# 1. The results of the final lookup matches the original IP address
# AND
# 2a. The results of the rDNS lookup matches the FQDN
# OR
# 2b. The results of the rDNS lookup matches the partial subset of the domain
#
# Note: If the DNS lookups are too slow or do not return the expected results
# the IP address will be counted towards the blocking trigger as normal
#

.googlebot.com
.crawl.yahoo.net
.search.msn.com
.google.com
.yandex.ru
.yandex.net
.yandex.com
.crawl.baidu.com
.crawl.baidu.jp
.bing.com

3. Pulsamos "ESC" y luego escribimos ":wq" para guardar los cambio y salir del archivo

4. Reiniciamos el Firewall CSF:

csf -r 

# version larga
csf --restart