Archivo Robots.txt ¿Qué es y cómo usarlo y configurarlo correctamente?

Iván Fresneda

marzo 17, 2019
Sin comentarios

Únete a nuestra newsletter de marketing

Inicio / Internet / Archivo Robots.txt ¿Qué es y cómo usarlo y configurarlo correctamente?

Un archivo robots.txt permite controlar el tráfico de rastreo. Funciona como un filtro para bloquear los bots de Google y otros motores que buscan entrar a determinadas páginas o carpetas de nuestros sitios webs. El robot.txt controla qué información de un sitio debe o no debe ser indexada por los sitios de búsqueda. La sintaxis del archivo es muy simple, y debe ser subida por el webmaster responsable del sitio en la raíz del hospedaje.

El archivo robots.txt debe guardarse en la carpeta raíz del sitio web, e indica a los robots de búsqueda de Google, Bing y muchas otras páginas que no deben acceder a ciertas paginas o carpetas. En definitiva, permite o prohíbe la exploración de un sitio web o parte de él, ya sea a un motor de búsqueda o a varios.

¿Para qué sirve el archivo robots?

Como ya dijimos, el archivo robots.txt sirve para dar órdenes específicas para los robots de búsqueda. Para que lo entendamos un poco mejor, vamos a enumerar sus funciones específicas.

Controla el acceso a archivos de imagen

Los robots.txt es capaz de impedir que los archivos de imagen de una página se muestren en los resultados de búsqueda. Esto ayuda a controlar el acceso a algunas informaciones importantes, como los perfiles y detalles técnicos de los productos.

Por no aparecer en los resultados de búsqueda, el usuario tendrá la obligación de acceder a la página, lo que puede ser más interesante para cualquier empresa. Pero es importante destacar que el archivo robots.txt no impide que otras páginas y usuarios copien y compartan los vínculos de sus imágenes.

Bloquea accesos a archivos de recursos

Además del bloqueo de imágenes y de las páginas web, el archivo robots.txt puede ser útil para bloquear el acceso a otros archivos de script y de estilo menos importantes, ahorrando trabajo a los servidores.

Sin embargo, esta función se debe utilizar con cautela, sobre todo si estos recursos son indispensables para la carga correcta de una página, lo que puede dificultar el trabajo de los rastreadores, perjudicando el análisis de una web.

Cómo crear un archivo robots.txt

Crear un archivo robots.txt es muy simple, sólo requiere el conocimiento de unos pocos comandos específicos. Este archivo se puede crear en el bloc de notas o cualquier otro editor de texto. También se requiere acceso a la carpeta raíz del dominio.

Para crear un archivo robots.txt, hay que acceder a la raíz del dominio, donde se guardará el archivo creado. Después, es importante conocer un poco de la sintaxis y los comandos de robots.txt

Reglas generales sobre el archivo robots.txt

Algunas reglas que hay que tener en cuenta antes de crear el archivo robots.txt son:

Solo debe existir un archivo robots.txt en todo el sitio web y debe estar ubicado en la raíz de ella.
Si se quieren imponer reglas diferentes para cada motor de búsqueda, se pueden crear varias secciones de agente de usuario.
El nombre del archivo (robots.txt) debe escribirse siempre en minúsculas.
Solo puede registrarse un directorio o un nombre de archivo detrás de una orden de “No permitida”.
El su archivo robots.txt se debe transferir en modo ASCII. Muchos ftp-client modifican el código de los archivos .txt cuando no se transfieren en modo ASCII. Esta es la causa de los problemas más frecuentes con el archivo robots.txt.

Quizá te interese leer: Fake news o noticias falsas ¿Qué son y cómo detectarlas?

Los comandos en el archivo robots.txt

Los comandos en robots.txt funcionan de forma similar al HTML y los diversos lenguajes de programación existentes en el mercado. Hay comandos que serán seguidos por los robots para navegar y encontrar las páginas de cada sitio web.

Comando principales

Los comandos que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis a seguir tiene que cumplir unas reglas:

Sólo se pueden utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales).
Se deben respetar las mayúsculas/minúsculas, la puntuación y los espacios.
Cada grupo User-agent/Disallow debe estar separado por una línea en blanco.
Se pueden incluir comentarios mediante la almohadilla o símbolo de hash (#)

Los comandos más importantes son:

User-agent: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
Disallow: Deniega el acceso a un directorio o página concreta.
Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, como comentábamos más arriba, se pueden utilizar 2 caracteres para aumentar o reducir la concordancia:

Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión “php” se utilizaría “/*.php$”.

Restricciones más comunes

Con los comandos y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que se puede acabar bloqueando alguna parte esencial para su funcionamiento. En este sentido, es mejor ceñirse a las restricciones más comunes, como son:

Incluir todos los robots – User-agent: *
Denegar todo el sitio – Disallow: /
Denegar un directorio – Disallow: /directorio/
Especificar el robot de Bing – User-agent: Bingbot
Denegar directorios que comienzan por “algo” – Disallow: /algo*/
Permitir un subdirectorio – Allow: /directorio/subdirectorio/
Denegar una página – Disallow: /pagina-web.htm
Especificar el robot de Google – User-agent: Googlebot
Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
Denegar la extensión .gif – Disallow: /*.gif$
Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml
Archivo robots.txt:
User-Agent: *
Disallow: /wp-
Disallow: /ir/
Allow: /wp-content/uploads/
Sitemap: https://tecnologiaclic.com/sitemap_index.xml

Quizá te interese leer: LuzIA, esta es la nueva inteligencia artificial de WhatsApp

¿Qué significa cada línea del archivo robots.txt?

A continuación, mostramos un ejemplo de una parte de un archivo robot.txt y su interpretación:

User-Agent: * 
Disallow: /wp-  
Disallow: /ir/
Allow: /wp-content/uploads/   
Sitemap: https://tecnologiaclic.com/sitemap_index.xml

Línea 1: Declaramos que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
Línea 2: Denegamos el acceso a todos directorios y páginas que comienzan por “wp-”, propios de la instalación de WordPress.
Línea 3: Denegamos el acceso al directorio que se usan para redirecciones.
Línea 4: Permitimos el acceso al directorio de archivos adjuntos, puesto que en la línea 2 lo había desautorizado.
Línea 5: Indicamos la ruta donde se encuentra el mapa XML de mi página web.

Recomendamos que la crear el archivo, se comprueben bien las funciones de las líneas de comandos introducidas. Hay que tener en cuenta que un simple error puede impedir el acceso a los buscadores y causar la pérdida de todos los rankings. La comprobación es fácil de hacer con las Herramientas para Webmasters de Google, en Rastreo > URL bloqueadas.

¿Cuáles son las limitaciones de los robots.txt

A pesar de ser muy útil para dirigir el acceso de los robots de búsqueda a una página, hay que reconocer que el robot.txt tiene algunas limitaciones. Conocerlas es importante, principalmente para identificar la necesidad de utilizar otros artificios para que las URLs no se encuentren fácilmente en las búsquedas.

Las instrucciones del archivo robots.txt son sólo directivas

Aunque el uso de archivo robots.txt es un estándar del mercado, las herramientas de búsqueda no están obligadas a seguir todas sus órdenes. Esto quiere decir que por más que los robots de búsqueda de Google sigan las instrucciones del archivo robots.txt, otras herramientas de búsqueda pueden no hacer lo mismo.

Por eso es importante que además del archivo robots.txt, se utilicen otros métodos para ocultar las páginas de Google, como el acceso protegido por contraseña o el uso de las etiquetas meta “noindex” en el código html.

Cada robot de búsqueda puede interpretar la sintaxis de maneras diferentes

A pesar de seguir un estándar internacional, los comandos insertados en robots.txt pueden ser interpretados de forma diferente por cada robot de búsqueda. Por eso, para garantizar su correcta utilización es necesario conocer la sintaxis ideal para atender cada herramienta de búsqueda.

Esto quiere decir que, además de entender cómo Google interpreta la información de robots.txt, puede que sea necesario aprender también la metodología de Bing, Yahoo y cualquier otra herramienta de búsqueda del mercado.

Los directivos de robots.txt no impiden que otros sitios hagan referencia a sus URL

Un error muy común dar por hecho que un contenido bloqueado por robots.txt no puede ser encontrado de otras formas por los usuarios e incluso por sus competidores. Por este motivo, si una URL restringida puede ser divulgada en otros sitios o blog, esta página todavía puede aparecer en los resultados de búsqueda. Por eso, es indispensable insertar la etiqueta “noindex” e incluso bloquear el acceso a través de contraseña para garantizar que nadie tenga acceso a su página.