Internet

Archivo Robots.txt ¿Qué es el y cómo usarlo correctamente?

archivo robots.txt

Un archivo robots.txt permite controlar el tráfico de rastreo. Funciona como un filtro para bloquear los bots de Google y otros motores que  buscan entrar a determinadas páginas o carpetas de nuestro sitios. El robot.txt controla qué información de un sitio debe o no debe ser indexada por los sitios de búsqueda. La sintaxis del archivo es muy simple, y debe ser colocada por el webmaster responsable del sitio en la raíz del hospedaje.

El archivo robots debe guardarse en la carpeta raíz de su sitio, e indica a los robots de búsqueda de Google, Bing y muchas otras páginas que no deben acceder a ciertas paginas o carpetas.

¿Para qué sirve el archivo robots?

Como ya dijimos, el archivo robots.txt sirve para dar órdenes específicas para los robots de búsqueda.

Para que usted entienda un poco mejor, enumeramos sus funciones específicas.

Controla el acceso a archivos de imagen

Los robots.txt son capaces de impedir que los archivos de imagen de su página se muestren en los resultados de búsqueda.

Esto ayuda a controlar el acceso a algunas informaciones importantes, como los perfiles y detalles técnicos de los productos.

Por no aparecer en los resultados de búsqueda, el usuario tendrá la obligación de acceder a su página, lo que puede ser más interesante para su empresa.

Pero es importante destacar que el archivo robots.txt no impide que otras páginas y usuarios copien y compartan los vínculos de sus imágenes.

Hay otras herramientas para ayudarle en este objetivo.

Bloquear accesos a archivos de recursos

Además del bloqueo de imágenes y de sus páginas web, robots.txt puede ser útil para bloquear el acceso a otros archivos de script y de estilo menos importantes, ahorrando sus servidores.

Sin embargo, también debe utilizar esta función con cautela, sobre todo si estos recursos son indispensables para la carga correcta de su página, lo que puede dificultar el trabajo de los rastreadores, perjudicando el análisis de su página.

Cómo crear un archivo robots.txt

Crear un archivo robots.txt es muy simple, sólo requiere el conocimiento de unos pocos comandos específicos.

Este archivo se puede crear en el bloc de notas de su computadora u otro editor de texto que desee.

También necesitará acceso a la carpeta raíz de su dominio.

Para crear un archivo robots.txt, debe acceder a la raíz de su dominio, donde se guardará el archivo que ha creado.

Quizá te interese leer:  Cómo crear contenido relevante para tu blog

Después de eso, usted necesitará conocer un poco de la sintaxis y los comandos de robots.txt

Los comando en el archivo robots.txt

Los comandos en robots.txt funcionan de forma similar al HTML y los diversos lenguajes de programación existentes en el mercado.

Hay comandos que serán seguidos por los robots para navegar y encontrar las páginas de su sitio.

Ver algunos de los comandos principales del archivo robots.txt:

Comando principales

Los comando que utiliza el archivo robots.txt vienen del llamado Robots Exclusion Protocol, un convenio universal cuya sintaxis debes seguir:

  • Sólo puedes utilizar los comandos permitidos (aunque algunos buscadores entienden comandos adicionales)
  • Debes respetar las mayúsculas/minúsculas, la puntuación y los espacios
  • Cada grupo User-agent/Disallow debe estar separado por una línea en blanco
  • Puedes incluir comentarios mediante la almohadilla o símbolo de hash (#)

Los comando más importantes son:

  • User-agent: Indica qué tipo de robot debe cumplir con las directivas que se indiquen a continuación.
  • Disallow: Deniega el acceso a un directorio o página concreta.
  • Allow: Funciona al contrario que la directiva Disallow, permitiendo el acceso a directorios y páginas. Se puede utilizar para sobrescribir la directiva Disallow parcial o totalmente.
  • Sitemap: Indicar la ruta donde se encuentra un mapa del sitio en XML.
  • Crawl-delay: Indica al robot el número de segundos que debe esperar entre cada página. Puede ser útil en casos en los que se necesita reducir la carga del servidor.

Adicionalmente, como comentaba más arriba, puedes utilizar 2 caracteres para aumentar o reducir la concordancia:

  • Asterisco (*): Vale por una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”
  • Dólar ($): Indica el final de una URL. Por ejemplo, para indicar cualquier archivo que acabe con la extensión .php se utilizaría “/*.php$”.

Restricciones más comunes

Con los comando y comodines se puede crear todo tipo de restricciones. Sin embargo, no es buena idea ser creativo con el archivo de robots, ya que puedes acabar bloqueando algo que no deseas.

En este sentido, es mejor ceñirse a las restricciones más comunes, como son:

  • Incluir todos los robots – User-agent: *
  • Denegar todo el sitio – Disallow: /
  • Denegar un directorio – Disallow: /directorio/
  • Especificar el robot de Bing – User-agent: Bingbot
  • Denegar directorios que comienzan por “algo” – Disallow: /algo*/
  • Permitir un subdirectorio – Allow: /directorio/subdirectorio/
  • Denegar una página – Disallow: /pagina-web.htm
  • Especificar el robot de Google – User-agent: Googlebot
  • Denegar directorios y páginas que comienzan por “algo” – Disallow: /algo
  • Denegar la extensión .gif – Disallow: /*.gif$
  • Señalar el mapa del sitio – Sitemap: http://www.example.com/sitemap.xml

Archivo robots.txt:

User-Agent: * Disallow: /wp- Disallow: /ir/ Allow: /wp-content/uploads/ Sitemap: https://tecnologiaclic.com/sitemap_index.xml

Ahora me gustaría explicarte cada línea:

  • En línea 1 – Declaro que las instrucciones que vienen a continuación son para los robots de cualquier buscador.
  • Línea 2 – Deniego el acceso a todos directorios y páginas que comienzan por “wp-”, propios de la instalación de WordPress.
  • En línea 3 – Deniego el acceso al directorio que utilizo para redirecciones (no tienes por qué tenerlo).
  • Línea 4 – Permito el acceso al directorio de archivos adjuntos, puesto que en la línea 2 lo había desautorizado.
  • Línea 5 – Indico la ruta donde se encuentra el mapa XML de mi página web.
Quizá te interese leer:  Amazon afiliados ¿Qué es y como funciona?

Te recomiendo que cuando crees tu archivo compruebes que hace lo que esperas de él. Ten en cuenta que un simple error puede impedir el acceso a los buscadores y causar la pérdida de todos tus rankings. La comprobación es facil de hacer con las Herramientas para Webmasters de Google, en Rastreo > URL bloqueadas.

¿Cuáles son las limitaciones de los robots.txt

A pesar de ser muy útil para dirigir el acceso de los robots de búsqueda a su página, hay que reconocer que el robot.txt tiene algunas limitaciones.

Conocerlas es importante, principalmente para identificar la necesidad de utilizar otros arttificios para que sus URLs no se encuentren fácilmente en las búsquedas.

Las instrucciones del archivo robots.txt son sólo directivas

Aunque el uso de archivo robots.txt es un estándar del mercado, las herramientas de búsqueda no están obligadas a seguir todas sus órdenes.

Esto quiere decir que por más que los robots de búsqueda de Google sigan las instrucciones del archivo robots.txt, otras herramientas de búsqueda pueden no hacer lo mismo.

Por eso es importante que además del archivo robots.txt utilice otros métodos juntos para ocultar sus páginas de Google, como el acceso protegido por contraseña o el uso de las etiquetas meta noindex en su código html.

Cada robot de búsqueda puede interpretar la sintaxis de maneras diferentes

A pesar de seguir un estándar internacional, los comandos insertados en robots.txt pueden ser interpretados de forma diferente por cada robot de búsqueda.

Por eso, para garantizar su correcta utilización es necesario conocer la sintaxis ideal para atender cada herramienta de búsqueda.

Esto quiere decir que, además de entender cómo Google interpreta la información de robots.txt, puede que sea necesario que usted aprenda también la metodología de Bing, Yahoo y cualquier otra herramienta de búsqueda del mercado.

Los directivos de robots.txt no impiden que otros sitios hagan referencia a sus URL

Un error muy común es encontrar que un contenido bloqueado por robots.txt no puede ser encontrado de otras formas por los usuarios e incluso por sus competidores.

Por este motivo, si una URL restringida puede ser divulgada en otros sitios o blog esta página todavía puede aparecer en los resultados de búsqueda.

Por eso es indispensable insertar la etiqueta noindex e incluso bloquear el acceso a través de contraseña para garantizar que nadie tenga acceso a su página.

Archivo Robots.txt ¿Qué es el y cómo usarlo correctamente?
5 (100%) 2 votos

Ver comentarios

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Populares

Ir arriba