El archivo Robot.txt es un elemento esencial de la configuración de los sitios web, teniendo también incidencia en el posicionamiento SEO de las páginas. Vamos a ver qué es Robots.txt, cómo funciona este fichero, por qué es importante configurarlo y cómo se crea este tipo de archivo.
Qué es Robot.txt y cómo funciona
Los buscadores como Google, Bing o Yahoo, por mencionar solo los más destacados, emplean robots de búsqueda con los que leen páginas web y vuelcan sus contenidos en una base de datos; además, recuperan los enlaces de dichas páginas a otros sitios de Internet.
El fichero Robots.txt (también llamado Robot.txt) es un documento que sirve para decirle a dichos motores de búsqueda qué contenidos del dominio pueden rastrear y cuáles no; el archivo, además, proporciona un enlace al mapa del sitio (XML-sitemap).
Cuando un robot de búsqueda visita una página (lo que se conoce también como crawling, requiere al servidor el archivo Robots.txt: si este existe, pasa a analizarlo y, si esto ha sido posible, procederá a leer sus instrucciones sobre la indexación del contenido del sitio.
Por qué es necesario crear un archivo Robot.txt
La existencia o ausencia de estos ficheros no tiene incidencia alguna en el funcionamiento de la página web. El motivo principal de disponer de un fichero Robots.txt es administrar los permisos que solicitan los bots de búsqueda cuando rastrean un dominio en busca de la información que necesitan para indexarla.
Esto significa que los motores de búsqueda van a rastrear e indexar un sitio web tanto si existe el fichero como si no, solo que, si este fichero existe y contiene instrucciones correctas y precisas, el bot saltará las páginas o contenidos que se hayan especificado.
Impedir la indexación puede ser interesante para evitar que se rastree contenido duplicado, antiguo o versiones de ciertas páginas con formato óptimo para imprimir, por ejemplo; de lo contrario, estas páginas podrían aparecer en los resultados de búsqueda del motor de búsqueda (SERP), y gracias al fichero esto se evitaría.
Cómo crear un archivo Robot.txt
Debes tener en cuenta que el fichero debe ser un archivo de texto plano en formato ASCII o UTF-8, y que los bots distinguirán entre mayúsculas y minúsculas, así que ¡ten cuidado con la sintaxis al escribir!
De todos modos, puedes redactar el fichero desde cero o valerte de algún plugin (por ejemplo, Yoast SEO o Google xml Sitemap) si estás usando una herramienta de creación de sitios como WordPress; también puedes utilizar otras herramientas gratuitas online como el Robots txt Generator de Ryte.com, Sureoak o Seoptimer.
Es muy importante que dentro del archivo se especifique la demora del rastreo para evitar una sobrecarga en los servidores. Obligar al servidor a dar muchos saltos en la indexación podría ralentizar la carga de la página en un navegador.
Y, finalmente, antes de ponerlo a funcionar, no olvides de testearlo con un probador de Robots ; sin ir más lejos, Google te proporciona uno dentro de la herramienta Search Console. Si tu fichero no funciona, podrías impedir el rastreo de todo el sitio web, y obviamente eso no te interesa.
Valiéndote del fichero Robot.txt, podrás solicitar a los motores de búsqueda que no rastreen ciertas partes de tu sitio web y, por consiguiente, que estas no se muestren en los resultados de búsqueda. Cerciórate siempre de probar el fichero antes de utilizarlo, de indicar claramente al bot de búsqueda su ubicación, y de no cometer errores de sintaxis.