El archivo Robots.txt es un archivo de texto que debemos crear y subir al servidor de nuestra web para dar instrucciones a los robots de búsqueda (Google, Yahoo, Bing, etc) sobre que páginas o contenido deseamos que sea considerado y visible en las búsquedas y cual no queremos que se muestre.

Es decir, es un archivo público que indica a los rastreadores qué partes no deben entrar a rastrear o indexar de nuestra página web. En él, podemos especificar de manera sencilla, los directorios, subdirectorios, URLs o archivos de nuestra web que no deberían ser rastreados o mostrados en los resultados de búsqueda.

Es importante programar adecuadamente este archivo, ya que en algunos casos quedan excluidas accidentalmente partes del sitio con información importante que sí debiera ser rastreada. Esto suele ocurrir cuando utilizamos CMS (wordpress, joomla, prestashop, etc) para desarrollar nuestros sitios webs, ya que estos crean urls automáticamente y pueden ser excluidas.

Normalmente los usos más habituales son para evitar la accesibilidad a determinadas partes del sitio web, impedir la indexación de contenidos duplicados (por ejemplo páginas para impresión o de prueba), o para indicarle a Google cuál es nuestro mapa del sitio (sitemap.xml)