Webfriends

,

Robots.txt

El archivo Robots.txt es un archivo de texto que todo Webmaster debe crear y subir al servidor de nuestra web para dar instrucciones a los robots de búsqueda (Google, Yahoo, Bing, etc) sobre qué páginas o contenidos deseamos que sean considerados y visibles en las búsquedas, y cual no queremos que se muestre.
Es decir, es un archivo público que indica a los rastreadores qué partes no deben entrar a rastrear o indexar de nuestra página web. En él, podemos especificar de manera sencilla, los directorios, subdirectorios, URLs o archivos de nuestra web que no deberían ser rastreados.

¿Cuál es la función del archivo Robots.txt?

El archivo robots.txt se utiliza sobre todo para gestionar el tráfico de los rastreadores a tu sitio web y para que Google no rastree determinadas páginas o directorios del sitio, esto sin duda ahorra tiempo para los crawlers evitando esfuerzos al rastrear directorios indeseados.

Es importante programar adecuadamente este archivo, ya que en algunos casos podemos excluir accidentalmente directorios del sitio con información importante que sí debería ser rastreada. Esto suele ocurrir cuando utilizamos plugins en CMS (wordpress, joomla, prestashop, etc) para desarrollar nuestros robots, ya que estos crean urls automáticamente y pueden ser excluidas.

¿Qué son los robots en la web?

Robots.txt son archivos utilizados para favorecer la navegación de un algoritmo de búsqueda en un sitio web, instruyendo sobre cuáles páginas deben ser indexadas en los buscadores y controlando las páginas a las que el robot del motor de búsqueda no debe acceder.

Principales funciones de robots.txt:

❏ Controlar el acceso de los archivos de imágenes del sitio.
❏ Controlar el acceso a páginas webs o directorios del sitio.
❏ Controlar el acceso a los archivos de recursos del sitio.
❏ Es posible agregar la url del sitemap.xml

¿Qué es un disallow?

La instrucción Disallow, cuya traducción significa rechazar, sirve para denegar el acceso a una página o directorio del sitio. Se le asocia con el archivo Robots.txt y se le conoce como protocolo de exclusión de robots, ya que impide que los crawlers de algunos buscadores rastreen contenidos que no queremos que indexen en sus resultados.

Scroll al inicio