Noindex y robots.txt, ¿para qué sirven?

Escrito por Alberto Fernández. - 10 min de lectura

Última actualización:

En este mundo globalizado la Internet se ha convertido en el medio favorito para la búsqueda de información. Si posees un negocio y deseas llegar a muchos clientes potenciales, es necesario tener un sitio web en donde puedas mostrar todos tus productos y servicios.

Sin duda, quien tenga páginas en el inmenso mundo del Internet desea que exista un alto tráfico de visitas rentables. Esto no solo supone que la empresa aumente su visibilidad, sino también que la probabilidad de ventas aumente.

Este alto flujo de visitas orgánicas se consigue a través del posicionamiento del sitio web y para lograrlo hay ciertos procedimientos que debemos seguir. La arquitectura de las páginas es esencial para atraer a los usuarios y demostrarle al buscador el valor del sitio.

El rastreo de páginas

Los bots o arañas de Google y otros buscadores rastrean las páginas de los sitios web y tienen asignado un determinado tiempo, lo que se conoce como crawl budget. En cada visita, el bot observa que el sitio cumpla con ciertos parámetros y selecciona la información que será indexada. La etiqueta noindex le indica a la araña que la información puede seguir en la página pero que no debe ser indexada en ninguna búsqueda ni debe ser posible el acceso a ella a través de algún link externo.

¿Qué significa rastreo? Llamamos rastreo de páginas a la acción de búsqueda de páginas que han sido recientemente actualizadas o que se han generado nuevas para ser añadidas al índice de Google. Es lo que comúnmente conocemos como que “Google ha rastreado mi sitio web”.

El archivo robots.txt, por su parte, es una extensión que se coloca dentro del sitio web para impedir el rastreo de contenido realizado por ciertos buscadores. Esta acción le indica a las arañas a qué partes del sitio no debe entrar a indexar el contenido o mostrar resultados.

Como ves, las funciones de noindex y de robot.txt son las mismas, las variaciones se encuentran en la manera en que se emplea cada una de ellas. A continuación, te presentamos las formas en que deben ser utilizadas estas herramientas.

Hablemos de indexación

Es muy importante tener en cuenta que cuando tu sitio web tiene una buena estructura y el contenido es de calidad, las probabilidades de que mejore la indexación de las páginas en el buscador se exponencian. Esto significa que las acepta como adecuadas y tiende a mejorar los resultados en las búsquedas de los usuarios que desean información sobre los productos y servicios que ofreces.

¿Qué es la indexación? Consideramos una URL indexada si el robot la ha rastreado, ha procedido al análisis de su contenido y significado, y ha procedido a almacenarla dentro de sus índices. Ahora bien, en ocasiones también indexa sin acceder ni siquiera al contenido, dado que podemos encontrarnos por ejemplo URLs bloqueadas por robots.txt, pero de esto hablaremos más adelante.

Si bien hay muchas cosas que deseamos mostrar a los visitantes de nuestras páginas, también hay otras que no están destinadas a los robots y deben quedar fuera de su alcance. Hay formas para conseguir que algunos aspectos del sitio no sean vistos por ellos y por tanto indexados y, en consecuencia, solo sean vistos por los usuarios. A través de la etiqueta noindex y del robots.txt podemos controlar estas cuestiones y el buscador dejará fuera aquello que no debe mostrarse.

Cómo utilizar la etiqueta noindex

Hay dos formas de utilizar esta etiqueta, puedes emplear la metaetiqueta o la cabecera de respuesta HTTP. Ambas formas llegan al mismo resultado, la elección de cuál utilizar dependerá del control que tengas sobre el servidor y los procesos de publicación.

noindex

La metaetiqueta se agrega dentro del código HTML en la sección llamada ‹head›. Si se desea que ningún buscador indexe la página se debe colocar el término noindex. Si, en cambio, solo se desea que un buscador específico no indexe el contenido, hay que especificar el nombre del rastreador de la siguiente manera: ‹meta name= “googlebot”…

Aún después de colocar la etiqueta en el código HTML, la página puede seguir apareciendo en las búsquedas por tres razones.

  1. Puede que el buscador no haya interpretado la directiva adecuadamente, algo que puede ocurrir en algunos rastreadores.
  2. Puede que el bot no haya rastreado el cambio. Recuerda que las arañas pasan por las páginas cada cierto tiempo. Si deseas que el bot detecte la etiqueta con mayor rapidez, puedes solicitar un nuevo rastreo de tu página desde el buscador que te interese. Por ejemplo en Google desde aquí: https://www.google.com/webmasters/tools/submit-url
  3. Puede  que hayas bloqueado la URL para los rastreadores mediante el archivo robots.txt. En este caso, para desbloquear los buscadores solo tendrás que modificar el archivo que habitualmente se encuentra en la raíz de tu servidor.

Si decides emplear la cabecera de respuesta HTTP para el uso de la etiqueta Noindex, solo tienes que volver a la cabecera X- Robots- Tag y colocar en tu respuesta los valores Noindex o None. Es decir, escribir X- Robots- Tag: noindex o X- Robots- Tag: none.

Sea cual sea la opción que elijas, debes asegurarte de emplearla de manera adecuada para no afectar tus resultados. Si no controlas las metaetiquetas se generarán errores de indexado y perderás todo el posicionamiento que que pueda conseguir tu sitio web.

Curiosidades de la meta robots

  1. Existen más directivas a declarar de las que sueles usar (pero se usan mucho menos): index/noindex, follow/nofollow, archive/noarchive, translate/notranslate, imageindex/noimageindex, “unavailable_after: {fecha en formato RFC-850}”, snippet/nosnippet, none, odp/noodp y ydir/noydir
    • noindex,nofollow: no indexar ni seguir los enlaces
    • index,nofollow: indexar pero no traspasar autoridad a sus enlaces
    • noindex,follow: no indexar pero que las arañas tomen en consideración los enlaces
  2. Es probable que la etiqueta meta robots (o al menos parte de sus directrices) no sea necesaria en la mayor parte de tus páginas. Si no ponemos nada, se sobre entiende index,follow
  3. NoIndex se encarga de la indexación no del rastreo.
  4. Pero noindex si afecta al rastreo: Lo disminuye.
  5. Pensemos un poco: ¿Y para que quieres poner un nofollow en tu web? ¿sirve de algo?
  6. Existe la posibilidad de declarar exactamente a que robot nos dirigimos en la etiqueta meta y actuar por separado para cada uno de ellos
  7. Cuando mezclas noindex con otras directrices en el html (canonical, rel=”prev/next”, etc) las cosas no funcionan como esperarías
  8. ¡Cuidado! Google lee el meta-robots en cualquier parte de la página, no solo en el <head> de la página
  9. Google lee y obedece a las etiquetas que creamos en el HTML por javascript y por lo tanto podemos incluirlas vía GTM
  10. También podemos enviar las directrices de meta-robots desde las cabeceras de la página

Utilizar robots.txt

Con este fichero tenemos la capacidad de indicar a los buscadores qué URLs deben visitar y cuáles les recomendamos que no visiten. Trabajar este fichero es básico en cualquier proceso de indexación dentro de una consultoría SEO básica.

Debemos ser muy cuidadosos al utilizar este archivo, ya que se encuentra íntimamente relacionado con el acceso de las arañas a nuestro sitio. Si no se programa con atención, podríamos conseguir que perdieran el tiempo que nos tienen predestinado en páginas y contenidos que pudieran no ser relevantes y no interesarnos que los visitaran.

¿Cómo funciona el robots.txt? Su uso habitual parte de que todo robot puede visitarlo antes de rastrear cualquier URL y ver qué contenidos el webmaster ha indicado que deben interesarle y cuáles no. Por lo general los bots suelen hacer caso a las indicaciones, aunque si analizas los logs te darás cuenta de que en algunas ocasiones, hacen caso omiso. Ten en cuenta que el protocolo de robots.txt no garantiza un total hermetismo, así que no se aconseja su uso para la privatización total de ciertas áreas. Una forma de verlo más claramente es como una recomendación, en lugar de como una obligación.

El primer paso para crear el archivo es tener acceso a la raíz del dominio. Luego, debe subirse este fichero al directorio raíz de primer nivel del servidor, en formato de texto con el nombre “robots.txt”.

Una vez que el archivo se encuentre enlazado con el sitio, se debe introducir el texto y marcar cuáles son la partes a las que se desea dar acceso y a cuáles no. Finalmente, para comprobar el funcionamiento del archivo “robots.txt” puedes utilizar herramientas gratuitas como el probador de robots.txt que tenemos disponible entre las herramientas que Google pone a nuestra disposición en Search Console. Estas te mostrarán los posibles errores que el archivo tiene o puede ocasionar.

https://www.google.com/webmasters/tools/robots-testing-tool?hl=es&siteUrl=miurl

probador de robots.txt

Curiosidades del fichero robots.txt

Me gustaría hacer eco del artículo de Iñaki huerta sobre algunas cuestiones que deberíamos saber sobre este fichero, ya que es importante tenerlas en cuenta:

  1. El formato es relevante y sencillo, pero debemos utilizar los comandos adecuados en cada caso: user-agent, disallow, allow, sitemap…
  2. La colocación del archivo es importante, dado que en función de la carpeta del servidor donde lo coloques afectará o no a otros subdominios. Además, Google solo lee el fichero si está en la raíz del documento. Esto “midominio.com/blog/robots.txt” no serviría de nada.
  3. Cuidado con el tamaño de archivo, Google nos lo limita a 500MB, y el tipo. Evita caracteres extraños que pueda devolver tu servidor usando la codificación UTF-8. Utiliza editores como Notepad++ para trabajarlo.
  4. Disallow no sirve para evitar la indexación, solo prohibe leer el contenido aunque a la larga puede implicar la desindexación, a la larga. No funciona igual que el noindex, aunque sí economiza rastreo, dado que noindex necesita que el bot acceda a la URL a leerlo, y desde el robots.txt no necesita acceder a ella.
  5. Si el contenido no se lee, las directivas HTML se ignoran. No tiene sentido usar Disallow+noindex o Disallow+canonical o Disallow+rel-next/prev o Disallow+loquesea-en-el-html. Si le prohibimos acceder, ¿para que trabajar el etiquetado en esa URL?
  6. La redacción de las URLs es simple, pero muy concreta y a veces las reglas de lectura no son tan intuitivas como podría parecer.
  7. Para evitar el rastreo o la indexación hay otras alternativas al robots.txt o meta-robots, pero no son igual de potentes. La herramienta de borrar contenido de Google a los 90 días podría volver a indexarla si la encuentra, y la herramienta de parámetros de URL que también tenemos en Search Console solo sirve de ayuda como pudiera ser el Sitemap pero si Google considera esos parámetros interesantes, los usará de igual modo le pongas lo que le pongas.
  8. Todas las directivas que no se contemplen en la definición de nuestro fichero robots se ignoran. Por ejemplo, algunos servidores colocan por defecto una sentencia “Crawl-delay” que directamente Google ignora, aunque otros sí la respetan. Para escribir comentarios, comenzaremos las líneas por #
  9. ¿Qué pasa cuando Google no puede acceder o encuentra cosas raras al acceder a tu archivo robots? Si Google no encuentra el fichero en su lugar habitual, podría ir a buscarlo a un nivel superior de dominio, por ejemplo si no está en www.midominio.com/robots.txt lo iría a buscar a midominio.com/robots.txt.
    • Si el fichero tiene código 200, entrará y seguirá sus instrucciones, y si está vacío verá la web completa.
    • Ante un código 4xx, lo tomará como si estuviera vacío, y accederá a todo el site.
    • Ante un 3xx, tomará la URL de referencia como el auténtico fichero, incluso aunque no se llame robots.txt. Con esta última premisa, cuidado al realizar una migración si deseamos seguir bloqueando URLs del site antiguo no debemos redireccionar el fichero robots.txt.
    • Otros códigos como el 503, sobre el cuál Google consultará hasta que el estado cambie. Ahora bien, si dejamos esto demasiado tiempo, podrían empezar a perder fuerza los enlaces, por lo que no se recomienda tenerlo así más de unas horas. No se sabe por qué, pero podemos sufrir pérdidas de autoridad e intentos de reindexar la web.
    • Sin respuesta. Si el servidor no devuelve nada o tarda demasiado por saturación, Google tira de la caché que tiene de ese fichero durante un tiempo.
  10. Bloquear CSS y JS puede ocasionar problemas y está mal visto por el buscador.
  11. Google entra en contenidos 4xx pero no si se le bloquea. Es mejor marcarlas con Disallow y evitar tener links hacia ellas en el HTML.
  12. Es posible enviar un noindex desde tu servidor creando una especie de robots.txt pero para noindex y nofollow. Te invito a visitar su web en el enlace que hay en referencias dado que este punto es sumamente interesante.

Con toda esta información seguro que ahora entiendes un poco más sobre cómo organizar de forma adecuada un sitio web. Lograr la popularidad que buscas es posible, solo necesitas seguir procesos que ya han sido estructurados. Con el asesoramiento profesional adecuado podrás lograrlo sin mayores inconvenientes.

Emplea estas herramientas adecuadamente y consigue la estructura adecuada para tu sitio web. Esto le permitirá a los usuarios que visiten tu sitio encontrar el contenido de forma intuitiva y logrará que los rastreadores indexen la información correcta.

Referencias

 

Comparte este artículo