A todos nos gusta encontrar maneras de facilitar y mejorar nuestras vidas. En esta oportunidad, te explicamos una forma para mejorar tu Posicionamiento Orgánico.
En prácticamente todos los sitios web que hay en Internet existe un pequeño archivo de texto que tiene el nombre “robots.txt”. Dicho archivo es el encargado de indicarle a los motores de búsqueda qué lugares debe escanear.
Importancia del fichero robots.txt
Este archivo de texto plano, también es conocido como “protocolo o estándar de exclusión de robots”. Su objetivo primario es indicarle a los robots web qué ubicaciones pueden rastrear y cuáles no.
Cuando un buscador está a punto de visitar un sitio web, primero verifica el contenido de ese fichero para obtener instrucciones.
El esquema básico de este archivo es:
User-agent: *
Disallow: /
User-agent indica a cuál bot está dirigida la instrucción. El asterisco que está después de este comando indica que todos los robots web deben seguir las instrucciones.
Disallow es el comando para negar la indexación de una página. La barra o slash que aparece después le indica al robot que no tiene restricciones.
¿Qué significa lo anterior?
Es normal que las webs tengan muchas páginas (incluidas algunas que nunca serán mostradas al público). Con la configuración anterior un motor de búsqueda rastrea todas y cada una de las que están en esta web.
Los robots de búsqueda de Internet tienen un «presupuesto de rastreo» para cada sitio. Si una web tiene muchas páginas, el motor de búsqueda tardará bastante en rastrearlas y esto puede afectar su clasificación.
Si el fichero robots.txt está bien configurado, puede decirle a los bots de Internet que solo rastreen su contenido más útil y ellos calificarán el sitio basándose sólo en ese contenido.
Al evitar los contenidos menos importantes se reducirá considerablemente el tiempo de rastreo de los motores de búsqueda.
Ya que sabemos algo sobre este archivo aprendamos a cómo encontrarlo.
¿Cómo encontrar el fichero robots.txt?
Existe un método que sirve para ver cómo está configurado el archivo de cualquier sitio web. Nos sirve para saber lo que otras personas están haciendo.
Es muy sencillo, lo único que hay que hacer es escribir la URL básica en el navegador y agregarle “/robots.txt” al final, por ejemplo: “www.google.com/robots.txt”.
Ocurrirá una de las siguientes situaciones:
1) Encontrará un archivo robots.txt (con información).
2) Encontrará un archivo vacío.
3) Obtendrá un error 404 (que significa que el archivo no fue encontrado).
Si al hacer esta prueba en tu propio sitio web encuentras un archivo vacío o un error 404, deberás solucionar esta situación. Recuerda que el origen de este error está en una mala o errónea carga de información, por lo que deberás revisar a profundidad algún error en la programación o configuración de la página.
Por otro lado, si nunca has realizado la configuración de este tipo de archivos, probablemente tenga la configuración inicial o predeterminada, la cual deberás ajustar a las indicaciones que verás más adelante.
Cambiar su fichero robots.txt
Puedes verificar si tienes el fichero utilizando el método descrito anteriormente.
Lo que sigue dependerá de si lo tiene o no.
Si tu página no tiene el archivo robots.txt, deberás crearlo
Para ello, debes abrir cualquier editor de texto sin formato. Para Windows puedes usar el Bloc de notas y para MAC el TextEdit.
Si tienes el fichero, deberás ubicarlo en el directorio raíz de su sitio
Lo más común es que este fichero esté en el directorio raíz.
Una vez que lo ubiques, ábrelo y elimina todo el contenido, ¡pero recuerda conservar el archivo!
Crear un fichero robots.txt básico
Para crearlo puedes utilizar cualquier editor de texto plano.
Si ya tienes un fichero con ese nombre, asegúrate de haber eliminado todo el contenido.
Primero veremos cómo configurar un archivo robots.txt simple (que se aplique a todos los robots web), luego lo personalizaremos para SEO.
Entonces deberás abrir tu editor de texto, en donde copiarás las siguientes líneas:
User-agent: *
Disallow: /
Una vez termines, tendrás configurado tu fichero de forma que todos los robots web rastrearán el contenido de todo tu sitio.
Crear un fichero robots.txt optimizado para SEO
Un consejo muy importante es que NO debes utilizar este método para bloquear tus webs de los motores de búsqueda. Sólo inténtalo para bloquear aquel contenido que no te interesa mostrar.
Por otro lado, si tu intención es maximizar los presupuestos de rastreo de los motores de búsqueda, puedes indicar en este fichero que no deseas que los buscadores rastreen algunas partes de tu sitio (como las que no se muestran al público).
Por ejemplo, si deseas indicarle a un bot que no rastree http://elsutio.com/duplicado/, deberás incluir el siguiente comando: “Disallow: /duplicado/”
Algunas páginas que puedes excluir de la indexación son por ejemplo las de “contenido duplicado con propósito” como las versiones para imprimir o los formatos de agradecimientos.
Noindex y nofollow.
Noindex funciona con la directiva de rechazo para garantizar que los bots de internet no visiten o indexen las páginas de tu sitio.
Si deseas asegurarte de que la página llamada “duplicado” no se indexe ni aparezca en los SERPs, debes agregar lo siguiente:
Disallow: /duplicado/
Noindex: /duplicado/
Por otro lado, la directiva nofollow le indica a los bots de Internet que no rastreen los enlaces en una página específica.
Esta directiva no es parte del archivo robots.txt, sino que, debe ser incluida en la página que queremos que no se sigan los enlaces. (es mencionada aquí debido a que su función está relacionada con la no indexación).
Para colocar la directiva nofollow debes encontrar y abrir el código fuente de la página que deseas cambiar. Luego asegúrate de estar entre las etiquetas <head> y escribe lo siguiente:
<meta name = «robots» content = «nofollow»>
Es muy importante que esté ubicado entre ambas etiquetas <head>. De lo contrario la directiva no se aplicará y se podrían generar efectos indeseables en su página.
Algunos profesionales prefieren dejar los ficheros robots.txt lo más sencillos posible, lo que implica no colocar allí la directiva noindex.
Algo que nos dará el mismo efecto es agregar las directivas noindex y nofollow, en la página que deseamos afectar. Para ello sólo debes usar esta línea de código:
<meta name = «robots» content = «noindex, nofollow»> Con ella le estarás indicando a los robots web que está página específica no debe ser indexada y que los enlaces que contenga no deben ser seguidos.