Importancia del archivo robots.txt para la seguridad y el seo - Consultoria SEO
Desarrollamos su visibilidad y ventas en linea


Importancia del archivo robots.txt para la seguridad y el seo

 
Importancia del archivo robots.txt para la seguridad y el seo

 

Su archivo robots.txt permite indicarle a los motores de búsqueda las páginas que pueden acceder. Por ejemplo, si se especifica en el archivo robots.txt que no desea que los motores de búsqueda puedan acceder a su página de error 404 personalizada, la página no va a ser capaz de aparecer en los resultados de búsqueda y los usuarios de Internet no serán capaces de encontrarla.
 
Limitar el acceso de los motores de búsqueda a determinadas páginas de su sitio es esencial tanto para la privacidad de su sitio como para optimización y posicionamiento SEO. En este artículo se explica porque y conocerá cómo crear un buen archivo robots.txt.

Cómo trabaja el archivo robots.txt

 

Cuando un robot busca el archivo "/robots.txt", elimina todo el componente de la ruta de la dirección URL (todo, desde la primera barra individual), y pone "/robots.txt" en su lugar.

 

Por ejemplo, para "http://www.ejemplo.com/compra/index.html, se eliminará el "/compra/index.html", y lo sustituye por "/robots.txt", y terminará con "http://www.ejemplo.com/robots.txt".

 

Así que, como propietario de un sitio web es necesario poner el archivo robots.txt en el lugar correcto en el servidor web para que el robot o araña consiga el archivo robots.txt. Por lo general, que es el mismo lugar donde se coloca la página de bienvenida de su sitio web principal "index.html". ¿Dónde exactamente, y cómo poner el archivo existe, depende de su software de servidor web.

 

Recuerde que debe utilizar todo en minúsculas para el nombre de archivo: "robots.txt", no "robots.txt

 

Los motores de búsqueda envían pequeños programas llamados "arañas" a su sitio y puedan llevar información a los motores de búsqueda para que las páginas de su sitio pueden ser indexadas en los resultados de búsqueda y encontradas por los usuarios de Internet. Su archivo Robots.txt puede indicarle a estos programas para que no puedan buscar páginas de su sitio que usted designe mediante un comando de "Disallow". Por ejemplo, el siguiente comando Robots.txt:

User-agent: *

Disallow: /error404

Bloquearía todos los robots de los buscadores para visitar la siguiente página en su sitio web:

http://su-sitio.com/error404

Dese cuenta que antes del comando Disallow, usted tiene el comando:

User-agent: *

La parte "User-agent:" especifica qué robot desea bloquear. Usted también puede decir lo siguiente:

User-agent: Googlebot

Este comando sólo bloqueará el robots de Google, mientras que otros robots seguirían teniendo acceso a la página:

http://su-sitio.com/error404

Sin embargo, utilizando el carácter "*", se está especificando que los comandos siguientes se refieren a todos los robots. Su archivo robots.txt se encuentra en el directorio principal de su sitio. Por ejemplo: http://su-sitio.com/robots.txt

¿Por qué algunas páginas necesitan ser bloqueadas?

El siguiente video explica las diferentes opciones para evitar el rastreo de contenido en tu página web.

Hay tres razones por las cuales usted podría querer bloquear una página mediante el archivo robots.txt.

En primer lugar, si usted tiene una página en su sitio, que es un duplicado de otra página, usted no quiere que los robots la indexen debido a que resultaría en contenido duplicado y puede hacerle daño a su SEO.

La segunda razón es cuando tiene una página en su sitio que no desea que los usuarios puedan acceder a ella a menos que tomen una acción específica. Por ejemplo, si usted tiene una página de agradecimiento, donde los usuarios reciben información específica porque ellos le dieron su dirección de correo electrónico, es probable que no quiera que la gente tenga la posibilidad de encontrar esa página haciendo una búsqueda en Google.

La tercera razón por la que usted desea bloquear páginas o archivos es cuando se quiere proteger los archivos privados en su sitio, como su cgi-bin y/o impedir que su ancho de banda sea utilizado por robots de indexación de archivos de imagen:

User-agent: *

Disallow: /images /

Disallow: /cgi-bin /
 
En todos estos casos, tendrá que incluir un comando en el archivo robots.txt que le indique a los motores de búsqueda que no accedan a esa página, para que no la indexen, y así no se muestre en los resultados de búsqueda y de ese modo no enviar a los visitantes a la misma.
 
Echemos un vistazo a cómo se puede probar el archivo robots.txt que ha creado en su sitio.

Con una cuenta en la Consola de búsqueda, antiguamente conocida como  herramientas para webmasters de Google, usted puede probar el archivo robots.txt, seleccionando la opción "probador de robot.txt" en la opción "Rastreo" en la barra de menú lateral. Si usted agregó:

User-agent: *

Disallow: /coloso

y en la parte inferior coloca http://su-sitio.com/coloso y selecciona el user agent, la herramienta le mostrará en color rojo la línea Disallow:/coloso, indicando así que ese directorio está bloqueado para cada uno de los user-agent con los que haga la prueba. Si comenta esa línea con # y repite la prueba haciendo clic en el botón probar, éste dirá permitido.

Nótese aquí que usted tiene un comando "Allow" que es útil si quiere hacer una excepción y permitir que el robot acceda a una página que usted ha bloqueado.

User-agent: *

Disallow: /images/

Al colocar el comando:

Allow: /Googlebot

Debajo del comando de Disallow, estaría permitiendo que sólo el robot de Google pueda acceder al directorio de imágenes de su sitio.

Una vez que haya especificado los comandos de las páginas y archivos que desea bloquear en el block de notas guárdelo como robots.txt.

Instalar el archivo robots.txt

Una vez que tenga el archivo robots.txt, puede cargarlo en el directorio principal (www) de su sitio web. Usted puede hacer esto usando un programa FTP como Filezilla. La otra opción es contratar a un programador web para crear e instalar el archivo robots.txt, haciéndole saber qué páginas desea bloquear. Si usted elige esta opción, un buen programador web puede completar el trabajo en una hora aproximadamente.

Conclusión

Es importante actualizar el archivo robots.txt si agrega páginas, archivos o directorios en su sitio que usted no desea sean indexados por los motores de búsqueda o accedidos por los usuarios de Internet. Esto garantizará la seguridad de su sitio web y los mejores resultados posibles con su posicionamiento web.


Ejemplo de un archivo robots.txt :
User-agent: *
Disallow: /administrator/
Disallow: /cache/
Disallow: /cli/
Disallow: /components/
Disallow: /images/
Disallow: /includes/
Disallow: /installation/
Disallow: /language/
Disallow: /libraries/
Disallow: /logs/
Disallow: /media/
Disallow: /modules/
Disallow: /plugins/
Disallow: /templates/
Disallow: /tmp/
Sitemap: http://tuconsultoraseo.com/sitemap.xml


También necesitarás saber como probar el archivo robots.txt.

¡¡Si te ha parecido interesante y útil el contenido del artículo, no olvides compartir!!

 

Sobre la autora
Author: Estela Silva
Estela Silva es fundadora y desarrollador principal en Tu Consultora Seo, su función principal es el diseño y desarrollo de sitios web Joomla. Ella también es apasionada del posicionamiento en buscadores y especialista Adwords certificada. Estela ha construido sitios web basados ​​en CMS Joomla desde el año 2000, así como tiendas en línea, cuando no está escribiendo PHP, Javascript o CSS.

Suscripción por email

 

suscripción por email

Ingrese su email

Contenido Especial Para Ti

Web Analytics