¿Es fácil para Google rastrear tu web? Internet es un lugar enorme en constante crecimiento en el que Google debe enfrentarse con sus recursos a una cantidad casi infinita de contenidos, por lo que su robot de búsqueda de documentos sólo es capaz de encontrar, rastrear e indexar un porcentaje de ellos.

Las URL actúan como puentes entre una web y el robot de Google. Los robots tienen que ser capaces de encontrar y cruzar esos puentes con el fin de llegar al contenido de tu sitio web. Si una URL es complicadas, se gastará el tiempo en localizar y recordar el camino a seguir, pero si están bien organizadas y llevan directamente al contenido, los robots aprovecharan su tiempo para acceder a tu contenido, en lugar de rastrear páginas vacías o rastrear el mismo contenido una y otra vez a través de diferentes URL.

En la presentación de Google que os dejamos al final de post, podemos ver algunos ejemplos de qué no hacer, ejemplos reales de “hacks” y códigos caseros en URL, parámetros de enmascaramiento como parte de la ruta de URL, espacios infinitos de rastreo y mucho más. También encontraremos algunas recomendaciones para enderezar ese laberinto de URL y ayudar a los robots a encontrar más rápido el contenido, que incluyen:
• Eliminar detalles específicos del usuario en las URL:
Los parámetros de URL, que no cambian el contenido de la página, como el ID de sesión o el orden de clasificación, se pueden quitar de la URL y ponerlos en una cookie. Al poner esta información en una cookie y hacer una redirección 301 a una URL “limpia”, se conserva la información y se reduce el número de URL que apuntan a un mismo contenido.
• Evitar espacios infinitos:
¿Tienes un calendario que enlaza a un número infinito de fechas pasadas o futuras (cada uno con su propia URL)? ¿Tienes datos paginados que devuelven un código de estado 200 al añadir &page=3563 a la dirección URL, incluso si no hay muchas páginas de datos? Si es así, tenemos un espacio infinito de rastreo en tu sitio web, y los robots podrían estar desperdiciando ancho de banda tratando de rastrearlo todo. Es recomendable evitar los espacios infinitos.
• Desactivar acciones que Googlebot no puede realizar:
A través del archivo robots.txt, podemos desactivar el rastreo de páginas de inicio, formularios de contacto, cestas de la compra y otras páginas cuya única funcionalidad es una acción que un robot no puede realizar. Así permitimos que los robots utilicen más tiempo en rastrear contenido con el que poder hacer algo.
• Una URL, un conjunto de contenidos:
En un mundo ideal, habría siempre una vinculación entre una URL y un determinado contenido: cada URL llevaría a una pieza de contenido única. Cuanto más cerca estemos de este ideal, más adecuado será nuestra web para el rastreo y la indexación. Si el sistema de gestión de contenidos (CMS) o la configuración actual de nuestro sitio web dificulta el rastreo, puedes usar el elemento de enlace canónico para indicar la URL preferida para un fragmento de contenido en concreto.

Que es un Servidor Un servidor no es más que un ordenador que proporciona a otras computadoras con servicios varios e información, por ejemplo, aplicaciones criticas pa...
PHP 5.4, lo que viene PHP 5.4 alpha es el primer lanzamiento, todavía en una fase inicial, del popular lenguaje de programación del lado del servidor dirigido al desarrollo...
Lo más buscado del 2013 en Google 2013 ha dejado paso a un nuevo año, y Google ha querido recordar el transcurso de este año con una muestra de la actividad de los usuarios en su busca...
Ezine – Una forma de marketing que perdura No importa como avance la tecnología y como las herramientas de marketing nos puedan ayudar a mejorar nuestro negocio en Internet, los ezines han sido...
El nuevo MacBook Air colapsa con Chrome Google reconoce que su navegador causa un fallo crítico del kernel a los nuevos dispositivos de Apple. Tras la reciente aparición de una reiterada q...
Twitter llega a un histórico de su valor en la Bolsa Twitter se estrenó en Bolsa el pasado mes bajo una gran expectación. Gran parte de la atención se centró en comprobar si pasaba lo mismo que con Fa...
Configurar el archivo Robots.txt Explicamos el porqué del archivo robots.txt y como se construye dicho archivo. Para comenzar tenemos que comentar lo que son los robots y qué f...
MacBook, se encuentra una vulnerabilidad en los equipos MacBook, MacBook Pro y MacBook Air Cada vez va siendo más habitual hablar de vulnerabilidades o agujeros de seguridad en los equipos Mac de Apple, ahora que su popularidad ha aumentado,...
Introduction to mod_rewrite and some basic examples ModRewrite is a powerful feature of the Apache web server. It provides an easy way to modify/manipulate URLs. As complicated as it sounds a regular ...
Hay un Nuevo SkyDrive para enfrentar a Google Drive SkyDrive, el servicio de almacenamiento de Microsoft es uno de los elementos más importantes de la estrategia en la nube de Microsoft. Ante la próx...