Uno de los objetivos de Google es organizar la mayor cantidad de información posible y hacer que esta sea accesible para cualquier usuario. Para lograr este fin, el buscador líder de Internet se encuentra con archivos que no son HTML, entre los que destacan los documentos PDF.

Los algoritmos de Google no se detienen ante formatos de archivo diferentes., por ello desde 2001, fecha en que comenzó el indexado de archivos PDF, ya cuenta con cientos de millones de archivos PDFs indexados.

Google ha presentado una recopilación de las preguntas más frecuentes sobre la indexación de archivos en formato PDF:

  • ¿Google puede indexar cualquier tipo de archivo PDF?

Normalmente, se puede indexar contenido escrito en cualquier idioma, de los archivos PDF que utilizan diferentes tipos de codificación de caracteres, siempre que no estén cifrados ni protegidos por contraseña. Si el texto está insertado en forma de imágenes, se puede procesar las imágenes con algoritmos OCR para extraer el texto. Por tanto si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, se debería poder indexar.

  • ¿Qué ocurre con las imágenes de los archivos PDF?

Actualmente, las imágenes no se indexan.

  • ¿Cómo se tratan los enlaces incluidos en los documentos PDF?

Normalmente, los enlaces incluidos en los documentos PDF se tratan de forma similar a los enlaces que encontramos en los archivos HTML: pueden entrar en la clasificación de PageRank y otras señales de indexación, y podemos seguirlos después de haber rastreado el archivo PDF. Actualmente, no es posible utilizar el atributo “nofollow” en los enlaces de un documento PDF.

  • ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de búsqueda? Y, si ya aparecen, ¿cómo puedo eliminarlos?

La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es añadir una etiqueta X-Robots “noindex” en la cabecera HTTP utilizada para mostrar el archivo. Si ya se han indexado, dejarán de aparecer con el tiempo si utilizas la etiqueta X-Robots con la directiva “noindex”. Para acelerar la eliminación, es posible usar la herramienta de solicitud de eliminación de URL de las Herramientas para webmasters de Google.

  • ¿Pueden obtener los archivos PDF una buena clasificación en los resultados de búsqueda?

Por lo general, estos archivos se clasifican de forma similar a otras páginas web. Publicaciones como irs form 2011 devuelven documentos PDF que obtienen una buena posición en los resultados de búsqueda gracias a su contenido y a la forma en la que están insertados y vinculados desde otras páginas web.

  • ¿Se considera contenido duplicado si tengo una copia de mis páginas en formato HTML y PDF?

Siempre que sea posible, se recomienda mostrar una única copia del contenido. Si no es posible, asegúrarse de indicar cuál es nuestra versión preferida. Para ello, podemos incluir la URL que prefiramos en el sitemap o especificar la versión canónica en el archivo HTML o en las cabeceras HTTP del PDF. Para obtener más sugerencias, consulta el artículo del Centro de asistencia sobre canonicalización.

  • ¿Cómo puedo influir en el título que aparece en los resultados de búsqueda de mi documento PDF?

Se usan dos elementos principales para determinar el título que se muestra: los metadatos del título que contiene el archivo y el texto de anclaje de los enlaces que dirigen al archivo PDF. Para que el algoritmo capte claramente el título que debe utilizar, se recomienda actualizar ambos elementos.

fuente.desarrolloweb

mysql-affected-rows mysql_affected_rows — Devuelve el número de filas afectadas de la última operación MySQL Descripción int mysql_affected_rows ( ) mysql_affe...
Cómo solucionar los problemas lentitud en Windows Este es el problema más común de Windows desde el inicio de los tiempos. Todo el mundo lo ha vivido, pero no todo el mundo sabe por qué pasa. Varias r...
La propiedad hasLayout de Internet Explorer El navegador Internet Explorer 7 y sus versiones anteriores incluyen decenas de errores relacionados con CSS. La mayoría de esos errores se pueden so...
Lo mas buscado en google en 2012 Google Zeitgeist es un indicador con el que cada año la compañía propìetaria del motor de búsqueda más importante presenta como un reflejo de las inqu...
#Microsoft mantiene la filosofia de #Nokia de móviles básicos con el modelo 215 Microsoft ha decidido que va a seguir utilizando la marca Nokia en los modelos más sencillos, como es el caso del recién presentado Nokia 215. Por...
Responsinator, herramienta para testear los websites en los varios dispositivos Responsinator es una interesante herramienta para diseñadores que quieran llevar a cabo una sencilla y rápida prueba sobre su proyecto web. Su mane...
Agujero de Seguridad en Impresoras Laser HP permite que se incendien a distancia La vulnerabilidad afecta principalmente a la seguridad de las impresoras LaserJet de HP. Los de la compañía acaban de anunciar que están trabajando en...
Java sigue siendo el lenguaje más popular Java sigue siendo el lenguaje de programación más popular. Al menos es lo que muestra el último estudio de Tiobe Software, que realiza un seguimiento ...
Google y Microsoft se pelean el puesto de la empresa de Tecnologia mas Valiosa Google superó hoy a Microsoft como la segunda compañía de tecnología más valorada del mercado, alcanzando los USD$ 249.500 millones en capitalización ...
Apple abre su nuevo servicio iCloud Apple ha publicado en la web una primera versión beta de su nuevo servicio iCloud. Por el momento para poder acceder a iCloud beta debemos disponer...