Optimizando PDFs para SEO

Uno de los objetivos de Google es organizar la mayor cantidad de información posible y hacer que esta sea accesible para cualquier usuario. Para lograr este fin, el buscador líder de Internet se encuentra con archivos que no son HTML, entre los que destacan los documentos PDF.

Los algoritmos de Google no se detienen ante formatos de archivo diferentes., por ello desde 2001, fecha en que comenzó el indexado de archivos PDF, ya cuenta con cientos de millones de archivos PDFs indexados.

Google ha presentado una recopilación de las preguntas más frecuentes sobre la indexación de archivos en formato PDF:

  • ¿Google puede indexar cualquier tipo de archivo PDF?

Normalmente, se puede indexar contenido escrito en cualquier idioma, de los archivos PDF que utilizan diferentes tipos de codificación de caracteres, siempre que no estén cifrados ni protegidos por contraseña. Si el texto está insertado en forma de imágenes, se puede procesar las imágenes con algoritmos OCR para extraer el texto. Por tanto si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, se debería poder indexar.

  • ¿Qué ocurre con las imágenes de los archivos PDF?

Actualmente, las imágenes no se indexan.

  • ¿Cómo se tratan los enlaces incluidos en los documentos PDF?

Normalmente, los enlaces incluidos en los documentos PDF se tratan de forma similar a los enlaces que encontramos en los archivos HTML: pueden entrar en la clasificación de PageRank y otras señales de indexación, y podemos seguirlos después de haber rastreado el archivo PDF. Actualmente, no es posible utilizar el atributo «nofollow» en los enlaces de un documento PDF.

  • ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de búsqueda? Y, si ya aparecen, ¿cómo puedo eliminarlos?

La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es añadir una etiqueta X-Robots «noindex» en la cabecera HTTP utilizada para mostrar el archivo. Si ya se han indexado, dejarán de aparecer con el tiempo si utilizas la etiqueta X-Robots con la directiva «noindex». Para acelerar la eliminación, es posible usar la herramienta de solicitud de eliminación de URL de las Herramientas para webmasters de Google.

  • ¿Pueden obtener los archivos PDF una buena clasificación en los resultados de búsqueda?

Por lo general, estos archivos se clasifican de forma similar a otras páginas web. Publicaciones como irs form 2011 devuelven documentos PDF que obtienen una buena posición en los resultados de búsqueda gracias a su contenido y a la forma en la que están insertados y vinculados desde otras páginas web.

  • ¿Se considera contenido duplicado si tengo una copia de mis páginas en formato HTML y PDF?

Siempre que sea posible, se recomienda mostrar una única copia del contenido. Si no es posible, asegúrarse de indicar cuál es nuestra versión preferida. Para ello, podemos incluir la URL que prefiramos en el sitemap o especificar la versión canónica en el archivo HTML o en las cabeceras HTTP del PDF. Para obtener más sugerencias, consulta el artículo del Centro de asistencia sobre canonicalización.

  • ¿Cómo puedo influir en el título que aparece en los resultados de búsqueda de mi documento PDF?

Se usan dos elementos principales para determinar el título que se muestra: los metadatos del título que contiene el archivo y el texto de anclaje de los enlaces que dirigen al archivo PDF. Para que el algoritmo capte claramente el título que debe utilizar, se recomienda actualizar ambos elementos.

fuente.desarrolloweb