Uno de los objetivos de Google es organizar la mayor cantidad de información posible y hacer que esta sea accesible para cualquier usuario. Para lograr este fin, el buscador líder de Internet se encuentra con archivos que no son HTML, entre los que destacan los documentos PDF.

Los algoritmos de Google no se detienen ante formatos de archivo diferentes., por ello desde 2001, fecha en que comenzó el indexado de archivos PDF, ya cuenta con cientos de millones de archivos PDFs indexados.

Google ha presentado una recopilación de las preguntas más frecuentes sobre la indexación de archivos en formato PDF:

  • ¿Google puede indexar cualquier tipo de archivo PDF?

Normalmente, se puede indexar contenido escrito en cualquier idioma, de los archivos PDF que utilizan diferentes tipos de codificación de caracteres, siempre que no estén cifrados ni protegidos por contraseña. Si el texto está insertado en forma de imágenes, se puede procesar las imágenes con algoritmos OCR para extraer el texto. Por tanto si se puede copiar el texto de un documento PDF y pegarlo en un documento de texto estándar, se debería poder indexar.

  • ¿Qué ocurre con las imágenes de los archivos PDF?

Actualmente, las imágenes no se indexan.

  • ¿Cómo se tratan los enlaces incluidos en los documentos PDF?

Normalmente, los enlaces incluidos en los documentos PDF se tratan de forma similar a los enlaces que encontramos en los archivos HTML: pueden entrar en la clasificación de PageRank y otras señales de indexación, y podemos seguirlos después de haber rastreado el archivo PDF. Actualmente, no es posible utilizar el atributo “nofollow” en los enlaces de un documento PDF.

  • ¿Cómo puedo evitar que mis archivos PDF aparezcan en los resultados de búsqueda? Y, si ya aparecen, ¿cómo puedo eliminarlos?

La forma más sencilla de evitar que los documentos PDF aparezcan en los resultados de búsqueda es añadir una etiqueta X-Robots “noindex” en la cabecera HTTP utilizada para mostrar el archivo. Si ya se han indexado, dejarán de aparecer con el tiempo si utilizas la etiqueta X-Robots con la directiva “noindex”. Para acelerar la eliminación, es posible usar la herramienta de solicitud de eliminación de URL de las Herramientas para webmasters de Google.

  • ¿Pueden obtener los archivos PDF una buena clasificación en los resultados de búsqueda?

Por lo general, estos archivos se clasifican de forma similar a otras páginas web. Publicaciones como irs form 2011 devuelven documentos PDF que obtienen una buena posición en los resultados de búsqueda gracias a su contenido y a la forma en la que están insertados y vinculados desde otras páginas web.

  • ¿Se considera contenido duplicado si tengo una copia de mis páginas en formato HTML y PDF?

Siempre que sea posible, se recomienda mostrar una única copia del contenido. Si no es posible, asegúrarse de indicar cuál es nuestra versión preferida. Para ello, podemos incluir la URL que prefiramos en el sitemap o especificar la versión canónica en el archivo HTML o en las cabeceras HTTP del PDF. Para obtener más sugerencias, consulta el artículo del Centro de asistencia sobre canonicalización.

  • ¿Cómo puedo influir en el título que aparece en los resultados de búsqueda de mi documento PDF?

Se usan dos elementos principales para determinar el título que se muestra: los metadatos del título que contiene el archivo y el texto de anclaje de los enlaces que dirigen al archivo PDF. Para que el algoritmo capte claramente el título que debe utilizar, se recomienda actualizar ambos elementos.

fuente.desarrolloweb

Skype para Windows 8 El equipo de trabajo de la herramienta gratuita de comunicación de texto, voz y vídeo sobre Internet más importante en la actualidad acaba de presenta...
Ranking Navegadores Octubre 2011 Tras un crecimiento espectacular desde su lanzamiento en septiembre de 2008, la versión 14 del navegador de Google consigue desplazar a la última vers...
Twitter se actualiza La popular red de microblogging Twitter ha añadido nuevas funciones que intentan mejorar la experiencia de usuario. En este caso, la red ha optado por...
Curiosidades sobre WhatsApp 1.- Es el servicio de mensajería líder en el mundo con 400 millones de usuarios activos al mes. 2.- Fue premiada en el Global Mobile Awards 2012, e...
Web Hosting Glossary,Terms Letter: X XML Extensible Markup Language. XML is a programming language that enables designers to create their own tags to indicate specific information. X...
En 2011 se vendieron 472 millones de telefonos inteligentes La consultora Gartner ha hecho balance del mercado mundial de teléfonos inteligentes durante el pasado ejercicio. Según sus datos, en 2011 se habrían ...
Beneficios con Adsense – Una buena manera de ganar dinero ¿Está hecho Adsense para ti? Bueno, para contestar esto voy a exponer dos factores que quizá te den la respuesta. * Gente muy joven que todavía...
Quantity Based Discounts & Fees Opencart Module This extension allows you to set advanced discounts & fess for your shop, and will be calculated by Quantity. General Settings: Sort discount...
Microsoft demanda a un retailer británico por vender copias pirata de Windows Microsoft ha emitido un comunicado en el que informa de su demanda a la compañía minorista Comet. La empresa de Steve Ballmer explica en su denuncia q...
#Samsung presenta su nueva serie A de móviles Galaxy A, la nueva gama de teléfonos inteligentes presentados por Samsung, destaca por su delgadez y acabado metálico y con la que la tecnológica su...
Optimizando PDFs para SEO
Tagged on: