Buscador

Indexando PDF en SharePoint 2010

abr. 17

Written by:
17/04/2012  RssIcon

Funcionamiento en Sharepoint 2010

Hay varias configuraciones a mantener dentro de Sharepoint 2010:

  • Agregar .pdf como extensión a indexar por el servicio de búsqueda de Sharepoint:
    • Sharepoint Central Administrator 2010 à Aplicación de Servicio de búsqueda
    • Tipos de archivo: agregamos la extensión .pdf
  • Registrar el IFilter para procesar archivos PDF:
    • Modificamos el registro de Windows:
    • [HKLM\SOFTWARE\Microsoft\Office Server\14.0\Search\Setup\Filters]
      • Extension=”.pdf” (String)
      • FileTypeBucket=0×00001 (DWORD)
      • MimeTypes=”application/pdf” (String)
    • [HKLM\SOFTWARE\Microsoft\Office Server\14.0\Search\Setup\ContentIndexCommon\Filters\Extension\.pdf]
    • (Predeterminado) = CLSID del IFilter
    • El CLSID del IFilter dependerá del fabricante:
      • FOXIT:
        • {987f8d1a-26e6-4554-b007-6b20e2680632}
      • Adobe IFilter:
        • {E8978DA6-047F-4E3D-9C78-CDBE46041603}

Comparativa de IFilter

Según he podido ver en algunas comparativas, parece ser que el FoxIT es muchísimo más rápido que el de Adobe. De todos modos, uno de los motivos es porque el IFilter de Adobe no es multithreaded (en realidad, no es reentrante), por lo que usaremos un solo núcleo de nuestra CPU.

Por otra parte, el Plugin de Adobe es gratuito. Por lo tanto, esta decisión dependerá en gran medida del volumen de documentos que tengamos en las colecciones de sitios a indexar.

Podemos ver una gran comparativa de rendimiento entre los tres principales IFilter para PDF, aquí:

http://blogs.msdn.com/b/opal/archive/2010/02/09/pdf-ifilter-test-with-sharepoint-2010.aspx

¿Qué ocurre con PDF escaneados?

Para este tema, os recomiendo leer mi otra entrada: ¿Cómo indexar contenido de PDF escaneados en Sharepoint?

Referencias

Podemos descargar el Plugin de FoxIT (recordemos que es de pago para utilizarlo en servidores) aquí:

http://www.foxitsoftware.com/pdf/ifilter/

El IFilter de Adobe de 64 bits (imprescindible, puesto que Sharepoint 2010 corre todo en 64 bits):

http://www.adobe.com/support/downloads/detail.jsp?ftpID=4025


Your name:
Gravatar Preview
Your email:
(Optional) Email used only to show Gravatar.
Your website:
Title:
Comment:
Security Code
CAPTCHA image
Enter the code shown above in the box below
Add Comment   Cancel 
© Evotec Consulting S.L. Gestión de Sistemas Informáticos