Buscador

Indexando PDF escaneados en Sharepoint 2010

abr. 17

Written by:
17/04/2012  RssIcon

Si habéis leído mi post sobre cómo indexar PDF en Sharepoint, probablemente os surja una segunda cuestión. ¿Qué ocurre si los PDF que estamos indexando contienen simplemente imágenes escaneadas?

En este caso, tenemos un requisito: generar dentro del archivo PDF una “Text Layer” que incluya el texto pasado por OCR. Esto permitiría leer al PDF IFilter el contenido y por tanto, indexar correctamente el contenido.

Para conseguir esto necesitamos una de estas tres opciones:

Solución 1

Utilizar un escáner + OCR que genere la Text Layer

Esta aproximación es útil para entornos pequeños o donde el escaneado esté centralizado.

Ventajas:

  • Fácil y económico de implantar.

Inconvenientes:

  • No permite dar tratamiento a archivos históricos que no hayan utilizado OCR al escanear.

Solución 2

Modificar PDFs en servidor para añadir la Text Layer

Esta aproximación permite modificar en tiempo real cada PDF que se suba al servidor, añadiéndole la capa “Text Layer” pasando por un OCR.

Ventajas:

  • Política de OCR centralizada por servidor
  • Permite tratar todos los documentos históricos
  • Indexación rápida, utilizando un IFilter estándar (Adobe o Foxit, por ejemplo). El tratamiento OCR se hace una sola vez a todos los PDF.

Inconvenientes:

  • Requiere implantar un software especializado
  • Complejo de implantar
  • Altera el archivo PDF original (aunque no toque la imagen), por lo que no sería compatible a priori con firma electrónica de PDF

Referencias:

Solución 3

Utilizar un IFilter específico que sea capaz de hacer OCR mientras escanea un PDF

Esta solución básicamente, se trata de un IFilter que cuando encuentre un PDF, indentifique si es texto o imagen, y en el segundo caso, genere imagen y pase por OCR, devolviendo como resultado de IFilter el texto leído.

Ventajas:

  • Política de OCR centralizada por servidor
  • Permite tratar todos los documentos históricos
  • Sencillo de implantar

Inconvenientes:

  • Cada vez que se indexan contenidos, se pasan por OCR, penalizando el proceso de indexación.
  • No usaremos IFilter estándar de Adobe o Foxit para los casos de PDF de texto.

 

Referencias:

http://wssocr.codeplex.com/


Your name:
Gravatar Preview
Your email:
(Optional) Email used only to show Gravatar.
Your website:
Title:
Comment:
Security Code
CAPTCHA image
Enter the code shown above in the box below
Add Comment   Cancel 
© Evotec Consulting S.L. Gestión de Sistemas Informáticos