Indexando PDF escaneados en Sharepoint 2010
abr.
17
Escrito el:
17/04/2012
Si habéis leído mi post sobre cómo indexar PDF en Sharepoint, probablemente os surja una segunda cuestión. ¿Qué ocurre si los PDF que estamos indexando contienen simplemente imágenes escaneadas?
En este caso, tenemos un requisito: generar dentro del archivo PDF una “Text Layer” que incluya el texto pasado por OCR. Esto permitiría leer al PDF IFilter el contenido y por tanto, indexar correctamente el contenido.
Para conseguir esto necesitamos una de estas tres opciones:
Solución 2
Modificar PDFs en servidor para añadir la Text Layer
|
Esta aproximación permite modificar en tiempo real cada PDF que se suba al servidor, añadiéndole la capa “Text Layer” pasando por un OCR.
Ventajas:
- Política de OCR centralizada por servidor
- Permite tratar todos los documentos históricos
- Indexación rápida, utilizando un IFilter estándar (Adobe o Foxit, por ejemplo). El tratamiento OCR se hace una sola vez a todos los PDF.
Inconvenientes:
- Requiere implantar un software especializado
- Complejo de implantar
- Altera el archivo PDF original (aunque no toque la imagen), por lo que no sería compatible a priori con firma electrónica de PDF
Referencias:
|