Blog sobre tecnología SharePoint 2010 - Indexando PDF escaneados en Sharepoint 2010

Su partner tecnológico de confianza

Consultores especialistas en desarrollos e implantación de Microsoft SharePoint

Microsoft Partner Silver Portals and Collaboration

Etiquetas del Blog

Carga documentos indexar Intranet javascript jquery Office pdf ribbon search SharePoint SharePoint 2016

Archivo

abril de 2024

lu.

ma.

mi.

ju.

vi.

sá.

do.

marzo de 2016 (1)

octubre de 2012 (1)

julio de 2012 (1)

abril de 2012 (5)

Comentarios recientes

No hay comentarios recientes en este blog.

Categorías

Desarrollo (6)

Funcionalidades (3)

Buscador

Palabras clave

Frase

Indexando PDF escaneados en Sharepoint 2010

abr. 17

Escrito el:
17/04/2012

Si habéis leído mi post sobre cómo indexar PDF en Sharepoint, probablemente os surja una segunda cuestión. ¿Qué ocurre si los PDF que estamos indexando contienen simplemente imágenes escaneadas?

En este caso, tenemos un requisito: generar dentro del archivo PDF una “Text Layer” que incluya el texto pasado por OCR. Esto permitiría leer al PDF IFilter el contenido y por tanto, indexar correctamente el contenido.

Para conseguir esto necesitamos una de estas tres opciones:

Solución 1

Utilizar un escáner + OCR que genere la Text Layer

Esta aproximación es útil para entornos pequeños o donde el escaneado esté centralizado.

Ventajas:

Fácil y económico de implantar.

Inconvenientes:

No permite dar tratamiento a archivos históricos que no hayan utilizado OCR al escanear.

Solución 2

Modificar PDFs en servidor para añadir la Text Layer

Esta aproximación permite modificar en tiempo real cada PDF que se suba al servidor, añadiéndole la capa “Text Layer” pasando por un OCR.

Ventajas:

Política de OCR centralizada por servidor
Permite tratar todos los documentos históricos
Indexación rápida, utilizando un IFilter estándar (Adobe o Foxit, por ejemplo). El tratamiento OCR se hace una sola vez a todos los PDF.

Inconvenientes:

Requiere implantar un software especializado
Complejo de implantar
Altera el archivo PDF original (aunque no toque la imagen), por lo que no sería compatible a priori con firma electrónica de PDF

Referencias:

Solución 3

Utilizar un IFilter específico que sea capaz de hacer OCR mientras escanea un PDF

Esta solución básicamente, se trata de un IFilter que cuando encuentre un PDF, indentifique si es texto o imagen, y en el segundo caso, genere imagen y pase por OCR, devolviendo como resultado de IFilter el texto leído.

Ventajas:

Política de OCR centralizada por servidor
Permite tratar todos los documentos históricos
Sencillo de implantar

Inconvenientes:

Cada vez que se indexan contenidos, se pasan por OCR, penalizando el proceso de indexación.
No usaremos IFilter estándar de Adobe o Foxit para los casos de PDF de texto.

Referencias:

http://wssocr.codeplex.com/

Trackback Imprimir

Tags: indexar , pdf , SharePoint

Categorías: Desarrollo

Sitio: Blogs Parent Separator

Blog de SharePoint

0 comentario(s) hasta ahora...

Su nombre:
Su e-mail:
	(Opcional) El e-mail únicamente se usará para mostrar su Gravatar.
Su sitio web:
Título:
Comentario:

Código de seguridad Introduzca el código en la caja de textos que se muestra a continuación.
Añadir comentario Cancelar

Política de Privacidad | Aviso legal | Política de cookies

Su partner tecnológico de confianza

Consultores especialistas en desarrollos e implantación de Microsoft SharePoint

Etiquetas del Blog

Tags

Archivo

Entradas recientes

Comentarios recientes

Categorías

Buscador

Indexando PDF escaneados en Sharepoint 2010