Evotec PDF OCR IFilter

Evotec PDF OCR IFilter es un módulo desarrollado por Evotec, que permite, dentro del entorno SharePoint, realizar búsquedas, tanto en PDFs con texto legible como en documentos escaneados con una finalidad clara: mejorar la productividad y funcionalidad de la gestión documental.

Entre sus principales funcionalidades se encuentran:

  • Escaneo de facturas de proveedores, y búsqueda posterior por número de factura, producto, fecha, CIF del proveedor, etc.
  • Escaneo de contratos firmados
  • Escaneo y búsqueda por DNIs, pasaportes, etc.
 
   

Características

 

1. Características del motor OCR

“tesseract-ocr” es el motor de OCR utilizado en la búsqueda en pdf, desarrollado por HP Labs entre 1985 y 1995, hasta que el año 2006 Google apadrina el proyecto y financia su evolución y constante desarrollo, y todo con código abierto bajo licencia Apache.

Su funcionamiento se basa en redes neuronales, y unos datos de entrenamiento disponibles en más de 60 idiomas en su página oficial: http://code.google.com/p/tesseract-ocr/

2. Integración con motor de búsqueda de Microsoft SharePoint

A diferencia de otros productos alternativos presentes en el mercado para búsqueda de texto OCR en PDFs, la solución Evotec PDF OCR IFilter destaca por su transparencia en la indexación de documentos, y la sencillez en su instalación y configuración, consiguiendo que se lleve a cabo en menos de un día.

De esta manera la solución “Evotec PDF OCR IFilter” no cuenta con los inconvenientes de otros productos alternativos que tienen que modificar masivamente todos los PDF cargados anteriormente, debido a que su funcionamiento se basa en la modificación del documento original escaneado por otro que incluye una capa de texto oculta con el OCR realizado. Esto puede implicar problemas con lógicas de aprobación de documentos en un entorno de gestión documental, además que un PDF firmado digitalmente no se puede modificar.

3. Integración con Adobe IFilter

La solución Evotec PDF OCR IFilter se integra con el componente Adobe IFilter 64 bit. Por este motivo cuando se procesa un documento PDF, se pasa primero por el componente estándar de Adobe y, sólo si éste no ha recuperado una cantidad de texto representativa (parámetro configurable), se pasa por el proceso de OCR, optimizando de esta manera la carga de trabajo, ya que en un gestor documental no todos los PDF son escaneados. Así el propio motor de Adobe recupera todos los metadatos estándar de Adobe.

Para la integración con Adobe IFilter es necesaria la previa instalación del motor de Adobe. Una vez instalada, nuestra solución la detectará automáticamente y se integrará con ella. Así de sencillo.

4. Alto rendimiento y optimización para grandes entornos 

Evotec PDF OCR IFilter soluciona de una manera sencilla y eficaz los posibles inconvenientes que conllevaría el no modificar los PDF originales como el exceso de tiempo para volver a procesar por OCR todos los documentos cada vez que iniciamos una indexación completa en SharePoint.

Nuestra solución lo que hace es guardar en una caché el resultado del proceso OCR de cada documento, de modo que cada documento únicamente se procesa una vez, aunque lancemos indexaciones completas. Incluso, si un documento estuviera duplicado con diferente nombre pero idéntico contenido, sólo sería procesado una vez por el motor OCR.

En entornos donde existan varios servidores de indexación, esta ruta es configurable como ruta de red, de modo que esta caché sería aprovechada por todos y el procesado de OCR se haría en paralelo.

5. Otros posibles usos

Al utilizar la tecnología estándar IFilter de Microsoft, el mismo componente puede usarse para la búsqueda de escritorio (Desktop Search), y para el motor de indexación de texto de SQL Server, ya que ambos utilizan el interface IFilter para procesar ficheros.

 

 

Versiones compatibles en SharePoint

Este componente es independiente de la versión de SharePoint, y por lo tanto, es compatible con:

  • SharePoint Services 3.0, SharePoint 2007 Portal, Search Server 2007
  • SharePoint Foundation 2010, Search Express 2010, SharePoint Server 2010 y SharePoint 2013.
© Evotec Consulting S.L. Gestión de Sistemas Informáticos