Archiv für ‘OCR’

ifresco AutoOCR Transformer – Version 1.14

2012-11-22 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, PDF, PDF/A, ifresco, ifresco AutoOCR Tranformer for Alfresco Keine Kommentare →

  • FEATURE: Kombatibilität für Alfresco 4.2.bCE mit Java7
  • FEATURE: “Über AutoOCR” Reiter in der Admin Konsole mit Angaben zur installierten Version
  • FIX: Replace target Dokument switch bei gleichem Mimetype wie das orginal wurde nicht ausgewertet.

Der ifresco AutoOCR Transformer – ist somit für folgende Alfresco Versionen als installierbares AMP verfügbar:

  • Alfresco CE 4.0d, 4.2b
  • Alfresco EE 4.0.0, 4.0.1, 4.0.2, 4.1.1

New Features ifresco Transformer for Alfresco – with AutoOCR version 1.10.3

2012-08-01 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, DMS, ECM, OCR, PDF, PDF/A, ifresco, ifresco AutoOCR Tranformer for Alfresco Keine Kommentare →

Because of the new version of AutoOCR 1.10.3 there are new features available for the ifresco AutoOCR Transformer :

  • iOCR – new default OCR engine in addition to Abbyy
  • intelligent processing of PDF documents
  • Alfresco integration – ready to test without installation of an OCR server – you can use our AutoOCR Test server accessible from  the internet.
  • New Step by Step installation and setup documentation.

iOCR – additional OCR engine available

Starting with version AutoOCR version 1.10.3 the setup installs iOCR as default OCR engine which can be used standalone or in addition to the Abbyy OCR engine. iOCR has no page license limitations and is able to process PDF, TIFF or JPEG as input and can generate searchable PDF´s and TXT files.

Differences between iOCR and Abbyy

  • iOCR supports not so much languages like Abbyy
  • no mixed language recognition – only one main language can be selected
  • not the same level of accuracy and recognition quality like Abbyy
  • no image pre-processing functions
  • no page orientation detection (autorotate)
  • Not so much functions and features to configure and input / output formats.

But iOCR is a good solution for low cost and high volume OCR recognition e.g. to extract text information from PDF´s and images to built up a full text index (e.g. Alfresco Transformer > TXT) and to create searchable PDF´s from scans with a good quality.

The best is to make tests with own documents to see which OCR engine best fits your needs. Both engines Abbyy and iOCR can be installed and used parallel – you only have to create different OCR profiles for the different settings and OCR engines. Both OCR engines can also be tested by the use of our ready to use AutoOCR test server (autoocr.may.co.at)

Intelligent PDF processing:

A PDF document can contain only images from a scanner or can be created e.g. by a printer driver or by a direct PDF export. An image PDF does not contain any text and has to be OCR processed. The other “normal” PDF´s already contains text and does not need to be OCR processed. The Alfresco Transformer is not able to recognize it and to decide if a PDF has to be OCR processed or not. OCR processing costs time and resources and so starting with AutoOCR version 1.10.3 we implemented an “intelligent PDF-OCR processing”. When this option is checked on then each PDF document which is sent to the AutoOCR server is checked, and if the file already contains text – the PDF is not OCR processed. In this case the PDF or the extracted TXT data is direct sent back without OCR processing. To enable this feature the OCR profile on the AutoOCR server has to be configured for “intelligent OCR processing of PDF files”

PDF - intelligent OCR processing - Abbyy PDF - intelligent OCR processing - iOCR

AutoOCR Test server – ready to use

With the installation of 2 AMP´s you can integrate the AutoOCR server with Alfresco.  The integration works like a standard Alfresco Transformer or can also be used via Scripting or Java. The communication between AutoOCR and Alfresco is done via HTTTP(S) using REST.  To make it more easy to start testing AutoOCR  and the Alfresco integration you can use our ready installed and configured AutoOCR test server (autoocr.may.co.at) which is reachable over the internet and which has both OCR engines (Abbyy and iOCR) installed.

Step by Step – Installation and Setup documentation

With this document each step for the installation of the Abbyy Engine,  of AutoOCR, the licensing, the use of our test server and the integration with Alfresco are described in detail with screen shots.

Download – Installation and Setup documentation – ifresco AutoOCR transformer for Alfresco >>>

Test and Demo version is available – please contact us >>>

ifresco AutoOCR Transformer – OCR processing integrated with Alfresco Share

2012-04-30 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, PDF, PDF/A, ifresco, ifresco Client Keine Kommentare →

The AutoOCR Server is integrated via REST as a dynamic configurable Alfresco document transformer. AutoOCR creates searchable PDF´s or other document formats like TXT, DOC(X), XLS(X), PPT(X), XML, RTF and HTML from image of PDF files. The OCR functions can be used via Java, JavaScript or as a document transformer. Config is done from the Share UI which also has a new document action “Transform” and gives access to all Alfresco transformers.

AutoOCR is an OCR server / service which is based on the obviously best OCR engine from Abbyy. The AutoOCR server has a REST web-serverice interface which was used to integrate it with Alfresco. AutoOCR is able to convert image- or PDF- files to searchable PDF´s. In addition to PDF other document formats like TXT, DOC(X), XLS(X), PPT(X), XML, RTF and HTML can also be created.

The configuration is simple and uses OCR profiles to summarize all possible settings. With an AMP install module  the direct integration of AutoOCR to Alfresco is realized. OCR functions are available in   Alfresco as a dynamically configurable transformer. Appropriate bindings allow the use of the OCR out services also from JavaScript and Java. From Alfresco 4.0, the configuration and monitoring will be done directly on the UI of the Share Administrator console.

In addition, we have extended the  Alfresco share document actions with the Alfresco Transformer integration. Transformer functions are available on  any document via the share interface and allow the conversion of documents into different formats.

AutoOCR as Alfresco Transformer:

The OCR function can be bound to a folder as an action. So if e.g. a scanned document will be placed in this folder, the processing starts automatically started and the document will be passed to the AutoOCR server. The result is a searchable PDF or other document format that can be immediately sought and found on the Alfresco full-text index.

AutoOCR JavaScript binding for Alfresco:

The JavaScript API allows direct access to the AutoOCR service from Alfresco scripts. From Repository JavaScripts (Webscript controller script, scripted actions) all the features of AutoOCR API can be adressed. This API is completely independent from the integration of AutoOCR services as Alfresco Transformer.

Alfresco Share – “Transform” document action

By implementing the additional “transform” document action to the Share UI you can use all your Alfresco transformes and not only the AutoOCR transformers. The “transform” action is implemented general and not only OCR specific.

Highlights / features:

  • Direct AutoOCR integration as Alfresco transformer with REST web service interface.
  • Separate AutoOCR service / server which does not strain the Alfresco server
  • Based on ABBYY – the leading OCR engine
  • Easy configuration by selecting OCR profiles – all available ABBYY OCR engine settings are combined.
  • In addition to PDF other output formats can be generated (TXT, RTF, DOC, etc.)
  • Dynamic transformer configuration at runtime using the Alfresco Share Admin interface.
  • JavaScript client for the AutoOCR service, available in Alfresco repository scripts (WebScripts, actions, etc.)
  • Java client for the AutoOCR service, for use in Java code.
  • The Java client itself has no dependencies for Alfresco.
  • New Share document action “Transform” enhances Share not only with OCR but with all supported transformers.

Requirements:

  • Alfresco 4.x – dynamic configuration via Share Userinterface
  • Alfresco 3.x – manual configuration w/o Share UI
  • AutoOCR from Version 1.9.8 on Microsoft Windows as a service
  • ABBYY FineReader Engine 10 (starting with 10.000 pages per month)

01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs 20-autoocr-admin-status 22-autoocr-admin-transformerconfig2 23-autoocr-admin-jobs

Test and Demo version is available – please contact us for details >>>

Price information you can find here >>>

ifresco AutoOCR Transformer – Version 1.6 verfügbar

2012-04-27 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, PDF, PDF/A, ifresco Keine Kommentare →

Vom ifresco AutoOCR Transformer ist jetzt die Version 1.6 verfügbar. Neben Fehlerkorrekturen wurde jetzt auch eine Alfresco Share Dokumentenaktion “Transform” implementiert. Damit kann über die Alfresco Share Benutzeroberfläche nicht nur die AutoOCR Verarbeitung – sondern auch alle anderen von Alfresco unterstützen Dokumenten Transformer ausgewählt und angewendet werden.

Funktionen – Alfresco Share “Transform”

  • OCR-Verarbeiten sowie Konvertieren von Dokumenten über die Alfresco Share Oberfläche
  • Verwendung der konfigurierten Alfresco Transformer inkl. AutoOCR Anbindung
  • PDF Image Dokumente können direkt durch die OCR´ten und damit durchsuchbaren PDF Dokument ersetzt werden.
  • Neben der Erzeugung von durchsuchbaren PDF-OCR Datei lassen sich über zusätzliche Transformationen weitere Dokumente z.b. DOC, TXT, HTML usw. in einem Arbeitsschritt erzeugen.

01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs

AutoOCR – Alfresco Transformer Modul / JavaScript / Java Client

2012-01-20 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, ifresco Keine Kommentare →

Alfresco ist eines der leistungsfähigsten und innovativsten DMS/ECM Systeme. Dokumente werden über  Metadaten sowie Volltext verwaltet und können sehr schnell wiedergefunden werden. AutoOCR basiert auf Abbyy der wohl Besten verfügbaren OCR Engine. Wir haben diese beiden Produkte jetzt integriert und stellen damit die AutoOCR Funktionen in Alfresco zur Verfügung.

AutoOCR als Alfresco Transformer:

Die OCR Funktion wird dabei als Aktion direkt auf Ordner gebunden. Wird z.b. ein gescanntes Dokument in einen solchen Alfresco Ordner abgelegt so wird die Verarbeitung automatisch angestoßen und das Dokument an den AutoOCR Service übergeben. Das Ergebnis ist eine durchsuchbare PDF Datei die unmittelbar danach über den Alfresco Volltextindex gesucht und gefunden werden kann.

AutoOCR JavaScript Binding für Alfresco:

Das JavaScript API ermöglicht den direkten Zugriff auf den AutoOCR Service von Alfresco Scripts aus. In Repository JavaScripts (WebScript-Controller Scripts, Scripted Actions) können alle Funktionen des AutoOCR APIs aufgerufen werden. Dieses API ist vollständig unabhängig von der Einbindung der AutoOCR-Services als Alfresco-Transformer.

Highlights / Funktionen:

  • Direkte AutoOCR Einbindung als Alfresco Transformer über REST Web-Service Schnittstelle.
  • Getrennter AutoOCR Service / Server welcher den Alfresco Server nicht belastet
  • Basierend auf ABBYY – der führenden OCR Engine
  • Einfache Konfiguration über Auswahl von OCR Profilen  – alle verfügbaren Abbyy OCR Engine Einstellungen werden damit zusammenfassen.
  • Neben PDF können parallel dazu weitere Ausgabeformate erzeugt werden (TXT, RTF, DOC, etc.)
  • Dynamische Transformer Konfiguration zur Laufzeit über die Alfresco Share-Admin Oberfläche.
  • JavaScript-Client für den AutoOCR Service, nutzbar in Alfresco Repository-Scripts (WebScripts, Actions, usw.)
  • Java-Client für den AutoOCR Service, zur Verwendung in Java Code.  Der Java Client selbst hat keine Abhängigkeiten gegen Alfresco.

Voraussetzung:

  • Alfresco 4.x – dynamische Konfiguration über Share Userinterface
  • Alfresco 3.x – manuelle Konfiguration ohne Share UI
  • AutoOCR ab Version 1.9.8 unter MS-Windows

1_AutoOCR - alfresco transformer - status 2_AutoOCR - alfresco transformer connection configuration 3_AutoOCR - alfresco transformer configuration 4_AutoOCR - alfresco transformer job status

ifresco – Unsere Produktline für die Alfresco ECM Software

2010-09-24 Von: Wolfgang May Kategorie(n): Alfresco, DMS, ECM, OCR, PDF, Software, Software-Entwicklung, Web 2.0, ifresco Keine Kommentare →

Seit einiger Zeit beschäftigen wir uns mit dem ECM OpenSource System Alfresco. Wir sind der Meinung dass Alfresco eine sehr leistungsfähige, flexible und moderne Lösung für die Verwaltung aller Arten von Dokumenten innerhalb und außerhalb eines Unternehmens darstellt. In der Zwischenzeit haben wir einige Lösungen und Produkte rund um Alfresco entwickelt. Neue interessante Software und Lösungen – z.b. auch einen von der Bedienung und Funktionalität momentan einzigartigen Alfresco Client werden wir in Kürze vorstellen.

Diese  “ifresco” Software Produktlinie werden wir auf der Web-Seite www.ifresco.at präsentieren. Wir möchten damit ein führender Anbieter von Alfresco Lösungen, Add-On und Zusatzsoftware in Österreich und auch International werden. Alle unsere Produkte wird es dann für unsere Kunden zusammen mit einer von uns auf Basis der Alfresco Community Version erstellten kompletten “ifresco ECM Suite” geben.

iFresco1

ifresco ECM Suite – Lösungen und Komponenten:

  • ifresco Client – Einzigartiger Alfresco Web-Client auf Basis neuester JavaScipt/Ajax Technologie mit Plugin Erweiterungsmöhlichkeit
  • ifresco Importer – Import von Dokumenten und Metadaten nach Alfresco über z.b. XLS Dateien.
  • ifresco Profiler – Interaktiver Dokumentenimport mit Voransicht und Metadatenerfassung- Logik und Erweiterungen sind über Plugin´s realisierbar.
  • ifresco Reminder – Erinnerungs- / Ablauf Funktion für Dokumente und Ordner – mit Kalenderübersicht sowie E-Mail Benachrichtigung an die verantwortlichen Personen – Komponente für eine Alfresco Lösung zur Vertragsverwaltung.
  • ifresco DirectScan - Scansoftware um Imagedokumente direkt nach Alfresco zu scannen.
  • ifresco eDocPrintPro – PDF Druckertreiber um die PDF Druckdateien direkt nach Alfresco zu importieren.
  • ifresco AutoOCR – OCR Lösung um Scans und PDF Dokumente in durchsuchbare PDF zu wandeln damit diese  per Volltextsuche im Alfresco gefunden werden können.

iOCR – PDF-OCR Engine für AutoOCR / Alfresco

2007-06-09 Von: Wolfgang May Kategorie(n): OCR, PDF, Software Keine Kommentare →

Neben ABBYY FineReader der sicherlich besten und leistungsfähigsten OCR Engine haben wir jetzt auch eine weitere OCR Engine im Portfolio. iOCR ist in der Lage direkt aus TIFF Images durchsuchbare PDF´s zu erzeugen. Auch bei dieser Lösung bleibt das gescannte Image in seiner Original Darstellung erhalten wobei im “Hintergrund” der per OCR erkannte Text eingefügt wird. Damit werden gescannte Dokumente sofort jeder Volltextsuchengie zugänglich.

Vorteile:

  • Commandline Anwendung – die OCR Engine läßt sich dadurch sehr einfach integrieren. Z.b.: Kann iOCR “Out of the Box” als “Plugin” Zusatz zum Alfresco ECM/DMS System installiert werden. Der OCR Prozess zur Konvertierung von TIFF Images in durchsuchbare PDF´s wird angestoßen sobald eine TIFF Datei in einem bestimmten Ordner abgelegt wird. Unmittelbar danach wird das PDF volltext indexiert und kann über seinen Inhalt gesucht und wieder gefunden werden.
  • iOCR basiert auf Tiger OCR einer unglaublich schnellen und hoch performanten OCR Komponente. Unsere Tests und Erfahrungen zeigen dass die iOCR Performance eine der schnellsten momentan verfügbaren Lösungen darstellt. Eine hohe Performance hat wesentliche Bedeutung wenn in kurzer Zeit eine große Menge an Images Bestände und durchsuchbar gemacht werden muss.
  • iOCR ist sehr kompakt und “schlank” – das Setup ist nur 5MB groß, die Anwendung braucht keine großen Rechnerressourcen.
  • Die wichtigsten europäischen Sprachen (Engl, Deutsch, Franz, Schwed, Span, Dän, Ital, Port, Holländisch) werde mit guten Erkennungsgenauigkeit verarbeitet.
  • Verschiedene Text und Image Komprimierungs-Einstelllungen ermöglichen kompakte PDF Dateigrößen
  • Ausgabeformate – ASCII, smart ASCII (dabei wird versucht das Textergebnis möglichst nahe an das Original Image heranzubringen), RTF und PDF.
  • PDF Sicherheitseinstellungen können gesetzt und PDF Profilinformation (Titel, Autor, Betreff und Schlüsselworte) befüllt werden.

Voraussetzung – MS-Windows XP/2000, Adobe Acrobat ist nicht erforderlich.

Wir verwenden iOCR momentan für folgende Anwendungen – AutoOCR - um über Foldermonitoring TIFF Images automatisiert in durchsuchbare PDF´s zu konvertieren bzw. als Add-On zur Alfresco ECM/DMS Lösung um gescannte Dokumente automatisiert per OCR zu verarbeiten. Die Dokumente sind danach sofort über deren Inhalt per Volltext such- und auffindbar.

Weitere Integration in unsere anderen Softwarelösungen – ScanClient, PDFMerge, AutoPDF – z.b. für PDF-OCR als auch für Bereichs OCR sind geplant.

iOCR verfügt über keine mengenmäßigen Restriktionen und kann mit der Voll-Lizenz eine beliebige Anzahl an Seiten und Dokumenten konvertieren und verarbeiten.

Im Setup von AutoOCR ist iOCR enthalten. Ohne Eingabe eines Lizenzkeys können max. 50 Dokumente für Demo bzw. Testzwecke konvertiert werden.

Die Lizenzkosten von iOCR betragen EUR 760,– exkl. Mwst.

Neue Version 8.1 der ABBYY FineReader OCR Engine mit PDF/A

2007-06-07 Von: Wolfgang May Kategorie(n): Archivierung, OCR, PDF, PDF/A, Software Keine Kommentare →

Für die OCR – Schreifterkennung und die OCR Umwandlung in durchsuchbare PDF Dokumente verwenden wir die momentan leistungsfähigste am Markt verfügbare OCR Engine – ABBYY FineReader. Jetzt ist die Version 8.1. verfügbar mit der es auch möglich ist PDF/A kompatible Dokumente für die Langzeitarchivierung zu erzeugen.

Alle unsere Produkte die OCR Funktionen unterstützen sind bereits an die neue Version angepasst uns nutzen daher die zusätzlichen Funktionen und sind in der Lage PDF/A konforme Dokumente zu erzeugen.

Folgende unserer Produkte unterstützen ABBYY FineReader 8.1:

Neuerungen der ABBYY FineReader Version 8.1:

  • PDF/A (PDF/Archive) Unterstützung
  • PDF Verbesserung der Erkennungsgenauigkeit und Optimierung der Geschwindigkeit
  • Erweiterter Support für asiatische Sprachen für PDF und RTF Export
  • Neue Sprachen für OCR: Thai und Hebrew
  • Balanced Processing Modus für OCR Erkennung
  • Unterstützung neuer Barcode Typen – EAN 13
  • CMC7 Text Type Unterstützung

Nähere Informationen zu den Neuerungen der Version 8.1

Neuerungen der ABBYY FineReader Version 8.1 (PDF)

Übersicht – Funktionserweiterungen der Versionen 5.0 bis 8.1 (PDF)