Archiv für ‘PDF/A’

ifresco AutoOCR Transformer – Version 1.14

2012-11-22 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, PDF, PDF/A, ifresco, ifresco AutoOCR Tranformer for Alfresco Keine Kommentare →

  • FEATURE: Kombatibilität für Alfresco 4.2.bCE mit Java7
  • FEATURE: “Über AutoOCR” Reiter in der Admin Konsole mit Angaben zur installierten Version
  • FIX: Replace target Dokument switch bei gleichem Mimetype wie das orginal wurde nicht ausgewertet.

Der ifresco AutoOCR Transformer – ist somit für folgende Alfresco Versionen als installierbares AMP verfügbar:

  • Alfresco CE 4.0d, 4.2b
  • Alfresco EE 4.0.0, 4.0.1, 4.0.2, 4.1.1

New Features ifresco Transformer for Alfresco – with AutoOCR version 1.10.3

2012-08-01 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, DMS, ECM, OCR, PDF, PDF/A, ifresco, ifresco AutoOCR Tranformer for Alfresco Keine Kommentare →

Because of the new version of AutoOCR 1.10.3 there are new features available for the ifresco AutoOCR Transformer :

  • iOCR – new default OCR engine in addition to Abbyy
  • intelligent processing of PDF documents
  • Alfresco integration – ready to test without installation of an OCR server – you can use our AutoOCR Test server accessible from  the internet.
  • New Step by Step installation and setup documentation.

iOCR – additional OCR engine available

Starting with version AutoOCR version 1.10.3 the setup installs iOCR as default OCR engine which can be used standalone or in addition to the Abbyy OCR engine. iOCR has no page license limitations and is able to process PDF, TIFF or JPEG as input and can generate searchable PDF´s and TXT files.

Differences between iOCR and Abbyy

  • iOCR supports not so much languages like Abbyy
  • no mixed language recognition – only one main language can be selected
  • not the same level of accuracy and recognition quality like Abbyy
  • no image pre-processing functions
  • no page orientation detection (autorotate)
  • Not so much functions and features to configure and input / output formats.

But iOCR is a good solution for low cost and high volume OCR recognition e.g. to extract text information from PDF´s and images to built up a full text index (e.g. Alfresco Transformer > TXT) and to create searchable PDF´s from scans with a good quality.

The best is to make tests with own documents to see which OCR engine best fits your needs. Both engines Abbyy and iOCR can be installed and used parallel – you only have to create different OCR profiles for the different settings and OCR engines. Both OCR engines can also be tested by the use of our ready to use AutoOCR test server (autoocr.may.co.at)

Intelligent PDF processing:

A PDF document can contain only images from a scanner or can be created e.g. by a printer driver or by a direct PDF export. An image PDF does not contain any text and has to be OCR processed. The other “normal” PDF´s already contains text and does not need to be OCR processed. The Alfresco Transformer is not able to recognize it and to decide if a PDF has to be OCR processed or not. OCR processing costs time and resources and so starting with AutoOCR version 1.10.3 we implemented an “intelligent PDF-OCR processing”. When this option is checked on then each PDF document which is sent to the AutoOCR server is checked, and if the file already contains text – the PDF is not OCR processed. In this case the PDF or the extracted TXT data is direct sent back without OCR processing. To enable this feature the OCR profile on the AutoOCR server has to be configured for “intelligent OCR processing of PDF files”

PDF - intelligent OCR processing - Abbyy PDF - intelligent OCR processing - iOCR

AutoOCR Test server – ready to use

With the installation of 2 AMP´s you can integrate the AutoOCR server with Alfresco.  The integration works like a standard Alfresco Transformer or can also be used via Scripting or Java. The communication between AutoOCR and Alfresco is done via HTTTP(S) using REST.  To make it more easy to start testing AutoOCR  and the Alfresco integration you can use our ready installed and configured AutoOCR test server (autoocr.may.co.at) which is reachable over the internet and which has both OCR engines (Abbyy and iOCR) installed.

Step by Step – Installation and Setup documentation

With this document each step for the installation of the Abbyy Engine,  of AutoOCR, the licensing, the use of our test server and the integration with Alfresco are described in detail with screen shots.

Download – Installation and Setup documentation – ifresco AutoOCR transformer for Alfresco >>>

Test and Demo version is available – please contact us >>>

ifresco AutoOCR Transformer – OCR processing integrated with Alfresco Share

2012-04-30 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, PDF, PDF/A, ifresco, ifresco Client Keine Kommentare →

The AutoOCR Server is integrated via REST as a dynamic configurable Alfresco document transformer. AutoOCR creates searchable PDF´s or other document formats like TXT, DOC(X), XLS(X), PPT(X), XML, RTF and HTML from image of PDF files. The OCR functions can be used via Java, JavaScript or as a document transformer. Config is done from the Share UI which also has a new document action “Transform” and gives access to all Alfresco transformers.

AutoOCR is an OCR server / service which is based on the obviously best OCR engine from Abbyy. The AutoOCR server has a REST web-serverice interface which was used to integrate it with Alfresco. AutoOCR is able to convert image- or PDF- files to searchable PDF´s. In addition to PDF other document formats like TXT, DOC(X), XLS(X), PPT(X), XML, RTF and HTML can also be created.

The configuration is simple and uses OCR profiles to summarize all possible settings. With an AMP install module  the direct integration of AutoOCR to Alfresco is realized. OCR functions are available in   Alfresco as a dynamically configurable transformer. Appropriate bindings allow the use of the OCR out services also from JavaScript and Java. From Alfresco 4.0, the configuration and monitoring will be done directly on the UI of the Share Administrator console.

In addition, we have extended the  Alfresco share document actions with the Alfresco Transformer integration. Transformer functions are available on  any document via the share interface and allow the conversion of documents into different formats.

AutoOCR as Alfresco Transformer:

The OCR function can be bound to a folder as an action. So if e.g. a scanned document will be placed in this folder, the processing starts automatically started and the document will be passed to the AutoOCR server. The result is a searchable PDF or other document format that can be immediately sought and found on the Alfresco full-text index.

AutoOCR JavaScript binding for Alfresco:

The JavaScript API allows direct access to the AutoOCR service from Alfresco scripts. From Repository JavaScripts (Webscript controller script, scripted actions) all the features of AutoOCR API can be adressed. This API is completely independent from the integration of AutoOCR services as Alfresco Transformer.

Alfresco Share – “Transform” document action

By implementing the additional “transform” document action to the Share UI you can use all your Alfresco transformes and not only the AutoOCR transformers. The “transform” action is implemented general and not only OCR specific.

Highlights / features:

  • Direct AutoOCR integration as Alfresco transformer with REST web service interface.
  • Separate AutoOCR service / server which does not strain the Alfresco server
  • Based on ABBYY – the leading OCR engine
  • Easy configuration by selecting OCR profiles – all available ABBYY OCR engine settings are combined.
  • In addition to PDF other output formats can be generated (TXT, RTF, DOC, etc.)
  • Dynamic transformer configuration at runtime using the Alfresco Share Admin interface.
  • JavaScript client for the AutoOCR service, available in Alfresco repository scripts (WebScripts, actions, etc.)
  • Java client for the AutoOCR service, for use in Java code.
  • The Java client itself has no dependencies for Alfresco.
  • New Share document action “Transform” enhances Share not only with OCR but with all supported transformers.

Requirements:

  • Alfresco 4.x – dynamic configuration via Share Userinterface
  • Alfresco 3.x – manual configuration w/o Share UI
  • AutoOCR from Version 1.9.8 on Microsoft Windows as a service
  • ABBYY FineReader Engine 10 (starting with 10.000 pages per month)

01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs 20-autoocr-admin-status 22-autoocr-admin-transformerconfig2 23-autoocr-admin-jobs

Test and Demo version is available – please contact us for details >>>

Price information you can find here >>>

ifresco AutoOCR Transformer – Version 1.6 verfügbar

2012-04-27 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, OCR, PDF, PDF/A, ifresco Keine Kommentare →

Vom ifresco AutoOCR Transformer ist jetzt die Version 1.6 verfügbar. Neben Fehlerkorrekturen wurde jetzt auch eine Alfresco Share Dokumentenaktion “Transform” implementiert. Damit kann über die Alfresco Share Benutzeroberfläche nicht nur die AutoOCR Verarbeitung – sondern auch alle anderen von Alfresco unterstützen Dokumenten Transformer ausgewählt und angewendet werden.

Funktionen – Alfresco Share “Transform”

  • OCR-Verarbeiten sowie Konvertieren von Dokumenten über die Alfresco Share Oberfläche
  • Verwendung der konfigurierten Alfresco Transformer inkl. AutoOCR Anbindung
  • PDF Image Dokumente können direkt durch die OCR´ten und damit durchsuchbaren PDF Dokument ersetzt werden.
  • Neben der Erzeugung von durchsuchbaren PDF-OCR Datei lassen sich über zusätzliche Transformationen weitere Dokumente z.b. DOC, TXT, HTML usw. in einem Arbeitsschritt erzeugen.

01-autoocr-action-menu 02-autoocr-shareaction-dialog 03-autoocr-shareaction-transform-waiting 04-autoocr-shareaction-results 05-autoocr-shareaction-transformed-docs

ecm Market – Der Marktplatz für Alfresco Lösungen

2012-04-27 Von: Wolfgang May Kategorie(n): Alfresco, AutoOCR, DMS, ECM, PDF, PDF/A, ifresco Keine Kommentare →

Es gibt jetzt mit dem ecm Market unter www.ecm-market.de eine neue Plattform für Alfresco Lösungen und Add-On Module. Der ecm Market ist eine B2B-Plattform für kostenlose und kommerzielle Lösungen, sowohl für Alfresco Enterprise wie auch für Alfresco Community. Auf dieser Plattform bieten Softwarehäuser und Entwickler ihre Alfresco-basierten Lösungen für Unternehmen an. Auch wir bieten im ecm Market unsere Alfresco Lösungen an. Die erste dort verfügbare Lösung ist unsere Integration von Alfresco mit AutoOCR zur Erzeugung durchsuchbarer PDF´s.

ifresco AutoOCR Transformer im ecm Market >>>

Microsoft Office 2007 SP 2 unterstützt PDF, PDF/A und ODF

2008-05-27 Von: Wolfgang May Kategorie(n): Microsoft, PDF, PDF/A Keine Kommentare →

Microsoft macht Ernst mit der Interoperabilität. Die XML Paper Specification (XPS), das Portable Document Format (PDF) 1.5, PDF/A und das OpenDocument Format for Office Applications (ODF) v1.werden im Microsoft Office 2007 Service Pack 2 (SP2) in der ersten Jahreshälfte 2009 nativ unterstützt. Bisher ist noch ein Plug-In erforderlich, um Dokumente in diesen Formaten zu öffnen und zu speichern. Dies ist dann nicht mehr nötig. PDF ist das Dateiformat, das weltweit am meisten verbreitet ist. Der Ableger PDF/A (Archive) erlaubt die revisionssichere Archivierung über Jahrzehnte, während Microsoft noch nicht einmal seine eigenen Datenformate über einen längeren Zeitraum öffnen kann, nur Dokumente ab Word 97 werden noch im Kompatibilitätsmodus unterstützt.

May Computer als erstes österreichisches Unternehmen Mitglied des PDF/A Competence Centers

2008-01-09 Von: Wolfgang May Kategorie(n): Archivierung, PDF/A Keine Kommentare →

PDF/A Competence Center
May Computer wurde mit Anfang 2008 als erstes österreichisches Unternehmen Mitglied im PDF/A Competence Center, einem Zusammenschluss weltweit führender Unternehmen und Fachleute im Bereich PDF-Technologie. Der Zweck des PDF/A Competence Centers ist die Förderung des Informations- und Erfahrungsaustausches auf dem Gebiet Langzeitarchivierung gemäss ISO 19005: PDF/A. Mehr Informationen zum Thema PDF/A finden Sie unter www.pdfa.at bzw. unter www.pdfa.org

ITnT 2008 | 5. bis 7. Februar 2008 | Messe Wien – wir sind dabei

2008-01-07 Von: Wolfgang May Kategorie(n): Alfresco, Dies & Das, PDF, PDF/A, Software, Veranstaltungen Keine Kommentare →

ITnT 2008 | 5. bis 7. Februar 2008 | Messe Wien - wir sind dabei

Bereits zum 4. Mal findet vom 5. bis 7. Februar 2008 die ITnT in der Messe Wien statt. Durch das Wachstum der letzten Jahre hat sich die Messe nachhaltig als wichtigste IKT-Plattform in Österreich für Central Europe positioniert – und wir sind dabei!

Wir laden Sie ganz herzlich auf unseren Messestand in Halle A, Stand-Nr. 208 ein, wo Sie folgendes erwartet:

Entdecken Sie auf der ITnT 2008 die Möglichkeiten von maßgeschneiderten IT-Lösungen. Wir freuen uns darauf, Ihnen unsere Produkte/Dienstleistungen näher vorstellen zu dürfen.

Für Ihren kostenlosen Messeeintritt wenden Sie sich bitte per e-mail unter may@may.co.at an uns.

PDF2PDF – Konvertiert PDF nach PDF – warum ist das notwendig ?

2007-06-09 Von: Wolfgang May Kategorie(n): PDF, PDF/A, Software, Software-Entwicklung Keine Kommentare →

Wir haben für einen Softwarepartner ein Tool entwickelt um vorhandene PDF Dokumente wieder nach PDF zu konvertieren. Warum ist es erforderlich vorhandene PDF Dokumente wieder nach PDF zu konvertieren?

PDF Dokumente können für die unterschiedlichsten Anwendungszwecke erzeugt werden – wird z.b. ein Katalog eines Reisebüros gelayoutet so liefert die Grafikstudio ein PDF Dokument mit eingebetteten Bildern in hoher Auflösung sowie mit CMYK Farbdefinitionen. So eine Datei kann somit auch einige hundert Megabyte groß sein und ist damit ungeeignet für die interne Verwendung, zum Versand per E-Mail oder aber um auf der Web-Seite publiziert zu werden. Die eingebetteten Bilder müssen in der Auflösung reduziert sowie auf RGB umgerechnet werden wodurch das PDF plötzlich statt 300MB weniger als 10MB hat.

Und genau das macht dieses Tool – es reduziert die Dateigröße und erzeugt die für den jeweilige Anwendungszweck passenden PDF´s.

Pdf2Pdf.exe – ist ein Commandline Tool das eine PostScript oder PDF Dokument nach PDF konvertiert

  • screen: niedrige Auflösung, kleine Dateien
  • ebook: mittlere Auflösung
  • printer: hohe auflösung, grosse Dateien
  • prepress: beste Qualität

Wir arbeiten auch daran auf Basis dieses Tools eine Konvertierung von “normalen” PDF Dokumenten nach PDF/A vorzunehmen.

PDF2PDF wurde unter C# – .NET entwickelt erfordert die .NET 2.0 Runtime und verwendet GhostScript.

eDocPrintPro – freier PDF und Image Druckertreiber

2007-06-09 Von: Wolfgang May Kategorie(n): Archivierung, PDF, PDF/A, Software, Software-Entwicklung Keine Kommentare →

Für unsere Softwareprojekte haben wir immer wieder die Anforderung gehabt PDF Dokumente zu erzeugen und ein einfacher und universeller Weg der aus fast jeder Anwendung heraus funktioniert ist die Konvertierung über einen Druckvorgang.

Aus dieser Notwendigkeit heraus haben wir den eDocPrintPro – www.pdfprinter.at PDF und Image Druckertreiber entwickelt. Als Basis verwenden wir die GPL Version von Ghostscript.

Folgende Punkte zeichnen das Produkt aus:

Einfachste Installation – On Click Installation / Deinstallation – Silent Install, Commandline Parameter für Install, MSI-Install

Einfachste Handhabung – Alle Parameter des Druckertreibers sind per UI, per Profile, per SDK/API einstellbar und konfigurierbar – eDocPrintPro - verhält sich wie ein normaler Druckertreiber.

Beliebige GhostScript Versionen verwendbar -Die bestehende GhostScript Version aber auch eine neuere oder andere z.b. die AFPL Version von Ghostscript kann installiert werden. Es besteht keine Bindung an die von uns mitinstallierte GPL Version. Die Software erlaubt auch die Auswahl der verschiedenen installierten Versionen per Userinterface, bzw. kann beim Setup auch die Installation von GhostScript deaktiviert werden.

Freie Weitergabe und Verteilung – Das Produkt kann beliebig und frei weitergegeben werden, kann in eigene Anwendungen und Setup´s eingebunden werden und unterliegt keiner Einschränkung bei der Weitergabe und Verteilung.

Hohe Zuverlässigkeit und Qualität – Da wir eDocPrintPro auch in unseren eigenen Softwareprodukten verwenden – z.B. für iPaper, PDFMerge, AutoPDF sowie in fast alle unseren anderen Softwareprodukte integriert haben um die Druckdaten direkt zu übernehmen achten wir auf hohe Qualität und Zuverlässigkeit – d.h. das Produkt wird laufende getestet und ist im professionellen Umfeld bei einer grossen Zahl an Kunden im Einsatz. Über die optional verfügbare API nutzen in der Zwischenzeit auch andere Softwarehäuser die Funktionen von eDocPrintPro und haben den Druckertreiber in deren eigene Applikationen eingebunden.

SDK/API – optional verfügbar – Softwarehäuser und Entwickler haben die Möglichkeit den eDocPrintPro Druckertreiber in eigene Anwendungen zu integrieren. Das SDK / API stellt dafür alle Möglichkeiten zur Verfügung – alle über das Userinterface einstellbaren Parameter sind zugreifbar, die Einstellungen können als Profile in XML Dateien gespeichert und wieder geladen werden, das Einstellmöglichkeiten am Userinterface können gesperrt und wieder freigegeben werden. Der Zielpfad / Zielname der Datei kann gesetzt werden, Die Anwendung erhält nach Erstellung der Datei einen Event zurück. Im Lieferumfang sind umfangreiche Beispiele für C++, VB, VB.NET für 32 als auch 64bit enthalten. Weiters gibt es Beispiele für MS-Access Reportausgabe als auch ein Beispiel für die automatische Konvertierung von MS-Word Dateien nach PDF. Die Kosten für die API beträgt einmalig EUR 500,– inkl. 6 Monate Support für die Entwickler per e-maile oder Remote.

Unterstützung der wichtigsten Plattformen – Wir unterstützen mit unserem Druckertreiber die wichtigsten Plattformen – Microsoft Windows 2000, Windows XP, Windows Vista, Windows 2003 Server, Windows Terminalserver 2000 / 2003 sowie die CITRIX Terminalserver. eDocPrintPro unterstützt als einer der wenigen und auch als einer der ersten PDF Druckertreiber bereits die 64bit Versionen von Microsoft Windows XP, Server 2003 und Windows Vista. Das kombinierte Setup erkennt von selbst ob die Installation auf einem 32 oder 64bit System erfolgen soll. Die API ist sowohl für die 32 als auch für die 64bit Version verfügbar.

Automatische Sprachumschaltung – Englisch / Deutsch - eDocPrintPro erkennt auf welche Sprache das Betriebssystem eingestellt ist und schaltet das Userinterface automatisch auf die entsprechende Sprache um.

Mehrere Druckertreiber parallel – Über die eDocPrintPro Utility – können beliebige weitere Treiber mit unterschiedlichen Namen angelegt werden – die Einstellungen können getrennt vorgenommen werden – womit je nach Anwendung einfach nur ein anderer Drucker ausgewählt werden muss. Es kann z.b. ein eigener “Archiv” Treiber eingerichtet werden der über bestimmte nicht änderbare Voreinstellungen verfügt und alle Dokumente die darüber ausgedruckt werden landen automatisch im zentralen Dokumentenarchiv.

Beliebig erweiterbar durch Plugin´s - Wir haben eine eigene Plugin Schnittstelle geschaffen die es jedem ermöglicht die Funktionalität des Druckertreibers zu erweitern und eigene Funktionen und Abläufe zu integrieren. In der einfachsten Form bereits ohne zusätzliche Plugin´s kann eine nachgelagerte Anwendung aufgerufen werden und die erzeugte Datei kann als Commandline Parameter übergeben werden. Durch die Plugin´s ist es jedoch möglich einzelne Verarbeitungsschritte zu kombinieren und nacheinander in “Ketten” ausführen zu lassen. Plugin´s lassen sich installieren, deinstallieren, können Voreinstellungen haben, Parameter bei der Ausführung abfragen, in einer konfigurierbaren Reihenfolge abgearbeitet werden und unter einen Set-Namen zusammengefasst gespeichert und geladen werden.

Die Schnittstelle für die Plugin´s als auch einige Beispiele sind kostenlos verfügbar. Somit kann jeder Entwickler eigene Plugin´s schreiben und diese kostenlos oder lizenzierbar zur Verfügung stellen.

Plugin´s können als EXE, COM DLL, Standard DLL – geschrieben und eingebunden werden – wobei auch für die 64bit Version C++ Beispiele vorhanden sind. Auch die API/SDK unterstützt die Plugin Schnittstelle.

Folgende Plugin´s sind verfügbar:

  • OLEMail – Plug-In zum Versand von e-Mails per MS-Outlook (frei)
  • PDF Security – Setzten der PDF Security Parameter (Passwort, Verschlüsselung, Restriktionen usw.)
  • TIFF-F Konverter – Konvertiert die TIF Ausgabe in das TIFF-F Format
  • AskforMetadata - Datenabfrage per Maske, Einbetten der Daten als XML in das PDF

Weitere Plugin´s sind in Planung bzw. entwickeln wir gerne auch auf Basis Ihrere Spezifikation – Anfragen richten Sie bitte an wmay@may.co.at

eDocPrintPro ist auch ein Image Druckertreiber – unterstützte Formate

  • TIFF Mono (RLE, Gr. 3, Gr. 4, LZW, PackBits)
  • TIFF Color (Unkomprimiert, JPEG komprimiert)
  • JPEG - 8bit Graustufen, 24bit Color
  • BMP - Mono, 8bit Graustufen, 4, 8, 24bit Color
  • PCX - Mono, 8bit Graustufen, 4, 8, 24, 32bit Color
  • PNG - Mono, 8bit Graustufen, 4, 8, 24bit Color
  • HP PCL XL, PostScript PS, EPS

PDF/A – ISO Norm für Langzeitarchivierung - eDocPrintPro ist als einer der ersten PDF Druckertreiber auch in der Lage PDF/A-1b kompatible Dokumente zu erzeugen. PDF/A wurde als ISO Standard für die Langzeitarchivierung von Dokumenten festgelegt und wird in Zukunft für alle Unternehmen und Organisationen grosse Bedeutung erlangen. Der Trend wird dahingehen alle Dokumente die über einen längeren Zeitraum aufbewahrt werden müssen in diesem Format abzulegen. Die PDF/A Option ist ein kostenpflichtiges Add-On für den eDocPrintPro Druckertreiber und kann jederzeit zur freien Version hinzugefügt und aktiviert werden. Weitere Informationen zum Thema PDF/A finden Sie auf unserer Web-Seite www.pdfa.at

Erweiterung, Anpassung, Sonderwünsche – Wir haben zwar versucht möglichst viele Funktionen standardmäßig zu implementieren und auch die entsprechenden Schnittstellen zu schaffen, aber es gibt immer wieder Erweiterungswünsche bzw. Integrationen die über die Standardfunktionen nicht abgedeckt sind. Schicken Sie uns eine Anfrage (wmay@may.co.at) mit Ihren Anforderungen – sie erhalten umgehend eine Antwort – und bei allgemein verwendbaren Funktionen berechnen wir nur einen Teil der Entwicklungskosten.