Langzeitarchivierung nach ISO-Standard
Von Frank Zscheile
Wenn es darum geht, elektronische Dokumente revisionssicher und für lange Zeit zu archivieren, ist PDF/A heute das geeignete Format. 2008 wurde die eingegrenzte Variante des Portable Document Formats (PDF) von der International Organization for Standardization (ISO) als Standard für die Langzeitarchivierung bestätigt (ISO-Standard 19005). Die Anerkennung vermeidet, dass Unternehmen für die Archivierung eigene Unterdialekte von PDF erzeugen. Und Anwender können sicherstellen, dass ihre Dokumente auch über Jahre lesbar bleiben, wenn sie im PDF/A-Format abgespeichert werden.
Die Erstellung solcher Dokumente verläuft etwas anders als gewohnt: Während der Anwender aus zahllosen Freeware-Tools wählen kann, wenn er herkömmliche PDFs erzeugt, benötigt er für den ISO-Standard spezielle Werkzeuge, die allerdings immer mehr Hersteller anbieten.
Der CIO Bund empfiehlt
Mittlerweile gibt es in vielen Ländern und Branchen Empfehlungen oder sogar gesetzliche Vorgaben für PDF/A. Was den Einsatz des Formates in der öffentlichen Verwaltung in Deutschland angeht, so empfiehlt der Beauftragte der Bundesregierung für Informationstechnik (CIO Bund) PDF/A seit 2008 ausdrücklich für die Langzeitarchivierung. Die damals aktualisierte, noch unter der KBSt (Koordinierungs- und Beratungsstelle der Bundesregierung für Informationstechnik in der Bundesverwaltung) erarbeitete Version 4.0 von SAGA (Standards und Architekturen für E-Government-Anwendungen), lautet:
- „Der Standard sollte zur Langzeitarchivierung von Texten und Präsentationen eingesetzt werden. Durch den von der ISO anerkannten Standard lassen sich Dokumentinhalt, Dokumentform und Metadaten zum Dokument in einer archivierten Datei erfassen. Die Anzeige der Datei ist auch ohne die Ursprungsanwendung möglich. Ebenso findet eine barrierefreie Darstellung von Inhalten statt.“
SAGA beschreibt Standards, Technologien und Methoden für den Einsatz von Informationstechnik in Bundesbehörden und gibt Empfehlungen zum Bereich E-Government in der öffentlichen Verwaltung. Protagonisten des Formates wie Carsten Heiermann, Mitglied der PDF/A Association und Geschäftsführer des Softwarehauses LuraTech aus Berlin, gehen davon aus, dass sich vor dem Hintergrund derartiger Empfehlungen PDF/A immer stärker in der Praxis durchsetzen wird.
Die 2011 neu formierte PDF Association ist ein weltweit organisierter Interessenverband, der Softwareanbieter mit Informationen und Ressourcen zu den verschiedenen internationalen PDF-Standards versorgt. Derzeit sind über 100 Unternehmen und zahlreiche Experten aus über 20 Ländern Mitglied des Verbands, die auch die Nachfolge des 2006 gegründeten PDF/A Competence Centers angetreten hat. Auf ihrer Webseite www.pdfa.org stellt die Association zahlreiche Informationen rund um Standards wie PDF/A zur Verfügung. „PDF/A hat inzwischen eine allgemeine und breite Akzeptanz gefunden“, erklärt Carsten Heiermann. „Nicht zu vergessen ist die Tatsache, dass jede PDF/A-Datei immer eine PDF-Datei ist. Für kaum ein anderes Format gibt es so zahlreiche Werkzeuge und Lösungen. Alles was ausgedruckt werden kann, lässt sich auch als PDF bzw. PDF/A abspeichern.“
In stabilen Universalcontainern
Bislang hielten die meisten Behörden und Unternehmen ihre elektronischen Dokumente schließlich im TIFF- oder JPEG-Format vor. Diese sind jedoch inzwischen z.T. veraltet und haben vor allem den Nachteil, dass sie nicht volltextfähig sind. Das ist bei PDF/A anders.
Als normierte ISO-Variante des verbreiteten PDF-Formats bietet es größtmögliche Compliance-Sicherheit für die Anwender, speichert die Dokumente vergleichsweise kleiner ab, gibt sie originalgetreu wieder, unterstützt Farbe sowie Metadaten und ermöglicht die Volltextsuche. Die Datei enthält in sich stets alle zur Darstellung erforderlichen Bestandteile und ihre visuelle Repräsentation bleibt zweifelsfrei erhalten – unabhängig von einem bestimmten Betriebssystem, Produkt oder Hersteller.
Dokumente unterschiedlichster Quellen lassen sich im PDF/A-Format archivieren. (Grafik: PDF Association)
Ein entscheidender Vorteil des Formates ist die universelle Einsatzfähigkeit. Sowohl für gescannte Dokumente als auch für vektorisierte Dateien oder Office-Dokumente und CAD-Zeichnungen kann man einheitlich PDF/A nutzen. Es ist dabei nicht notwendig, z.B. Word-Dateien zunächst als TIFF gerastert zu speichern; vielmehr kann sie der Anwender direkt ins PDF/A-Format konvertieren und ablegen.
Erlangen baut mit PDF/A
Ein gutes Beispiel ist die Stadt Erlangen. Dort haben über 70 % der Bürgerinnen und Bürger einen Internet-Zugang – weit mehr als der Bundesdurchschnitt. Vom Rathaus erwarten sie ein entsprechend umfassendes Online-Angebot. Deshalb hat die mittelfränkische Großstadt vor einigen Jahren ein eGovernment-Center eingerichtet, das sich auch mit der elektronischen Bearbeitung von Dokumenten und Vorgängen beschäftigt. Verschiedene Dateiformate, ihre Verwendbarkeit und Langlebigkeit wurden in diesem Zusammenhang diskutiert. Als gewichtig erwies sich dabei die Frage nach den Kosten für Speicherplatz.
Denn wenn elektronische Dokumente über Jahre hinweg aufgehoben werden müssen, fallen je nach Speicherformat enorme Kosten an. Eine Software, die umfangreiche Dateien wie Bauakten mit ihren großformatigen Zeichnungen automatisch komprimiert und gleichzeitig ins PDF/A-Format transformiert, kann also dabei helfen, viel Geld zu sparen. Heute setzt Erlangen daher für die Langzeitarchivierung und Datenkompression von Bauakten auf eine Lösung, die im Multilayer-Komprimierungsverfahren die im Dokument enthaltenen Text- bzw. Bildanteile in einzelne Ebenen segmentiert und diese separat mit den jeweils bestmöglichen Algorithmen komprimiert. Das Ergebnis ist eine sehr gute Schrift- und Bildqualität bei extrem kleinen Dateigrößen.
Fazit: Noch kleiner, noch umfassender
Und der Standard entwickelt sich stetig weiter: Mittlerweile sind zwei Teile der ISO-Norm von PDF/A veröffentlicht. In PDF/A-2 sind zahlreiche Neuerungen eingeflossen, die zwischen PDF 1.4 (der Basis für PDF/A-1) und ISO 32.000 (der Basis für PDF/A-2) erschienen und vorteilhaft für die Archivierung sind. Dazu gehört u.a. die Einbindung von JPEG-2000-Bildern. Diese werden bei gescannten Dokumenten für die Farbebenen der MRC-Kompressionstechnologie verwendet. Das MRC-Verfahren (Mixed Raster Content) unterscheidet bei Dokumenten einzelne Ebenen, die dann separat mit den jeweils bestmöglichen Algorithmen komprimieren werden. Im Vergleich zu PDF/A-1 sind auf diese Weise noch einmal ca. 10–20 % mehr Kompression möglich. Zusätzlich wird mit dem Verfahren die Qualität der Bildanteile verbessert.
Der kurz vor der Veröffentlichung stehende dritte Normteil von PDF/A hat im Vergleich zu PDF/A-2 nur ein einziges zusätzliches Feature, das aber die Handhabung digitalisierter Dokumente stark erleichtert. Denn PDF/A-3 ermöglicht es, auch nicht PDF/A-konforme Informationen wie CSV-, XML– oder Office-Dateien und deren spezifische Daten in Form eines „Attachments“ gleich einzubetten. Somit stehen die leicht lesbaren und von Maschinen wie Menschen verwertbaren Metadaten mit dem digitalen Image in einer Datei zur Verfügung. Daraus ergeben sich in Anwendungsbereichen, wo digitale Originale ungeachtet ihrer Verwendbarkeit in ferner Zukunft aufzubewahren sind, enorme Vorteile.