PDF/A: Wie Erlangen umfangreiche Bauakten archiviert

Seit PDF/A als ISO-Standard formuliert ist, empfiehlt auch der IT-Beauftragte des Bundes das Format für die Langzeitarchivierung. Vom Erscheinungsbild bis zu den Metadaten – eine PDF/A-Datei kapselt alle relevanten Informationen. Wie viel Speicherplatz sie braucht, hängt allerdings vom Kompressor ab.

Langzeitarchivierung nach ISO-Standard

Von Frank Zscheile

Wenn es darum geht, elektronische Dokumente revisionssicher und für lange Zeit zu archivieren, ist PDF/A heute das geeignete Format. 2008 wurde die eingegrenzte Variante des Portable Document Formats (PDF) von der International Organization for Standardization (ISO) als Standard für die Langzeitarchivierung bestätigt (ISO-Standard 19005). Die Anerkennung vermeidet, dass Unternehmen für die Archivierung eigene Unterdialekte von PDF erzeugen. Und Anwender können sicherstellen, dass ihre Dokumente auch über Jahre lesbar bleiben, wenn sie im PDF/A-Format abgespeichert werden.

Die Erstellung solcher Dokumente verläuft etwas anders als gewohnt: Während der Anwender aus zahllosen Freeware-Tools wählen kann, wenn er herkömmliche PDFs erzeugt, benötigt er für den ISO-Standard spezielle Werkzeuge, die allerdings immer mehr Hersteller anbieten.

Der CIO Bund empfiehlt

Mittlerweile gibt es in vielen Ländern und Branchen Empfehlungen oder sogar gesetzliche Vorgaben für PDF/A. Was den Einsatz des Formates in der öffentlichen Verwaltung in Deutschland angeht, so empfiehlt der Beauftragte der Bundesregierung für Informationstechnik (CIO Bund) PDF/A seit 2008 ausdrücklich für die Langzeitarchivierung. Die damals aktualisierte, noch unter der KBSt (Koordinierungs- und Beratungsstelle der Bundesregierung für Informationstechnik in der Bundesverwaltung) erarbeitete Version 4.0 von SAGA (Standards und Architekturen für E-Government-Anwendungen), lautet:

„Der Standard sollte zur Langzeitarchivierung von Texten und Präsentationen eingesetzt werden. Durch den von der ISO anerkannten Standard lassen sich Dokumentinhalt, Dokumentform und Metadaten zum Dokument in einer archivierten Datei erfassen. Die Anzeige der Datei ist auch ohne die Ursprungsanwendung möglich. Ebenso findet eine barrierefreie Darstellung von Inhalten statt.“

SAGA beschreibt Standards, Technologien und Methoden für den Einsatz von Informationstechnik in Bundesbehörden und gibt Empfehlungen zum Bereich E-Government in der öffentlichen Verwaltung. Protagonisten des Formates wie Carsten Heiermann, Mitglied der PDF/A Association und Geschäftsführer des Softwarehauses LuraTech aus Berlin, gehen davon aus, dass sich vor dem Hintergrund derartiger Empfehlungen PDF/A immer stärker in der Praxis durchsetzen wird.

Die PDF Association

PDFA.jpg

Die 2011 neu formierte PDF Association ist ein welt­weit organisierter Interessen­verband, der Software­anbieter mit Informa­tionen und Ressourcen zu den ver­schiedenen inter­nationalen PDF-Standards versorgt. Derzeit sind über 100 Unter­nehmen und zahl­reiche Experten aus über 20 Ländern Mit­glied des Verbands, die auch die Nach­folge des 2006 gegründeten PDF/A Com­petence Centers angetreten hat. Auf ihrer Web­seite www.pdfa.org stellt die Association zahlreiche Informa­tionen rund um Standards wie PDF/A zur Verfügung. „PDF/A hat inzwischen eine allgemeine und breite Akzeptanz gefunden“, erklärt Carsten Heier­mann. „Nicht zu vergessen ist die Tatsache, dass jede PDF/A-Datei immer eine PDF-Datei ist. Für kaum ein anderes Format gibt es so zahlreiche Werk­zeuge und Lösungen. Alles was ausgedruckt werden kann, lässt sich auch als PDF bzw. PDF/A abspeichern.“

In stabilen Universalcontainern

Bislang hielten die meisten Behörden und Unternehmen ihre elektronischen Dokumente schließlich im TIFF- oder JPEG-Format vor. Diese sind jedoch inzwischen z.T. veraltet und haben vor allem den Nachteil, dass sie nicht volltextfähig sind. Das ist bei PDF/A anders.

Als normierte ISO-Variante des ver­breiteten PDF-Formats bietet es größt­mögliche Com­pliance-Sicher­heit für die An­wender, speichert die Doku­mente ver­gleichs­weise kleiner ab, gibt sie original­getreu wieder, unter­stützt Farbe sowie Meta­daten und er­möglicht die Voll­text­suche. Die Datei ent­hält in sich stets alle zur Dar­stellung er­forder­lichen Bestand­teile und ihre visuelle Re­präsenta­tion bleibt zweifels­frei er­halten – un­ab­hängig von einem be­stimmten Betriebs­system, Pro­dukt oder Hersteller.

PDF-A-Process-Graphi.JPG
Dokumente unterschiedlichster Quellen lassen sich im PDF/A-Format archivieren. (Grafik: PDF Association)

Ein entscheidender Vorteil des Formates ist die universelle Einsatzfähigkeit. Sowohl für gescannte Dokumente als auch für vektorisierte Dateien oder Office-Dokumente und CAD-Zeichnungen kann man einheitlich PDF/A nutzen. Es ist dabei nicht notwendig, z.B. Word-Dateien zunächst als TIFF gerastert zu speichern; vielmehr kann sie der Anwender direkt ins PDF/A-Format konvertieren und ablegen.

Erlangen baut mit PDF/A

Ein gutes Beispiel ist die Stadt Erlangen. Dort haben über 70 % der Bürgerinnen und Bürger einen Internet-Zugang – weit mehr als der Bundesdurchschnitt. Vom Rathaus erwarten sie ein entsprechend umfassendes Online-Angebot. Deshalb hat die mittelfränkische Großstadt vor einigen Jahren ein eGovernment-Center eingerichtet, das sich auch mit der elektronischen Bearbeitung von Dokumenten und Vorgängen beschäftigt. Verschiedene Dateiformate, ihre Verwendbarkeit und Langlebigkeit wurden in diesem Zusammenhang diskutiert. Als gewichtig erwies sich dabei die Frage nach den Kosten für Speicherplatz.

Denn wenn elektronische Dokumente über Jahre hinweg aufgehoben werden müssen, fallen je nach Speicherformat enorme Kosten an. Eine Software, die umfangreiche Dateien wie Bauakten mit ihren großformatigen Zeichnungen automatisch komprimiert und gleichzeitig ins PDF/A-Format transformiert, kann also dabei helfen, viel Geld zu sparen. Heute setzt Erlangen daher für die Langzeitarchivierung und Datenkompression von Bauakten auf eine Lösung, die im Multilayer-Komprimierungsverfahren die im Dokument enthaltenen Text- bzw. Bildanteile in einzelne Ebenen segmentiert und diese separat mit den jeweils bestmöglichen Algorithmen komprimiert. Das Ergebnis ist eine sehr gute Schrift- und Bildqualität bei extrem kleinen Dateigrößen.

Fazit: Noch kleiner, noch umfassender

Und der Standard entwickelt sich stetig weiter: Mittlerweile sind zwei Teile der ISO-Norm von PDF/A veröffentlicht. In PDF/A-2 sind zahlreiche Neuerungen eingeflossen, die zwischen PDF 1.4 (der Basis für PDF/A-1) und ISO 32.000 (der Basis für PDF/A-2) erschienen und vorteilhaft für die Archivierung sind. Dazu gehört u.a. die Einbindung von JPEG-2000-Bildern. Diese werden bei gescannten Dokumenten für die Farbebenen der MRC-Kompressionstechnologie verwendet. Das MRC-Verfahren (Mixed Raster Content) unterscheidet bei Dokumenten einzelne Ebenen, die dann separat mit den jeweils bestmöglichen Algorithmen komprimieren werden. Im Vergleich zu PDF/A-1 sind auf diese Weise noch einmal ca. 10–20 % mehr Kompression möglich. Zusätzlich wird mit dem Verfahren die Qualität der Bildanteile verbessert.

Der kurz vor der Veröffentlichung stehende dritte Normteil von PDF/A hat im Vergleich zu PDF/A-2 nur ein einziges zusätzliches Feature, das aber die Handhabung digitalisierter Dokumente stark erleichtert. Denn PDF/A-3 ermöglicht es, auch nicht PDF/A-konforme Informationen wie CSV-, XML– oder Office-Dateien und deren spezifische Daten in Form eines „Attachments“ gleich einzubetten. Somit stehen die leicht lesbaren und von Maschinen wie Menschen verwertbaren Metadaten mit dem digitalen Image in einer Datei zur Verfügung. Daraus ergeben sich in Anwendungsbereichen, wo digitale Originale ungeachtet ihrer Verwendbarkeit in ferner Zukunft aufzubewahren sind, enorme Vorteile.

Nützliche Links