PDF/A-3: Archivformat oder nur Container für beliebige Inhalte?

11. April 2013 11:24 Uhr  |  Dr. Ulrich Kampffmeyer  |  Permalink


Bereits sehr kurz nach PDF/A-2 wurde von der ISO im Oktober 2012 PDF/A-3 als Norm 19005-3:2012 veröffentlicht. PDF/A-3 ist der dritte Teil des PDF/Archive-Standards. Aber PDF/A-3 ist anders als die Vorgänger PDF/A-1 und PDF/A-2. Und es stellt sich die Frage, ob PDF/A-3 überhaupt in die Reihe der PDF-Archivformate gehört. Ein neuer Guide der PDFA Association gibt Aufschluss und eine DIskussion auf XING steltt unbequeme Fragen.

Die Norm "ISO 19005-3:2012 Document management — Electronic document file format for long-term preservation — Part 3: Use of ISO 32000-1 with support for embedded files (PDF/A-3)" erschien sehr kurz nach PDF/A-2. Warum ein weiteres neues Format nach PDF/A-2 veröffentlichen, wenn doch PDF/A-2 die kritisierten Schwachpunkte von PDF/A-1 beseitigt hatte? In einer längeren Diskussion auf XING (http://bit.ly/XIDM-PDFA3) "PDF/A-3 und das Kuckucksei" wurde diese Frage von Dr. Joeris, SER, erneut aufgegriffen. PDF/A-3 ist in erster Linie ein Container. In PDF/A-3 können beliebige Dateiformate eingebettet werden – auch solche, die unter Langzeitarchivierungsgesichtspunkten nicht stabil sind. Öffnet man einen PDF/A-3-Container heißtE dies nicht, dass das (oder die) enthaltene Objekt auch angezeigt und reproduziert werden kann. PDF/A-1 und PDF/A-2 waren dagegen "plattgeklopfte" Archivformate, denen alle dynamischen Komponenten (wie Links, externe Zeichensätze, etc.) entzogen wurden, um langfristig stabil eine Wiedergabe sicherzustellen. Aber es auch gibt Argumente, die PDF/A-3 als Archivformat interssant machen, da man hier zum Beispiel ein Origianlformat in Word mit der Anzeigekopie als PDF/A-2 nebst dazugehörigen beschreibenden Daten als XML in ein Objekt packen kann. Für eine Langzeitarchivierung müsste dann aber von der erzeugenden Anwendung oder dem Anwender sichergestellt werden, dass ein langfristig stabiles Format wie PDF/A1 oder PDF/A-2 in jedem Fall in dem PDF/A-3-Container enthalten ist. Sicher wird auch das amerikanische Nationalarchiv NARA, einer der Treiber für PDF/A-3, dies im Sinn gehabt haben. Auch wäre es denkbar, PDF/A-3 als das Standard-Format für AIP (Archival Information Object) nach ISO 14721 OAIS Open Archive Information System zu nutzen.

Die Diskussion auf XING suchte (und fand) andere Anwendungsgebiete wie z.B. die Nutzung für Objekte mit elektronischen Signaturen und dazuzuspeichernden Zertifikaten oder ZUGFeRD formatierte elektronische Rechnungen nebst XML-Daten. Die grundlegenden Aussagen lassen sich in folgenden Thesen fokussieren:

  1. Sind PDF/A-1 und PDF/A-2 Archivformate?
    Ja, da sie das Objekt stabil "einfrieren"
     
  2. Ist PDF/A-3 ein Archivformat?
    Nein, es ist ein Container für beliebige Inhalte, darunter können auch Archivformate sein!
     

  3. Ist PDF/A-3 das (gesuchte – geeignete – wie auch immer) Format für das Archival Information Package (AIP) nach ISO 14721:2012 OAIS Open Archive Information System?
    Auch eher Nein, denn es wird so nicht positioniert, oder?
     
  4. Kann ein Format wie PDF/A-3 die Nutzbarkeit und Reproduzierbarkeit von Inhalten und sich selbst als Format für lange Archivierungszeiträume (> 30 Jahre) sicherstellen?
    🙂

Diese Fragen zu PDF/A-3 werden nur zum Teil in dem neuen Guide "PDF/A kompakt 2.0"  (http://bit.ly/PDFAkompakt) der PDFA Association vom März 2013 beantwortet. Dennoch bietet der Guide von Alexandra Oettler einen qualifizierten Einstieg in die Anwendungsgebiete von PDF/A. Was wir uns wünschen würden, wäre eine klarere Stellungnahme zu PDF/A-3 und dass in jedes PDF/A3 mindestens ein PDF/A-1 oder PDF/A2 gehört, damit das PDF/A-3 langzeitarchivierungsfähig ist. Denn so wie die ISO-Norm es in der Norm-Klassifikation beschreibt, "Electronic document file format for long-term preservation", ist PDF/A-3 nicht angelegt!

 

Genaugenommen wäre es besser gewesen, mit dem Container-Format eine eigene Serie der ISO-Normen zu PDF aufzumachen: PDF/C für PDF/Container!

Dr. Ulrich Kampffmeyer

Curriculum auf Wikipedia https://de.wikipedia.org/wiki/Ulrich_Kampffmeyer

4 Kommentare zu “PDF/A-3: Archivformat oder nur Container für beliebige Inhalte?

  • Was ist PDF/A-3?
    11. April 2013 um 11:48
    Permalink

    Vielen Dank! Es ist immer wieder bemerkenswert, wie Sie Sachverhalte auf den Punkt bringen und eindeutig bewerten.

    Antwort
  • Wären dann zwei Formate nicht besser gewesen?
    14. November 2014 um 14:00
    Permalink

    Bezugnehmend auf Ihre letzte Anmerkung: „Genaugenommen wäre es besser gewesen, mit dem Container-Format eine eigene Serie der ISO-Normen zu PDF aufzumachen: PDF/C für PDF/Container!“

    –> Wenn man Ihrer Argumentation folgt, hätte man dann doch besser zwei Format-Spezifikationen erstellen müssen: PDF/AC und PDF/C ?

    Es kann durchaus sinnvoll sein, das archivierungssichere PDF/A-Dokumente zusätzlich inhaltlich elektronisch verarbeitet werden müssen, z.B. für inhaltsbezogene Datenbankrecherchen, dahinerliegend aber das archivierte PDF/A gespeichert haben. Wenn die zur Verarbeitung notwendigen Informationen dann in einem XML-Container vorliegen, ist das Ziel doch erreicht, oder?

    Diese PDFs dann zweimal zu erzeugen und verwerten zu lassen, einmal PDF/A und einmal PDF/C dürfte nicht zielführend sein.

    Mit freundlichen Grüßen,
    D. Gaisar

    Antwort
    • PDF/A als Archivformat
      15. November 2014 um 7:26
      Permalink

      Sehr geehrter Herr Gaisar,

      aus archivischen Gesichtspunkten muss ich Ihnen widersprechen. Es handelt sich um zwei verschiedene Anwendungsfälle.
       

      PDF/A-1 und PDF/A-2 sind ausgelegt worden ein langzeitig stabiles Format zu erzeugen, bei dem alle dynamischen Komponenten einer Ursprungsdatei "eingefroren" werden. PDF/A als Langzeitarchivformat bindet dazu alle für eine Visualisierung notwendigen Komponenten ein. Es ist in einem PDF-Viewer anzeigbar, ohne dass Verlinkungen, aktiver Programmcode und andere Elemente, die eine ausführbare Programmumgebung erfordern, aktiviert werden.
       

      Bei PDF/A-3 kann man beliebige Inhaltskomponenten in den Container einbetten, deren Wiedergabe durch PDF nicht kontrolliert ist. Dies können beliebige Dateien, ausfürhbare Programme, Schadsoftware, Viren und alles Mögliche sein. In einem solchen Container können mehrere unterschiedliche solcher Objekte enthalten sein, die jeweils eine unterschiedliche Ausführungsumgebung erfordern.
       

      Betrachten wir dies einmal aus Sicht von Anwendungsfällen. In einer elektronischen Akte soll ein Anwender zum Ablauf eines Falles im Rahmen der Vorgangsbearbeitung einen Vertrag mit einer enthaltenen Kalkulationstabellenansicht zur Anzeige erhalten; sagen wir einmal 10 Jahre nach Speicherung des Objektes. Er soll diesen Vertrag nicht bearbeiten sondern als Grundlage für eine Entscheidung nur einsehen. Bei PDF/A-1 oder PDF/A2 würde ihm der PDF-Viewer das Objekt wie vorgesehen nur anzeigen. In einem PDF/A-3-Container wären aus einem PDF noch eine Excel-Datei von Office95 enthalten. Die Client-Software müsste also beim Öffnen in der Lage sein, beide Objekte "auszupacken". Der Sachbearbeiter erhält so zwei Inhaltsobjekte, obwohl er nur eines benötigt und auch nur mit einem arbeiten soll. Das zweite Objekt, die Excel-Datei, könnte er auch anklicken – und dann nicht anzeigen, weil er die entsprechende Version der Software nicht mehr installiert hat. Schon das Öffnen dieses Objektes würde in diesem Fall zu einem Problem führen, das aus dem angestrebten Nutzungsmodell heraus völlig unnötig ist, da der Sachbearbeiter nur die Anzeigekopie benötigt.
       

      In der Außendarstellung wird suggeriert, dass PDF/A-3 genauso wie PDF/A-1 und PDFA-2 ein echtes Archivformat sei. Durch den Container-Charakter, der mehrere beliebige Inhaltskomponenten zulässt, ist aber diese Grundvoraussetzung von PDF/A nicht erfüllt – selbst wenn man voraussetzen würde und dies technisch abprüfte, dass jedes PDF/A-3 mindestens auch ein PDF/A-1 oder PDF/A2 zwingend enthalten muss. Aus diesem Grund habe ich angeregt, auch in der Begrifflichkeit hier eine Differenzierung zu machen, die den unterschiedlichen Charakter und die verschiedenen Einsatzgebiete deutlicher macht. PDF/A-1 und PDF/A-2 sind "echte" Archivformate, wohingegen PDF/A-3 nur dann ein Archivformat ist, wenn den die Inhalte des PDF/A-3-Containers den archivischen Anforderungen genügen.PDF/A-3 kann archivtauglich sein, ist es aber nicht per se.
       

      Ihr Argument, "Diese PDFs dann zweimal zu erzeugen und verwerten zu lassen, einmal PDF/A und einmal PDF/C dürfte nicht zielführend sein." ist daher nicht zielführend und muss entsprechend dem Anwendungsfall unterschieden werden. PDF/A-3 sehe ich als Mittel, unterschiedliche Inhalte zu bündeln, um sie im Zusammenhang bereitzustellen. PDF/A-1 und PDF/A-2 dagegen liefern integere Einzelobjekte, die stabil und nur für Präsentationszwecke gedacht sind. 

      Antwort
      • PDFs und die Archivierung
        15. November 2014 um 10:50
        Permalink

        Wir wissen um die Unterschiede der einzelnen PDF Formate. Wir wissen wo wir welche Datenformate für welche Archivierung brauchen. Wir wissen demnach, wann wir welches PDF-Format und auch Kombination einsetzen.

        Wenn ich nun zur visuellen Archivierung zusätzlich deren Inhalte als strukturierte Daten mit „zupacken“ möchte, warum soll ich das nicht tun? Ob es beim „entpacken“ noch Software oder Werkzeuge gibt diese lesbar oder auswertbar zu machen, muss mich nicht interessieren. Der Archivanforderung wird durch die „federführende“ visuelle Archivierung Genüge getan.

        Ich selbst werde mein Engagement auf die Vermittlung von Anwendungsfällen konzentrieren und freue mich über jede Mitstreiterin, über jeden Mitstreiter.

        Antwort

Schreibe einen Kommentar zu Peter Rösch Antworten abbrechen

Ihre E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert.

Ich stimme zu, dass die von mir eingegebenen Daten einschließlich der personenbezogenen Daten an PROJECT CONSULT übermittelt und dort zur Prüfung der Freischaltung meines Kommentars verwendet werden. Bei Veröffentlichung meines Kommentars wird mein Name, jedoch nicht meine E-Mail und meine Webseite, angezeigt. Die Anzeige des Namens ist notwendig, um eine individuelle persönliche Kommunikation zu meinem Beitrag zu ermöglichen. Anonyme oder mit falschen Angaben eingereichte Kommentare werden nicht veröffentlicht. Zu Nutzung, Speicherung und Löschung meiner Daten habe die Datenschutzerklärung zur Kenntnis genommen.

Ich versichere, mit meinem Kommentar alle gültigen Vorgaben des Urheberrechts beachtet zu haben. Ich habe keine Bilder, Grafiken, Texte oder Links in meinem Beitrag verwendet, die durch CopyRight, Leistungsschutzrecht oder Urheberrecht geschützt sind. Für den Inhalt meines Kommentars bin ich trotz Prüfung und Freischaltung durch PROJECT CONSULT ausschließlich selbst verantwortlich. Meine Rechte am Beitrag werden bei PROJECT CONSULT nur durch die CC Creative Commons by-nc-nd Vorgaben gewahrt.