PDF – Portable Document Format

  1. Startseite
  2. Programmierung
  3. PDF – Portable Document Format

Das Portable Document Format (PDF; deutsch: (trans)portables Dokumentenformat) ist ein plattformunabhängiges Dateiformat für Dokumente, das vom Unternehmen Adobe Systems entwickelt und 1993 veröffentlicht wurde.

Ziel war es, ein Dateiformat für elektronische Dokumente zu schaffen, das diese unabhängig vom ursprünglichen Anwendungsprogramm, vom Betriebssystem oder von der Hardware-Plattform originalgetreu weitergeben kann. Ein Leser einer PDF-Datei soll das Dokument immer in der Form betrachten und ausdrucken können, die der Autor festgelegt hat. Die typischen Konvertierungsprobleme (wie zum Beispiel veränderter Seitenumbruch oder falsche Schriftarten) beim Austausch eines Dokuments zwischen verschiedenen Anwendungsprogrammen entfallen.

Neben Text, Bildern und Grafik kann eine PDF-Datei auch Hilfen enthalten, die die Navigation innerhalb des Dokumentes erleichtern. Dazu gehören zum Beispiel anklickbare Inhaltsverzeichnisse und miniaturisierte Seitenvorschauen.

PDF ist mittlerweile weit verbreitet und wird z. B. von vielen elektronischen Zeitschriften (E-Journals) genutzt. Mittlerweile gibt es auf dem Markt zahlreiche Software-Produkte, die Dateien als PDF erzeugen können, wenn sie auch nicht immer den vollen Funktionsumfang von Adobe Acrobat bieten.

Grundlagen und Software
Aus Texten, Bildern und Grafiken – gemischt oder einzeln – lassen sich mit entsprechenden Programmen PDF-Dokumente/-Dateien erzeugen (z. B. mit kostenlosen Programmen wie dem PDFCreator und OpenOffice.org, kostenpflichtigen wie Adobe Acrobat oder einfach über den Druckdialog) und mit entsprechenden Leseprogrammen darstellen (z. B. Adobe Reader, Ghostscript, Foxit, Vorschau, Okular). Der Ersteller einer PDF-Datei kann diese in vielfältiger Weise vor ungewolltem Gebrauch schützen, indem er die Sicherungsmechanismen des PDF aktiviert. Dadurch sollen u. a. das Urheberrecht besser gewahrt oder durch Verschlüsselung der Zugriff Unbefugter verhindert werden. Je nach Bedarf kann bereits das Öffnen der Datei ein Passwort erfordern, oder das Kopieren von Inhalten aus der Datei oder das Ausdrucken wird nicht zugelassen. Die dafür im PDF implementierten Schutzmechanismen sind jedoch nicht zuverlässig; insbesondere einfachere Formen der Verschlüsselung sind leicht zu überwinden.

In der Startphase war der Adobe Reader kostenpflichtig. Erst die kostenfreie Weitergabe der Software ermöglichte die Verbreitung im heutigen Ausmaß. PDF war lange Zeit ein kommerzielles (proprietäres), aber offengelegtes Dateiformat, das im PDF Reference Manual von Adobe dokumentiert ist. Anfang 2007 hatte Adobe es in den Standardisierungsprozess der ISO eingebracht, und mit der Veröffentlichung am 1. Juli 2008 ist PDF in Version 1.7 als ISO 32000-1:2008 ein Offener Standard.

Bestimmte Methoden beim Umgang mit PDF wurden zur Erleichterung des Datenaustausches in der Druckvorstufe (als PDF/X) schon vorher und zur Langzeitarchivierung von PDF-Dateien (als PDF/A-1 in ISO 19005-1:2005) von der ISO genormt.

Erzeugung und Umwandlung
PDF ist eine vektorbasierte Seitenbeschreibungssprache, die die freie Skalierbarkeit der Darstellung erlaubt. PDF-Dateien beschreiben das mit dem Erstellungsprogramm erzeugte Layout in einer vom Drucker und von Voreinstellungen unabhängigen Form weitgehend originalgetreu. Das ist einer der wesentlichen Unterschiede zwischen PDF und fortgeschrittenen Beschreibungs- und Auszeichnungssprachen wie SGML oder HTML, wenn es um die Forderung nach unbedingter Layouttreue geht.

Um eine Darstellung auch auf Ausgabegeräten mit kleiner Anzeigefläche – wie beispielsweise PDAs oder Mobiltelefonen – zu optimieren, können in einem PDF Auszeichnungen (ähnlich HTML-Tags) eingelagert werden, die ein Umbrechen der Seiteninhalte – dann zwangsläufig unter Einschränkung der Layouttreue – ermöglichen. Solche Auszeichnungen ermöglichen es zudem einem Vorleseprogramm, sehbehinderten Nutzern das Dokument vorzulesen, und erleichtern das Konvertieren des Inhalts in andere Formate.

Adobe räumt Entwicklern teilweise das Recht ein, eigene Anwendungen zur Generierung und Bearbeitung von PDF-Dokumenten zu entwickeln, behält sich aber das Copyright über die Spezifikationen vor. PDF als Seitenbeschreibungssprache kann als Weiterentwicklung des Grafikmodells von PostScript angesehen werden, das ebenfalls offengelegt ist. Ende Februar 2007 hat Adobe angekündigt, die PDF-Spezifikation in der Version 1.7 in die ISO-Normierung einzubringen, und arbeitet dafür mit dem amerikanischen Branchenverband AIIM zusammen, der das Sekretariat des ISO-Komitee TC 171 innehat. Adobe drohte Microsoft bei Integration des offenen Standards PDF mit kartellrechtlichen Klagen.

Verwendung und Eigenschaften
Eine PDF-Datei kann Dokumente eines Ursprungsprogramms, einschließlich aller Farben, Raster- und Vektorgrafiken, sehr präzise wiedergeben. Das gilt grundsätzlich auch für Schriften.

In PDF-Dateien werden alle Informationen als nummerierte Objekte abgespeichert. Objekte sind z. B. Schriftinformationen, Zeichenbreiten, verwendete Zeichen-Encodings (Mac/PC …), Seitenbeschreibung, Parameter für Decoder, Crop-Boxes, einzelne Lesezeichen, Farbdefinitionen, Seitenreihenfolgen, Bitmaps, Formulare, Sprungmarken und alles andere, was in PDF-Dateien gespeichert werden kann. Eine hundertseitige PDF-Datei kann ohne Weiteres 10.000 Objekte enthalten.

Schriften (mit Ausnahme von Pixelschriften) und Vektorgrafiken können beliebig ohne Qualitätsverlust vergrößert werden. Große Netzwerkpläne und Datenmodelle lassen sich unter diesen Voraussetzungen verlustfrei auf einer PDF-Seite unterbringen.

Eine Besonderheit von PDF ist der optionale Dokumentenschutz mit 40 oder 128 Bit-Verschlüsselung. Durch Vergabe eines Benutzerpasswortes ist es so möglich, das Dokument nur einem beschränkten Personenkreis zugänglich zu machen. Weiterhin kann der Autor mit einem separaten Besitzerpasswort gezielt die Rechtevergabe des betreffenden Dokuments festlegen. So kann verhindert werden, dass Benutzer das Dokument abändern, ausdrucken oder Teilinhalte kopieren können. Durch entsprechende Werkzeuge lassen sich auch Rechte vergeben, die es ermöglichen, PDF-Dokumente mit Notizen, Kommentaren und Dateianhängen zu versehen oder Formulareinträge abzuspeichern.

PDF-Dokumente können abhängig vom Einzelfall sowohl größer als auch kleiner als die Dateien der Ursprungsanwendung sein. Die Größe eines Dokuments hängt von der Art der enthaltenen Daten, von der Effizienz des Erstellungsprogramms und davon ab, ob Schriften eingebettet wurden. Schriften können entweder vollständig, als Untermenge der tatsächlich im Dokument verwendeten Zeichen oder aber überhaupt nicht eingebettet werden. Soll ein Dokument zuverlässig darstellbar sein, unabhängig davon, ob auf der Zielplattform die verwendeten Schriften installiert sind, müssen mindestens die tatsächlich verwendeten Zeichen eingebettet werden.

PDF wurde im Laufe seiner Entwicklung mehrfach auf spezielle Anforderungen für die Verwendung im Internet angepasst. So musste ein Dokument ursprünglich vollständig verfügbar sein, um dargestellt werden zu können. Inzwischen ist es möglich, PDF-Dokumente zu linearisieren, so dass Teile davon bereits während des Ladevorgangs dargestellt werden können. Seit Version 1.5 der PDF-Spezifikation können mehrere Objekte in einem PDF zusammengefasst und dann komprimiert werden, was insbesondere bei den für Dokumentstruktur erforderlichen, zahlreichen kleinen Objekten zu einer deutlich besseren Kompression führt (Bilddaten oder die eigentliche Beschreibung einer Seite konnten schon immer komprimiert werden).

Bei der Archivierung gedruckter Dokumente als PDF-Dateien wird ein gemischter Ansatz bevorzugt, um sowohl das Originaldokument weitestgehend zu erhalten als auch Durchsuchbarkeit zu gewährleisten. Durch geschickte Kombination der von PDF prinzipiell unterstützten Bildkompressionsverfahren wird sehr starke Kompression erreicht (typischerweise 1:200), indem Hintergrund (typischerweise flächige Strukturen und Farbverläufe) und Text (scharfe Ränder, dafür nur wenige Farben) mit verschiedenen, dafür speziell geeigneten Verfahren komprimiert und anschließend übereinandergelegt werden. Der eigentliche Text wird per OCR-Verfahren extrahiert und unsichtbar eingebettet.

Quelle: Wikipedia (http://de.wikipedia.org/wiki/PDF)

error: Content is protected !!