Warum sind PDF-Dateien aus MS Word so groß?

9048
Borek Bernard

Ich habe ein einfaches MS Word-Dokument erstellt, das genau diesen Satz enthält:

Dies ist ein kleines Dokument.

Nichts anderes. Dann habe ich dieses Dokument als DOCX und als PDF gespeichert. Hier sind die Dateigrößen:

DOCX: 12 kB
PDF: 89 kB

Technisch ist dieser Unterschied enorm und es fängt an, mich zu stören, wenn meist Textdokumente, die in DOCX Dutzende von Kilobyte groß sind, PDFs generieren, die Hunderte von Kilobyte groß sind. Was ist so ineffizient beim PDF-Format? Oder verwendet Word nur einen schrecklichen Ausgabealgorithmus?

Übrigens wurden die PDF-Ausgabeeinstellungen festgelegt, um die kleinstmögliche Datei zu erstellen:

PDF-Ausgabeoptionen

70
Ich vermute, dass die PDF-Datei die Schriftart einbettet. Dies ist notwendig, wenn ein Dokument wirklich portabel sein soll. AFH vor 8 Jahren 28
Sie können Eigenschaften öffnen, um zu sehen, ob die Schrift eingebettet ist oder nicht phuclv vor 8 Jahren 0
Können Sie einen Link zum "pdf" und vielleicht auch zum "docx" hinzufügen? Hastur vor 8 Jahren 0
Ja, das Zeichensatz-Subset ist eingebettet. Das könnte es sein. Ich habe versucht, den gleichen Satz ein paar hundert Mal zu wiederholen, und die PDF-Dateigröße wuchs nur um 4 KB, was gerade richtig ist. (DOCX blieb bei 12 kB, was keine Überraschung ist, da dies ein komprimiertes Format ist und wiederholter Text kaum neue Bytes benötigt.) Borek Bernard vor 8 Jahren 2
Die Einstellung "Minimale Größe (Online-Veröffentlichung)" wirkt sich wahrscheinlich nur auf die Qualität eingebetteter Bilder aus, nicht auf Schriftarten. Arjan vor 8 Jahren 0
@AFH Spot on! Ich frage mich, ob es auch gängige Schriftarten wie Arial einbinden wird MonkeyZeus vor 8 Jahren 0
@AFH Arial wird nicht eingebettet. http://i.stack.imgur.com/aUZgt.png MonkeyZeus vor 8 Jahren 1
Microsoft Word ist mit Blick auf die Kolmogorov-Komplexität betrachtet viel größer als der durchschnittliche PDF-Viewer, um weit mehr als ein paar hundert KB. hobbs vor 8 Jahren 1
Ich denke, die eigentliche Frage ist, warum Ihr Textverarbeitungsformat so viel größer ist als das entsprechende LaTeX ... :-p Toby Speight vor 8 Jahren 8
Denken Sie auch daran, dass DOCX eigentlich nur eine ZIP-Datei ist, sodass Sie auf Dokumentebene eine integrierte Komprimierung haben. PDF verfügt über einige interne Komprimierungstechniken (Streams), aber es gibt viele Präambeln (Token / Namen), die diejenigen enthalten, die keine Komprimierung erhalten. Chris Haas vor 8 Jahren 1

3 Antworten auf die Frage

103
rene

Wenn Sie die PDF-Datei in Notepad ++ öffnen, finden Sie Folgendes:

9 0 obj <</Filter/FlateDecode/Length 79100/Length1 171804>> stream xœì} XTGºvÕ9½/t7Ðl ..... many more bytes ... ëH|  endstream endobj 10 0 obj 

und dieses Objekt wird hier am Ende in der Anweisung / FontFile2 referenziert:

6 0 obj <</Type/FontDescriptor/FontName/ABCDEE+Calibri/Flags 32/ItalicAngle 0/Ascent 750/Descent -250/CapHeight 750/AvgWidth 521/MaxWidth 1743/FontWeight 400/XHeight 250/StemV 52/FontBBox[ -503 -250 1240 750] /FontFile2 9 0 R>> endobj 

Die vom Word-Dokument verwendeten Schriftarten werden in das PDF-Dokument eingebettet, sodass das PDF-Dokument in sich geschlossen ist.

Ich habe dieses Dia-Deck verwendet, um die PDF-Anweisungen zu entschlüsseln.

Wenn Sie verhindern möchten, dass die Schriftarten in die PDF-Datei eingebettet werden, stellen Sie sicher, dass in Ihrem Word-Dokument eine der 14 in PDF-Viewern verfügbaren Standardschriftarten verwendet wird (Quell- Wikipedia ).

  • Times New Roman> Times (v3) (regelmäßig, kursiv, fett und fett kursiv)
  • Kurier Neu> Kurier (normal, schräg, fett und schräg schräg)
  • Arial> Helvetica (v3) (regelmäßig, schräg, fett und schräg schräg)
  • Symbol> Symbol
  • Wingdings> Zapf Dingbats
Verwandte Themen: http://superuser.com/questions/607840/how-can-i-save-a-word-document-as-a-pdf-ohne-alle- eingebetteten- fonts Borek Bernard vor 8 Jahren 6
Randbemerkung: Das [Linked Slide Deck] (http://www.adobe.com/content/dam/Adobe/de/technology/pdfs/PDF_Day_A_Look_Inside.pdf) (eine Powershell-Präsentation) ist es wert, es zu lesen. Sehr detailiert. Verpassen Sie nicht die Kommentare, in denen er die Struktur eines PDFs erläutert nixda vor 8 Jahren 2
2
Cody Gray

This has happened to me many times in Microsoft Word when trying to export a simple manuscript to PDF. A 5–8 page Word document, ~50 KB in size, will end up as a 10+ MB PDF file, which is far too large to reasonably email to someone.

Rene's answer is on the right track—the problem is that fonts get embedded into the document—but just using one of the standard typefaces won't necessarily solve the problem.

All of my documents were in Times New Roman, using nothing fancier than bold and italics. Or so I thought. It turns out that I have automatic kerning enabled in my default template (for obvious reasons). When exporting to PDF, Word was actually embedding each of those ligatures as a separate font object into the document, bloating it beyond all belief.

The fix is simple, you just have to remember to do it each time:

  1. Select all of the text in the document.
  2. Format → Font → Advanced
  3. Uncheck "Kerning for fonts"

Interestingly, you can leave ligatures, contextual alternatives, and other advanced typography features enabled; they have no perceptible effect on the size of the resulting PDF.

Re-export the document as a PDF, and it's down to a hundred or so KB. Unfortunately, the kerning is sub-par, so I wouldn't recommend printing this way, but it works fine for emailing a document.

-3
Ben Sandeen

Um eine weniger technische Antwort zu geben, kann es hilfreich sein, dass PDFs Vektoren (z. B. mathematische Gleichungen) verwenden, um alles, was Sie sehen, zu beschreiben. Alle Kurven und Linien werden durch mathematische Gleichungen definiert, so dass notwendigerweise eine Vielzahl von Informationen vorhanden sein muss, insbesondere wenn Sie Bilder in Ihren Dokumenten haben.

Dies hat den Vorteil, dass Sie theoretisch unendlich weit zoomen können, ohne dass Auflösung oder Details verloren gehen, da die Linien und Kurven keine Breite haben und sie mit Ihrem Zoom skalieren können.

So wie Google zuletzt mit der Schriftänderung die Größe des Logos von ~ 14 KB auf ~ 300B reduziert hat, können einfachere Schriftarten die Dateigröße reduzieren.

Diese Analogie funktioniert nicht. Überhaupt. Das Logo-Logo von Google bestand nicht nur aus der Schriftart, sondern auch von Farbverläufen zu Flachfarben. Darüber hinaus ist der Export eines Dokuments in eine große Bitmap viel größer als eine Schriftart + Text. Die mathematischen Gleichungen sind, wie Sie irreführend sagen, nur ganzzahlige Koordinatenpaare, von denen es vielleicht einige Dutzend pro Glyphe gibt. Und da es sich um eine Schriftart handelt, muss sie nicht für jeden Buchstaben wiederholt werden. Joey vor 8 Jahren 4