Verlässlicher Weg zum (programmatischen) Vergleichen von PDFs? [Duplikat]

7

Ich bin im klassischen Szenario, wo das Geschäft Ihnen ein paar neue PDF-Formulare für das neue Jahr gibt, ohne irgendwelche Revisionsnotizen, und Sie sollten herausfinden, was sich von den Vorjahren unterscheidet .

Ich rede hier über viele Formulare, also versuche ich einen Weg zu finden, PDFs zu vergleichen, um Unterschiede zu umreißen, ohne dass die Leute jeden einzelnen manuell durchlaufen müssen.

Meine Idee war, den gesamten Text aus den PDFs zu extrahieren und in eine .txt-Datei zu kopieren und dann Unterschiede in den Textdateien zu erzeugen, aber das hört sich schrecklich an.

Meine Frage sagt programmgesteuert, aber ich wäre mit allen zuverlässigen Tools zum Vergleichen von PDFs zufrieden und würde hauptsächlich versuchen, eine Idee aus den Erfahrungen der Nutzer zu bekommen. Auch bereit, irgendwelche programmatischen Lösungen zu unterhalten (vorzugsweise in C #, aber pls schießen irgendwelche Ideen).

    
JohnIdol 30.09.2010, 21:18
quelle

4 Antworten

8

Es gibt ziemlich viele Softwareprodukte, die diff pdfs beanspruchen. Ich habe noch nie einen verwenden müssen, aber wenn das ein wiederkehrender Prozess wird, denke ich, dass es für Ihr Unternehmen klug wäre, in eines von ihnen zu investieren. Just Google "pdf diff" für eine Reihe von möglichen Anwendungen.

Außerdem ist Ihre Situation dieser Frage sehr ähnlich: Tool zum Vergleichen einer großen Anzahl von PDF-Dateien? Ich denke, dass seine Diskussion helfen kann.

    
Sorax 30.09.2010, 21:43
quelle
7

Ich bin Entwickler der Docotic.Pdf-Bibliothek . Wir verwenden den PDF-Vergleich in Komponententests, um zu prüfen, ob der Test wie erwartet PDF erzeugt. PDF ist eine Sammlung von speziellen Objekten und wir vergleichen alle PDF-Objekte, wobei einige Eigenschaften wie Trailer-IDs und Erstellerinformationen ignoriert werden. Diese Implementierung funktioniert gut.

Sie können die Methode PdfDocument.DocumentsAreEqual ausprobieren. Diese Methode sagt nur, dass Dokumente gleich sind, ohne spezifische Unterschiede. Sie können uns kontaktieren, wenn Sie mehr Funktionalität benötigen.

    
Vitaliy Shibaev 02.10.2010 03:47
quelle
4

Ich ging den Ansatz, um die Rohdaten aus der PDF zu bekommen, dann Word oder TortiseSVN, oder WinMerge, etc ... zu verwenden, um auf das Vergleichsstück aufzupassen. In meiner Instanz habe ich den Vergleich in einer RichTextBox in C # gemacht ... die Unterschiede eingefärbt, etc ... da wir alles in unserer App haben wollten.

Hier ist was ich getan habe ... PDF-Vergleich , als ich versuchte zu vergleichen gemischte Dokumente, Word und PDF.

Allerdings würde ich PDFBox für das Parsen empfehlen, ein bisschen eleganter ... obwohl iTextSharp in Ordnung war ...

    
Aaron McIver 30.09.2010 21:50
quelle
2

Ich habe einen Blog geschrieben, der einige Ansätze zum Vergleich von PDF-Dateien unter Ссылка     

mark stephens 01.10.2010 07:10
quelle