Existiert eine Bibliothek, die "Besitzer" -Kennwörter aus PDF-Dokumenten entfernt, so dass der Text dann programmatisch daraus extrahiert werden kann? Etwas wie das Passwort-Wiederherstellungswerkzeug von PDF Technologies , das aber über die Befehlszeile oder von Python aufgerufen werden kann . Eine GUI-Schnittstelle ist für mich nicht wirklich nützlich, da die Anzahl der Dokumente so groß ist.
Bitte keine Kommentare zur Rechtmäßigkeit des Prozesses. Die betreffenden PDFs sind Eigentum, und der Text muss extrahiert werden, um Schlüsselwortwolken für den Dokumentensatz zu bilden.
Ich weiß nichts über Python-Bibliotheken, aber für die Batch-Entfernung von Passwörtern aus PDF-Dokumenten haben meine Kollegen gute Erfahrungen mit PwdRemover (nicht frei).
Hier sind zwei weitere (Open-Source-) Tools für die Befehlszeilenverarbeitung:
%Vor% %Vor%Wenn Sie das Passwort vergessen haben oder der Mitarbeiter, der die Dokumente verschlüsselt hat, das Unternehmen verlassen hat, können Sie PDFCrack wiederherstellen das Passwort (s).
Tags und Links python pdf passwords pdf-generation