pdf-scraping

___ tag123python ___ Python ist eine dynamische und stark typisierte Programmiersprache, die die Usability betont. Zwei ähnliche, aber größtenteils inkompatible Versionen von Python sind weit verbreitet (2 und 3). Wenn Sie eine versionsspezifische Python-Frage haben, sollten Sie die Tags [python-2.7] oder [python-3.x] zusätzlich zum Tag [python] verwenden. Wenn Sie eine Python-Variante wie jython, pypy, iron-python usw. verwenden, kennzeichnen Sie diese bitte entsprechend. ___ tag123pdf ___ Das Portable Document Format (PDF) ist ein offener Standard für den elektronischen Dokumentenaustausch, der von der Internationalen Organisation für Normung (ISO) gepflegt wird. Fragen können zum Erstellen, Lesen, Bearbeiten von PDFs mit verschiedenen Sprachen sein. ___ qstnhdr ___ Wie kann man ein "gesichertes" (lesegeschütztes) PDF in Python freischalten? ___ answer32620664 ___

Soweit ich weiß, wird in den meisten Fällen der gesamte Inhalt der PDF-Datei tatsächlich verschlüsselt, wobei das Passwort als Verschlüsselungsschlüssel verwendet wird. Daher ist es einfach, %code% auf %code% zu setzen.

Pro Thema:

Gibt es eine Bibliothek zum Entfernen von Passwörtern aus PDFs? programmgesteuert?

Ich würde empfehlen, den Lese-Schutz mit einem Kommandozeilen-Tool wie %code% zu entfernen (leicht installierbar, zB auf Ubuntu benutze %code% , falls du es noch nicht hast):

%Vor%

Öffnen Sie dann die entsperrte Datei mit %code% und machen Sie Ihre Sachen.

Bei einer reinen Python-Lösung können Sie versuchen, %code% und seine %code% -Methode zu verwenden, aber es funktioniert nicht mit allen Arten von Verschlüsselung. Sie verwenden also besser %code% - siehe:

Ссылка

    
___ tag123pdfminer ___ Ein Python-basiertes Tool zum Extrahieren von Informationen aus PDF-Dokumenten. ___ answer45182170 ___

In meinem Fall gab es kein Passwort, sondern einfach die %code% Umgehung der %code% Ausnahme für eine problematische Datei (die sich in anderen Betrachtern gut öffnete).

    
___ tag123pdfcrapping ___ Der Prozess zum Abrufen von Daten aus einem PDF-Dokument umfasst das Öffnen, Lesen und Parsen des Inhalts der PDF-Datei zum Extrahieren von Text, Bildern, Metadaten oder Anhängen ___ qstntxt ___

In Python verwende ich pdfminer , um den Text aus einem PDF mit dem Code unter dieser Nachricht zu lesen. Ich bekomme jetzt eine Fehlermeldung, die sagt:

%Vor%

Wenn ich dieses PDF mit Acrobat Pro öffne, stellt es sich heraus, dass es gesichert (oder "lesegeschützt" ist). Von diesem Link habe ich jedoch gelesen, dass es eine Vielzahl von Diensten gibt, die diesen Leseschutz deaktivieren können leicht (zum Beispiel pdfunlock.com . Beim Eintauchen in die Quelle von pdfminer sehe ich, dass der obige Fehler auf diese Zeilen .

%Vor%

Da es eine Vielzahl von Diensten gibt, die diesen Leseschutz innerhalb einer Sekunde deaktivieren können, nehme ich an, dass dies sehr einfach ist. Es scheint, dass %code% ein einfaches Attribut von %code% ist, aber ich denke nicht, dass es so einfach ist, %code% zu True zu ändern.

Weiß jemand, wie ich den Leseschutz auf einem Pdf mit Python deaktivieren kann? Alle Tipps sind willkommen!

================================================ =

Nachfolgend finden Sie den Code, mit dem ich derzeit den Text aus nicht gelesenen geschützten extrahieren.

%Vor%     
___
2
Antworten

Wie kann man ein "gesichertes" (lesegeschütztes) PDF in Python freischalten?

In Python verwende ich pdfminer , um den Text aus einem PDF mit dem Code unter dieser Nachricht zu lesen. Ich bekomme jetzt eine Fehlermeldung, die sagt: %Vor% Wenn ich dieses PDF mit Acrobat Pro öffne, stellt es sich heraus, dass es gesich...
28.01.2015, 13:02