Ich habe Beispiele zum Extrahieren von Text aus PDF-Dateien gesehen, die entweder ITextSharp oder PDFBox verwenden. PDFBox scheint die "zuverlässigste" Methode zum Extrahieren von Text zu sein, erfordert jedoch viele zusätzliche Schritte.
Ich habe versucht, die DLLs mit den Anweisungen hier zu erstellen, aber ich habe keine Ahnung, wie Erstellen Sie die erforderlichen Dateien für .Net.
Ich bin ziemlich verloren, könnte jemand Schritt für Schritt eine "Include PDFBox in Ihrer .Net-Anwendung für Dummies" anbieten?
Ich habe es endlich zur Arbeit gebracht. Ich habe die Schritte beschrieben, die ich verfolgt habe, um ein funktionierendes Beispiel zu erhalten. Ich hoffe jemand findet das hilfreich.
Laden Sie das Java-JDK herunter
Laden Sie IKVM 0.42.0.6 herunter
Laden Sie PDFBox 1.6.0-src.zip
Das Ant-Handbuch war hilfreich.
Ich habe die Ordner "Ant" und "PDFBox" umbenannt, um ihre Namen zu verkürzen, und sie auf mein Laufwerk C: verschoben
Sie müssen Ihre Umgebungsvariablen einrichten. (Windows 7) Klicken Sie mit der rechten Maustaste auf Arbeitsplatz- & gt; Eigenschaften- & gt; Erweiterte Systemeinstellungen- & gt; Umgebungsvariablen
Ich habe die folgenden Einstellungen verwendet, aber Ihre hängt davon ab, wo Sie Java installiert haben und wo Sie die Ordner Ant und PDF Box abgelegt haben.
%Vor%Sobald das obige getan ist, geben Sie "ant" in einem Befehlsfenster ein, Sie sollten eine Meldung "build.xml does not exist!" erhalten, wenn alles korrekt eingerichtet ist.
Bearbeiten Sie die Datei build.xml im Ordner "pdfbox-1.6.0 \ pdfbox". Finde die Zeile, die das hat Ersetzen Sie "." Durch "Ihr IKVM-Ordnerpfad".
Ich habe IKVM nach "C: \ IKVM" verschoben, sodass meine aussieht:
Öffnen Sie ein Befehlsfenster und wechseln Sie zu "C: \ pdfbox-1.6.0 \ pdfbox" und geben Sie "ant"
ein... und dann geschieht ein Wunder.
Im Ordner "pdfbox" sollte jetzt eine Menge neuer Ordner vorhanden sein. Die erforderlichen DLLs befinden sich im Ordner bin. Ich weiß nicht warum, aber ich habe einen "-SNAPSHOT" und das Ende aller meiner Dateien (pdfbox-1.6.0-SNAPSHOT.dll).
IKVM.GNU.Classpath (auch IKVM.OpenJDK.Classpath genannt) existiert nicht mehr, seit der Version 0.40 wurde er modularisiert. Es ist jetzt in Form von mehreren IKVM.OpenJDK dll's verfügbar. Sie brauchen nur ein paar von ihnen.
Erstellen Sie ein neues Projekt in Visual Studio C #
Kopieren Sie diese Dateien aus dem binären Ordner "pdfBox" in den Ordner "bin" des Ordners "Visual C #-Projektablage":
%Vor%Kopieren Sie diese Dateien aus dem Ordner "ikvm bin" in den Ordner "bin" in Ihrem Visual C # -Projektkorbordner:
%Vor%Fügen Sie Referenzen zu den oben genannten IKVM-DLLs hinzu und erstellen Sie Ihr Projekt.
Fügen Sie einen Verweis auf die pdfbox dll hinzu und erstellen Sie Ihr Projekt erneut.
Sie können jetzt einen Code schreiben. Das einfache Beispiel unten erzeugte eine nette Textdatei aus der Eingabe-PDF.
%Vor%Tags und Links java .net c# visual-studio lucene