PDF-Datei mit der Google Translate API übersetzen

9

Ich möchte Google Übersetzer in meinem Projekt verwenden. Ich habe alle Formalitäten mit Google erledigt. Ich habe den API-Schlüssel auch bei mir. Mit diesem Schlüssel kann ich jedes Wort mit JavaScript übersetzen. Aber wie übersetzt man die PDF-Datei, wie wir es auf der Google Übersetzer-Website tun können? Ich fand eine Sache so:

  

Ссылка

Aber hier kann ich meinen Schlüssel nicht benutzen, deshalb braucht es so viel Zeit, um zu übersetzen. Also möchte ich meinen Key benutzen und eine PDF-Datei übersetzen. Bitte hilf mir. Mein Ansatz ist so:

%Vor%

Ich habe nach dieser pdf Übersetzung gesucht, aber nichts gefunden. Bitte hilf mir.

    
Saikat 14.05.2015, 04:49
quelle

2 Antworten

4

TL: DR : Verwenden Sie den Headless-Browser zum Rendern einer PDF-Datei aus dem PDF-Übersetzungsdienst von Google.

PDF ist ein komplexes Format und kann viele Komponenten enthalten, die Text sind. Um es zu übersetzen, werde ich die Lösung von einfach bis fortgeschritten beschreiben.

Rohtext übersetzen

Wenn Sie nur die Übersetzung ohne die visuelle Ausgabe benötigen, können Sie den Text extrahieren und an Google Translate weitergeben.

Da Sie keine Informationen zu Ihrem Projekt (Sprache, Umgebung, ...) zur Verfügung gestellt haben, werde ich Sie zu diesem Thread zum Extrahieren von Text

Übersetze den gesamten Text

Wenn Sie Text von allem in Ihrem PDF benötigen, ist das ziemlich schwierig. Um Kopfschmerzen (teilweise) zu vermeiden, können Sie die PDF in ein Bild umwandeln (mit imagemagick Werkzeugen oder ähnlichem) und dann Sie habe drei Optionen:

  • OCR den Text aus dem Bild, dann geben Sie es an Google, wieder verlieren Sie das ursprüngliche Formular.
  • OCR den Text, aber speichern Sie die Position (einige Bibliotheken können das tun, wieder da Sie Ihre Projektinformationen nicht angegeben haben, siehe diese Links: #1 , # 2 , # 3 , # 4 ).

    Dann übersetze es mit Google API und schreibe das Ergebnis in das Bild. Für gute Ergebnisse müssen Sie Schriftart, Farbe und Hintergrundfarbe berücksichtigen. Ziemlich schwierig, aber machbar.

  • Übersetzen Sie das Bild mithilfe des Google Übersetzer-Image-Service . Leider ist diese Funktion in der öffentlichen API nicht verfügbar, daher ist dies nicht möglich, es sei denn, es wird ein Reverse Engineering durchgeführt.

Übersetzen Sie mit dem PDF-Übersetzungsdienst von Google

Die Lösung, die Sie mithilfe der Übersetzungswebsite bereitstellen, kann relativ einfach automatisiert werden. Der Grund dafür ist, dass es ein schwerer Prozess ist und du Google wahrscheinlich nicht schlagen wirst.

Wenn Sie einen kopflosen Browser verwenden, können Sie die Übersetzungsseite mit Ihrer PDF-Datei abrufen und dann feststellen, dass der übersetzte Inhalt in einem iFrame liegt, den iFrame abrufen und schließlich in PDF drucken.

Hier ist ein kurzes Beispiel mit SlimerJS (sollte für kompatibel sein Phantomjs )

%Vor%

Geben Sie diese Datei: Ссылка Es erzeugt dieses Ergebnis (übersetzt auf Französisch): (Ich habe einen Screenshot gepostet, da ich PDF nicht einbetten kann;))

    
Cyrbil 22.09.2015 13:10
quelle
0

Verwenden Sie Apache Tika, um den Textinhalt der PDF-Datei zu extrahieren (Sie sollten den erforderlichen Java-Code schreiben), und verwenden Sie dann die API, die Sie zum Übersetzen verwenden möchten. Wie bereits erwähnt, ist Google Übersetzer jedoch ein kostenpflichtiger Dienst.

    
Özgür Eroğlu 29.09.2015 11:38
quelle

Tags und Links